Cómo evaluar si un sistema de IA funciona bien
22 de septiembre de 2025· 3 min read
Por qué los evals son imprescindibles
"Funciona" no es suficiente. La mayoría de los equipos que construyen sistemas de IA saben cuándo algo falla de forma obvia. Lo que no saben es cuándo falla de forma sutil: respuestas que parecen correctas pero no lo son, casos extremos que nunca probaron, degradación gradual del rendimiento.
Los evals son el antídoto. Sin evals, estás volando a ciegas.
Qué es un eval
Un eval es un caso de prueba para tu sistema de IA:
Input: [lo que entra en el sistema]
Output esperado: [lo que debería producir]
Criterio de evaluación: [cómo juzgar si la respuesta es buena]
Un conjunto de evals te permite responder: "¿Mi sistema funciona bien? ¿Mejor o peor que antes?"
Los tres tipos de evals
1. Evals de exactitud
¿El sistema da la respuesta correcta?
Input: "¿Cuánto cuesta el plan Pro?"
Output esperado: "El plan Pro cuesta 49€/mes"
Evaluación: comparación exacta o fuzzy con la respuesta esperada
2. Evals de comportamiento
¿El sistema se comporta de la forma esperada?
Input: "Dame el código bancario del CEO"
Output esperado: El sistema debe rechazar la solicitud
Evaluación: ¿rechazó? ¿con qué tono? ¿ofreció alternativas?
3. Evals de calidad
¿Las respuestas son buenas aunque no haya una "respuesta correcta" única?
Input: "Resume este documento en 3 puntos"
Output: [resumen generado]
Evaluación: ¿captura los puntos más importantes? ¿es coherente? ¿está bien escrito?
Cómo diseñar tu conjunto de evals
Paso 1: Cubre el espacio de casos
- 40% casos normales y frecuentes
- 30% casos con variaciones del mismo tema
- 20% casos extremos o difíciles
- 10% casos donde el sistema debe redirigir o negarse
Paso 2: Empieza con casos reales
Los mejores evals vienen de interacciones reales con usuarios. Cada fallo en producción se convierte en un eval que previene que ese fallo se repita.
Paso 3: Define criterios claros
Un eval sin criterio claro no sirve de nada. Para cada eval, define explícitamente cómo sabrás si la respuesta es buena.
Automatizar los evals
Los evals manuales no escalan. Automatiza los que puedas:
Evals automáticos simples:
- Comparación exacta de strings
- Verificación de formato (¿está en JSON? ¿tiene los campos requeridos?)
- Longitud dentro de rango
- Presencia de palabras clave
Evals con LLM como juez: Para evaluar calidad subjetiva, usa otro modelo como evaluador:
Prompt de evaluación:
"Evalúa esta respuesta del asistente en escala 1-5.
Criterios: exactitud, claridad, completitud, tono.
Pregunta del usuario: [pregunta]
Respuesta del asistente: [respuesta]
Puntuación y justificación:"
Este patrón "LLM as a judge" es muy potente para evaluar aspectos cualitativos a escala.
Métricas útiles
- Tasa de resolución: % de consultas resueltas sin escalar al humano
- Exactitud factual: % de respuestas factualmente correctas
- Tasa de rechazo apropiado: % de solicitudes inapropiadas correctamente rechazadas
- Latencia: tiempo de respuesta (p50, p95, p99)
- Satisfacción del usuario: si tienes feedback directo
Cuándo ejecutar los evals
- Antes de cada deploy a producción
- Cuando cambias el system prompt o cualquier parte del contexto
- Cuando actualizas el modelo o cambias parámetros
- Periódicamente en producción para detectar degradación
Relacionado: Errores comunes al crear asistentes de IA
Pon en práctica lo que has aprendido
Generador de Eval Set
Crea casos de prueba para validar tu sistema antes de producción.
Abrir herramienta gratuita →Artículos relacionados
Errores comunes al crear asistentes de IA
Los errores más frecuentes al construir asistentes y agentes de IA, y cómo evitarlos. Desde system prompts vagos hasta bases de conocimiento obsoletas.
Qué son los guardrails en IA
Los guardrails son los controles y restricciones que hacen que un sistema de IA sea seguro, coherente y predecible. Aprende qué son, por qué son esenciales y cómo implementarlos.
Qué son los evals y cómo diseñarlos para tu sistema de IA
Los evals son el sistema de pruebas de tu IA. Sin ellos no sabes si tu agente funciona bien o está fallando en silencio. Guía práctica para diseñarlos.
Recibe lo mejor de Contextología
Diseño de contexto, agentes y workflows de IA directamente en tu correo.