LLM Routing — Glosario de IA

Técnica para dirigir cada consulta al modelo de IA más adecuado según su complejidad, reduciendo costos sin sacrificar calidad.

Qué es LLM Routing

LLM Routing es la práctica de clasificar cada consulta entrante y enviarla al modelo de lenguaje más apropiado según criterios como complejidad, tipo de tarea, latencia requerida o costo.

En lugar de usar siempre el mismo modelo para todo, el sistema tiene una capa de decisión que elige dinámicamente entre varios modelos disponibles.

Por qué importa

Los modelos potentes (GPT-4o, Claude Opus) cuestan 10-50x más que los modelos pequeños (GPT-4o mini, Haiku). Sin embargo, las consultas simples no necesitan esa potencia.

Con routing, puedes:

Reducir costos un 50-70% en sistemas de alto volumen
Mantener la calidad donde realmente importa
Optimizar latencia enviando consultas simples a modelos más rápidos

Cómo se usa

El sistema de routing puede basarse en:

Reglas fijas: Si la consulta tiene menos de 50 palabras y no contiene palabras de razonamiento complejo → modelo barato.

Clasificador ligero: Un modelo pequeño evalúa la dificultad de la consulta antes de enrutarla.

Cascading: Intenta con el modelo barato; si la confianza es baja, reintenta con el potente.

Ejemplo

Consulta: "¿Cuál es la capital de España?"
→ Modelo barato (respuesta obvia)

Consulta: "Analiza los pros y contras de estas 5 arquitecturas de sistemas distribuidos"
→ Modelo potente (razonamiento complejo)

Errores comunes

Over-routing al modelo caro: El clasificador es demasiado conservador y manda todo al modelo potente. El ahorro es mínimo.

Under-routing: El clasificador manda casos difíciles al modelo barato y la calidad sufre donde más importa.

No medir el impacto: Implementar routing sin medir la calidad antes y después. Si el routing empeora respuestas, no vale la pena.

Términos relacionados

[[llm]] — Los modelos que el routing selecciona
[[evals]] — Necesarios para medir si el routing funciona correctamente
[[tokens]] — El costo que el routing intenta optimizar