LLM Routing
Técnica para dirigir cada consulta al modelo de IA más adecuado según su complejidad, reduciendo costos sin sacrificar calidad.
Qué es LLM Routing
LLM Routing es la práctica de clasificar cada consulta entrante y enviarla al modelo de lenguaje más apropiado según criterios como complejidad, tipo de tarea, latencia requerida o costo.
En lugar de usar siempre el mismo modelo para todo, el sistema tiene una capa de decisión que elige dinámicamente entre varios modelos disponibles.
Por qué importa
Los modelos potentes (GPT-4o, Claude Opus) cuestan 10-50x más que los modelos pequeños (GPT-4o mini, Haiku). Sin embargo, las consultas simples no necesitan esa potencia.
Con routing, puedes:
- Reducir costos un 50-70% en sistemas de alto volumen
- Mantener la calidad donde realmente importa
- Optimizar latencia enviando consultas simples a modelos más rápidos
Cómo se usa
El sistema de routing puede basarse en:
Reglas fijas: Si la consulta tiene menos de 50 palabras y no contiene palabras de razonamiento complejo → modelo barato.
Clasificador ligero: Un modelo pequeño evalúa la dificultad de la consulta antes de enrutarla.
Cascading: Intenta con el modelo barato; si la confianza es baja, reintenta con el potente.
Ejemplo
Consulta: "¿Cuál es la capital de España?"
→ Modelo barato (respuesta obvia)
Consulta: "Analiza los pros y contras de estas 5 arquitecturas de sistemas distribuidos"
→ Modelo potente (razonamiento complejo)
Errores comunes
Over-routing al modelo caro: El clasificador es demasiado conservador y manda todo al modelo potente. El ahorro es mínimo.
Under-routing: El clasificador manda casos difíciles al modelo barato y la calidad sufre donde más importa.
No medir el impacto: Implementar routing sin medir la calidad antes y después. Si el routing empeora respuestas, no vale la pena.
Términos relacionados
- [[llm]] — Los modelos que el routing selecciona
- [[evals]] — Necesarios para medir si el routing funciona correctamente
- [[tokens]] — El costo que el routing intenta optimizar
Pon en práctica lo que has aprendido
Tenemos una herramienta gratuita directamente relacionada con este concepto.
Selector de modelo IA →Artículo relacionado
→ Qué es un agente de IATérminos relacionados
Agentic Workflow
Flujo de trabajo donde uno o más agentes de IA toman decisiones autónomas para completar tareas complejas, encadenando múltiples pasos y herramientas.
AI Agent
Sistema de IA que percibe su entorno, toma decisiones y actúa de forma autónoma para lograr un objetivo, encadenando múltiples pasos y usando herramientas externas.
LLM
Large Language Model: modelo de lenguaje de gran escala entrenado con enormes cantidades de texto para entender y generar lenguaje natural.
Recibe lo mejor de Contextología
Diseño de contexto, agentes y workflows de IA directamente en tu correo.