Cómo elegir el modelo de IA correcto para tu proyecto
30 de abril de 2025· 5 min read
El modelo correcto no es el más potente. Es el que resuelve tu caso de uso específico al menor costo y latencia aceptables.
Elegir mal tiene consecuencias reales: pagar 10x más de lo necesario, latencias que arruinan la UX, o calidad insuficiente que destruye la confianza del usuario.
El framework de decisión
Responde estas preguntas en orden. Cada respuesta elimina opciones.
1. ¿Qué tipo de tarea?
Razonamiento complejo (análisis, escritura larga, código difícil, decisiones multifactor) → Necesitas un modelo frontier: Claude Opus, GPT-4o, Gemini Ultra
Tareas estándar (resúmenes, clasificación, extracción, Q&A con contexto) → Modelos mid-tier funcionan: Claude Sonnet, GPT-4o mini, Gemini Flash
Tareas simples y repetitivas (clasificar, formatear, extraer campos específicos) → Modelos pequeños o fine-tuned: Haiku, GPT-3.5, modelos open source pequeños
2. ¿Cuánto contexto necesitas?
| Contexto necesario | Modelos compatibles | |---|---| | Hasta 32K tokens | Casi todos | | Hasta 128K tokens | GPT-4o, Claude Sonnet/Opus, Llama 3.3 | | Hasta 1M tokens | Gemini 1.5/2.0 |
Si procesas documentos largos o repositorios de código completos, Gemini es la única opción viable en ventana de contexto.
3. ¿Cuál es el presupuesto?
Costos aproximados por millón de tokens (input/output combinado):
| Modelo | Costo aprox | |---|---| | GPT-3.5 / Haiku | $0.5-2 | | GPT-4o mini / Gemini Flash | $0.5-1.5 | | GPT-4o / Claude Sonnet | $3-15 | | Claude Opus / GPT-4 | $15-75 | | Llama 3.3 (self-hosted) | Solo infra |
Para un sistema con 10M tokens/mes la diferencia entre Haiku y Opus es de ~200€ vs ~5.000€.
4. ¿Latencia crítica?
Para aplicaciones de tiempo real (chat, autocompletar, respuestas instantáneas): importa la latencia de primer token (TTFT).
Los modelos más rápidos: Gemini Flash, GPT-4o mini, Claude Haiku.
Los modelos frontier (Opus, GPT-4o) tienen TTFT 2-5x mayor.
Para batch processing o tareas no interactivas, la latencia no importa.
5. ¿Datos sensibles o privacidad?
- Cloud API: Los datos pasan por los servidores del proveedor. Revisa las políticas de retención de datos.
- Self-hosted (Llama, Mistral, Qwen): Datos nunca salen de tu infraestructura. Necesitas GPU propia.
- Enterprise agreements: Anthropic, OpenAI y Google tienen contratos enterprise con garantías de privacidad más estrictas.
Para datos médicos, financieros o bajo GDPR estricto, evalúa self-hosted o contratos enterprise.
6. ¿Multimodal?
¿Necesitas procesar imágenes, audio o video?
- Imágenes: GPT-4o, Claude Sonnet/Opus, Gemini (todos los frontier)
- Audio directo: Gemini 2.0 Flash, GPT-4o con whisper
- Video: Gemini 1.5/2.0 (único que procesa video nativo)
7. ¿Necesitas fine-tuning?
Si tu caso de uso requiere ajuste fino en datos propios:
- OpenAI: fine-tuning disponible para GPT-3.5, GPT-4o mini
- Anthropic: no ofrece fine-tuning público
- Google: fine-tuning disponible para Gemini
- Open source (Llama, Mistral): fine-tuning completo con tus datos
Tabla resumen por caso de uso
| Caso de uso | Recomendación | Por qué | |---|---|---| | Chatbot de soporte | GPT-4o mini / Claude Haiku | Bajo costo, suficiente calidad | | Análisis de contratos | Claude Sonnet/Opus | Razonamiento, contexto largo | | Generación de código | GPT-4o / Claude Sonnet | Los mejores en código | | Procesar PDFs de 500 páginas | Gemini 1.5 Pro | 1M token context | | Clasificación masiva | GPT-4o mini + fine-tuning | Barato y preciso | | App con datos sensibles | Llama 3.3 self-hosted | Sin salida de datos | | Análisis de video | Gemini 2.0 Flash | Único con video nativo | | Respuesta en <300ms | Gemini Flash / Claude Haiku | TTFT más bajo |
La estrategia del modelo pequeño primero
Empieza siempre con el modelo más pequeño/barato que parezca viable.
Mide la calidad en tus casos de prueba reales. Si la calidad es suficiente: has terminado. Si no: sube un nivel.
La mayoría de los sistemas en producción usan un modelo mid-tier para el 90% de los casos y el modelo frontier solo para los casos difíciles (LLM routing).
LLM Routing: lo mejor de dos mundos
Si tienes volumen, implementa routing: clasifica las consultas por dificultad y manda cada una al modelo apropiado.
Consulta simple → Modelo rápido y barato
Consulta compleja → Modelo frontier
Puedes reducir costos un 60-80% manteniendo la calidad donde importa.
No elijas una sola vez
Los modelos mejoran rápido. Lo que era el mejor hace 6 meses puede no serlo hoy.
Mantén tu eval set activo y reevalúa cada 6-12 meses. El modelo que usas debería ser el resultado de datos, no de preferencia.
Herramientas relacionadas:
- Selector de modelo IA — quiz de 6 preguntas para elegir el modelo correcto
- Comparador de modelos LLM — compara precios y capacidades
- Calculadora de tokens y coste — estima el coste mensual antes de decidir
- El stack de IA para producción en 2025 — qué están usando los equipos en producción
Pon en práctica lo que has aprendido
Selector de modelo IA
Responde 5 preguntas y recibe una recomendación de modelo personalizada.
Abrir herramienta gratuita →Artículos relacionados
Context Engineering vs Fine-tuning: cuándo usar cada uno
Dos estrategias para mejorar un LLM, objetivos completamente distintos. Guía práctica para decidir qué necesitas según tu caso de uso, datos y presupuesto.
El stack de IA para producción en 2025
Qué modelos, frameworks, bases de datos vectoriales, observabilidad y herramientas de evaluación están usando los equipos que construyen sistemas de IA serios en 2025.
Qué es LLM routing y cómo reducir costes un 70% sin perder calidad
LLM routing es enviar cada consulta al modelo más adecuado según su dificultad. Implementado bien, puedes reducir costes drásticamente manteniendo calidad donde importa.
Recibe lo mejor de Contextología
Diseño de contexto, agentes y workflows de IA directamente en tu correo.