El stack de IA para producción en 2025
12 de mayo de 2025· 4 min read
El ecosistema de IA se mueve rápido. Lo que era estándar hace 12 meses ya no lo es. Este es el stack que están usando los equipos que construyen sistemas de IA en producción en 2025.
Modelos
Frontier (tareas complejas)
Claude Sonnet 4 (Anthropic) — El mejor balance entre calidad y precio en 2025. 200K contexto, excelente en código y razonamiento, buena adherencia a instrucciones.
GPT-4o (OpenAI) — Sólido en todo, especialmente en multimodal. Ecosistema más maduro.
Gemini 2.0 Flash (Google) — Ganador en velocidad/precio y el único con 1M tokens de contexto real. Para documentos largos, es la única opción.
Tareas estándar (alta velocidad, bajo costo)
Claude Haiku 3.5 — El más rápido de Anthropic, ideal para clasificación y tareas repetitivas.
GPT-4o mini — Barato y capaz, buen punto de partida para nuevos proyectos.
Gemini Flash Lite — Para volúmenes masivos donde el costo es crítico.
Open source (privacidad y control)
Llama 3.3 70B — El mejor modelo open source disponible. Se puede correr en 2x A100 o via Groq/Together/Fireworks a precios competitivos.
Mistral Large — Fuerte en europeo y código, alternativa viable a GPT-4o para algunos casos.
Qwen 2.5 72B — Sorprendentemente capaz, especialmente en asiático y código.
Frameworks de agentes
LangGraph — Para agentes con estado complejo y flujos no lineales. Más control que LangChain, mejor para producción.
Anthropic Agent SDK / OpenAI Agents SDK — Los SDKs nativos son más ligeros y predecibles que los frameworks de terceros.
LlamaIndex — El mejor para aplicaciones centradas en RAG y manipulación de documentos.
Código propio — Para pipelines simples. Un agentic workflow básico son 50 líneas de Python. No siempre necesitas un framework.
Bases de datos vectoriales
Pinecone — La opción managed más madura. Sin gestión de infraestructura.
Qdrant — Open source, auto-hosteable, rendimiento excelente. La elección si quieres control total.
pgvector (PostgreSQL) — Si ya usas Postgres, añadir pgvector es la decisión más simple. Funciona sorprendentemente bien para volúmenes medianos.
Supabase — pgvector gestionado con una excelente DX. La elección para nuevos proyectos que no quieren ops.
Weaviate — Bueno para búsqueda híbrida (vectorial + BM25) sin configuración extra.
Observabilidad y trazas
Langsmith — Integrado con LangChain/LangGraph. Muy completo para debugging de agentes.
Braintrust — El mejor para evals + trazas combinados. Especialmente bueno si tienes datasets de evaluación.
Helicone — Proxy ligero que añade logging a cualquier API de LLM sin cambiar código. La opción más rápida de implementar.
Langfuse — Open source, auto-hosteable. Para equipos que no quieren datos en terceros.
Evaluación (evals)
Braintrust — Plataforma completa. Recomendado si tienes presupuesto.
Promptfoo — Open source, integrable en CI/CD. Excelente para comparar prompts y modelos.
RAGAS — Específico para evaluar sistemas RAG (faithfulness, relevance, recall).
Código propio — Para evals simples, un script de Python con 50 casos es suficiente para empezar.
Embeddings
text-embedding-3-large (OpenAI) — El estándar. Buena calidad, precio razonable.
Cohere Embed v3 — Mejor que OpenAI para retrieval específico de dominio.
nomic-embed-text — Open source, competitivo con los comerciales, 8K contexto.
all-MiniLM-L6-v2 — Para uso local sin API. Rápido aunque menos preciso.
Reranking
Cohere Rerank v3 — El estándar. Fácil de integrar, gran mejora en RAG.
BGE Reranker Large — Open source, rendimiento similar a Cohere, auto-hosteable.
Infraestructura y deploy
Vercel — Para APIs ligeras y front-end. Serverless, sin ops.
Railway / Render — Para servicios con estado o workers de larga duración.
Modal — Para jobs batch, fine-tuning y tareas intensivas en GPU on-demand.
AWS Lambda / Google Cloud Run — Para escala seria con control total.
El stack mínimo viable
Si estás empezando y quieres un stack sólido sin complejidad innecesaria:
- Modelo: Claude Sonnet o GPT-4o mini (según presupuesto)
- Vector DB: Supabase (pgvector) si no tienes Postgres, o Pinecone si quieres empezar ya
- Embeddings: text-embedding-3-small (barato, suficientemente bueno)
- Framework: SDK nativo del modelo + LlamaIndex si hay RAG
- Observabilidad: Helicone (15 minutos de setup)
- Deploy: Vercel para el frontend, Railway para el backend
El stack fancy viene después. Primero consigue que el sistema funcione bien con el mínimo.
Para profundizar:
- Comparador de modelos LLM — compara precios y capacidades en detalle
- Calculadora de tokens y coste — estima el coste mensual antes de elegir modelo
- Cómo elegir modelo de IA para tu proyecto — guía de decisión por caso de uso
- Qué es LLM routing — cuándo usar modelos distintos para distintas tareas
Pon en práctica lo que has aprendido
Comparador de modelos LLM
Compara los modelos del stack IA 2025 en una tabla interactiva.
Abrir herramienta gratuita →Artículos relacionados
Qué es MCP y por qué importa
MCP (Model Context Protocol) es el estándar abierto para conectar modelos de IA con herramientas y fuentes de datos. Aprende qué es, cómo funciona y por qué está cambiando la forma en que se construyen agentes.
Cómo elegir el modelo de IA correcto para tu proyecto
GPT-4o, Claude, Gemini, Llama... Elegir el modelo equivocado te cuesta dinero, latencia o calidad. Aquí el framework para tomar la decisión correcta.
Context engineering para empresas: la guía práctica
Las empresas que mejor usan la IA no tienen mejores modelos, tienen mejor contexto. Guía práctica de context engineering para equipos de producto y desarrollo.
Recibe lo mejor de Contextología
Diseño de contexto, agentes y workflows de IA directamente en tu correo.