El stack de IA para producción en 2025

El ecosistema de IA se mueve rápido. Lo que era estándar hace 12 meses ya no lo es. Este es el stack que están usando los equipos que construyen sistemas de IA en producción en 2025.

Modelos

Frontier (tareas complejas)

Claude Sonnet 4 (Anthropic) — El mejor balance entre calidad y precio en 2025. 200K contexto, excelente en código y razonamiento, buena adherencia a instrucciones.

GPT-4o (OpenAI) — Sólido en todo, especialmente en multimodal. Ecosistema más maduro.

Gemini 2.0 Flash (Google) — Ganador en velocidad/precio y el único con 1M tokens de contexto real. Para documentos largos, es la única opción.

Tareas estándar (alta velocidad, bajo costo)

Claude Haiku 3.5 — El más rápido de Anthropic, ideal para clasificación y tareas repetitivas.

GPT-4o mini — Barato y capaz, buen punto de partida para nuevos proyectos.

Gemini Flash Lite — Para volúmenes masivos donde el costo es crítico.

Open source (privacidad y control)

Llama 3.3 70B — El mejor modelo open source disponible. Se puede correr en 2x A100 o via Groq/Together/Fireworks a precios competitivos.

Mistral Large — Fuerte en europeo y código, alternativa viable a GPT-4o para algunos casos.

Qwen 2.5 72B — Sorprendentemente capaz, especialmente en asiático y código.

Frameworks de agentes

LangGraph — Para agentes con estado complejo y flujos no lineales. Más control que LangChain, mejor para producción.

Anthropic Agent SDK / OpenAI Agents SDK — Los SDKs nativos son más ligeros y predecibles que los frameworks de terceros.

LlamaIndex — El mejor para aplicaciones centradas en RAG y manipulación de documentos.

Código propio — Para pipelines simples. Un agentic workflow básico son 50 líneas de Python. No siempre necesitas un framework.

Bases de datos vectoriales

Pinecone — La opción managed más madura. Sin gestión de infraestructura.

Qdrant — Open source, auto-hosteable, rendimiento excelente. La elección si quieres control total.

pgvector (PostgreSQL) — Si ya usas Postgres, añadir pgvector es la decisión más simple. Funciona sorprendentemente bien para volúmenes medianos.

Supabase — pgvector gestionado con una excelente DX. La elección para nuevos proyectos que no quieren ops.

Weaviate — Bueno para búsqueda híbrida (vectorial + BM25) sin configuración extra.

Observabilidad y trazas

Langsmith — Integrado con LangChain/LangGraph. Muy completo para debugging de agentes.

Braintrust — El mejor para evals + trazas combinados. Especialmente bueno si tienes datasets de evaluación.

Helicone — Proxy ligero que añade logging a cualquier API de LLM sin cambiar código. La opción más rápida de implementar.

Langfuse — Open source, auto-hosteable. Para equipos que no quieren datos en terceros.

Evaluación (evals)

Braintrust — Plataforma completa. Recomendado si tienes presupuesto.

Promptfoo — Open source, integrable en CI/CD. Excelente para comparar prompts y modelos.

RAGAS — Específico para evaluar sistemas RAG (faithfulness, relevance, recall).

Código propio — Para evals simples, un script de Python con 50 casos es suficiente para empezar.

Embeddings

text-embedding-3-large (OpenAI) — El estándar. Buena calidad, precio razonable.

Cohere Embed v3 — Mejor que OpenAI para retrieval específico de dominio.

nomic-embed-text — Open source, competitivo con los comerciales, 8K contexto.

all-MiniLM-L6-v2 — Para uso local sin API. Rápido aunque menos preciso.

Reranking

Cohere Rerank v3 — El estándar. Fácil de integrar, gran mejora en RAG.

BGE Reranker Large — Open source, rendimiento similar a Cohere, auto-hosteable.

Infraestructura y deploy

Vercel — Para APIs ligeras y front-end. Serverless, sin ops.

Railway / Render — Para servicios con estado o workers de larga duración.

Modal — Para jobs batch, fine-tuning y tareas intensivas en GPU on-demand.

AWS Lambda / Google Cloud Run — Para escala seria con control total.

El stack mínimo viable

Si estás empezando y quieres un stack sólido sin complejidad innecesaria:

Modelo: Claude Sonnet o GPT-4o mini (según presupuesto)
Vector DB: Supabase (pgvector) si no tienes Postgres, o Pinecone si quieres empezar ya
Embeddings: text-embedding-3-small (barato, suficientemente bueno)
Framework: SDK nativo del modelo + LlamaIndex si hay RAG
Observabilidad: Helicone (15 minutos de setup)
Deploy: Vercel para el frontend, Railway para el backend

El stack fancy viene después. Primero consigue que el sistema funcione bien con el mínimo.

Para profundizar:

Comparador de modelos LLM — compara precios y capacidades en detalle
Calculadora de tokens y coste — estima el coste mensual antes de elegir modelo
Cómo elegir modelo de IA para tu proyecto — guía de decisión por caso de uso
Qué es LLM routing — cuándo usar modelos distintos para distintas tareas