Context Window

La cantidad máxima de texto (medida en tokens) que un modelo de lenguaje puede procesar en una sola llamada.

Qué es

La context window es el límite de cuánto texto puede "ver" y procesar un modelo de IA en una sola interacción. Todo lo que ocurre en una conversación — system prompt, mensajes, documentos, resultados de herramientas — consume espacio de la context window.

Por qué importa

Si el texto supera el límite de la context window, el modelo no puede procesar todo a la vez. Hay que decidir qué cabe y qué no, o usar técnicas como RAG para recuperar solo lo relevante en lugar de cargar todo el documento.

Cómo se mide

Se mide en tokens. Aproximadamente:

1 token ≈ 0.75 palabras en inglés
1 token ≈ 0.5-0.6 palabras en español
100 tokens ≈ 75 palabras en inglés

Context windows actuales (2026)

| Modelo | Context window | |---|---| | Claude Sonnet/Opus | 200,000 tokens (~150,000 palabras) | | GPT-4o | 128,000 tokens (~96,000 palabras) | | Gemini 1.5 Pro | 1,000,000 tokens |

Implicaciones para el diseño

Una context window grande no significa que todo quepa bien. Los modelos procesan mejor la información al principio y al final del contexto. Información crítica en el medio tiende a ser "olvidada" en práctica.

Por eso RAG sigue siendo útil aunque la context window sea grande: es mejor recuperar los 5 fragmentos más relevantes que cargar 500 páginas de documentación.

Errores comunes

Asumir que más contexto siempre es mejor
No calcular cuántos tokens consumen el system prompt, el historial y los documentos
Sorprenderse cuando el modelo no recuerda algo que estaba al principio de una conversación muy larga