Latencia en LLMs (TTFT y TPS)
Métricas de velocidad de los modelos de lenguaje: tiempo hasta el primer token (TTFT) y tokens por segundo (TPS). Determinan la experiencia de usuario en aplicaciones de IA en tiempo real.
Qué es la latencia en LLMs
La latencia en sistemas de IA se mide con dos métricas principales:
TTFT (Time To First Token): Tiempo desde que envías la solicitud hasta que el modelo empieza a generar la primera respuesta. Lo que el usuario percibe como "tiempo de espera".
TPS (Tokens Per Second): Velocidad de generación una vez que empieza. Afecta cuánto tarda en completarse la respuesta.
Por qué importa
Para aplicaciones de chat o autocompletar en tiempo real, la latencia determina si la experiencia es fluida o frustrante.
Un TTFT de 5 segundos es inaceptable para un chatbot pero perfectamente aceptable para un batch job nocturno.
Valores típicos (2025)
| Modelo | TTFT aproximado | TPS aproximado | |---|---|---| | GPT-4o mini | 0.3-0.8s | 100-150 tps | | Claude Haiku | 0.2-0.6s | 120-180 tps | | Gemini Flash | 0.2-0.5s | 150-200 tps | | GPT-4o | 0.8-2s | 60-100 tps | | Claude Sonnet | 0.6-1.5s | 80-120 tps | | Claude Opus | 1.5-4s | 30-60 tps |
Los valores varían según el proveedor, la hora del día y la longitud del contexto.
Factores que aumentan la latencia
Contexto largo: Más tokens de entrada = más tiempo de procesamiento antes del primer token.
Modelos grandes: Los modelos frontier tienen más parámetros → TTFT más alto.
Herramientas y agentes: Cada llamada a herramienta añade una ronda de latencia.
Sistemas RAG: La búsqueda vectorial y el reranking añaden 100-500ms antes de llamar al modelo.
Estrategias para reducir latencia
Streaming: En lugar de esperar la respuesta completa, muestra los tokens a medida que llegan. Reduce la latencia percibida aunque no la real.
Modelos más pequeños para pasos intermedios: En pipelines multi-paso, usar modelos rápidos para clasificación y enrutamiento.
Caching: Si las mismas consultas se repiten, cachear las respuestas. Anthropic y OpenAI ofrecen prompt caching para contextos largos repetidos.
[[llm-routing]]: Enrutar consultas simples a modelos más rápidos.
Cuándo priorizar latencia vs calidad
Priorizar latencia: Chat en tiempo real, autocompletar, respuestas que el usuario espera mirando la pantalla.
Priorizar calidad: Análisis complejos, generación de documentos, tareas batch donde el usuario no está esperando activamente.
Términos relacionados
- [[tokens]] — La unidad que determina el TPS
- [[llm-routing]] — Técnica para reducir latencia promedio
- [[context-window]] — El tamaño del contexto afecta directamente al TTFT
Pon en práctica lo que has aprendido
Tenemos una herramienta gratuita directamente relacionada con este concepto.
Calculadora de tokens y coste →Artículo relacionado
→ Cómo evaluar un sistema de IATérminos relacionados
Context Window
La cantidad máxima de texto (medida en tokens) que un modelo de lenguaje puede procesar en una sola llamada.
Fine-tuning
Proceso de ajuste de un modelo de lenguaje preentrenado con datos específicos de un dominio para mejorar su rendimiento en tareas concretas.
LLM
Large Language Model: modelo de lenguaje de gran escala entrenado con enormes cantidades de texto para entender y generar lenguaje natural.
Tokens
Unidades básicas de texto que usan los modelos de lenguaje para procesar información. Los costes de API y los límites de context window se miden en tokens.
Recibe lo mejor de Contextología
Diseño de contexto, agentes y workflows de IA directamente en tu correo.