Latencia en LLMs (TTFT y TPS) — Glosario de IA

Métricas de velocidad de los modelos de lenguaje: tiempo hasta el primer token (TTFT) y tokens por segundo (TPS). Determinan la experiencia de usuario en aplicaciones de IA en tiempo real.

Qué es la latencia en LLMs

La latencia en sistemas de IA se mide con dos métricas principales:

TTFT (Time To First Token): Tiempo desde que envías la solicitud hasta que el modelo empieza a generar la primera respuesta. Lo que el usuario percibe como "tiempo de espera".

TPS (Tokens Per Second): Velocidad de generación una vez que empieza. Afecta cuánto tarda en completarse la respuesta.

Por qué importa

Para aplicaciones de chat o autocompletar en tiempo real, la latencia determina si la experiencia es fluida o frustrante.

Un TTFT de 5 segundos es inaceptable para un chatbot pero perfectamente aceptable para un batch job nocturno.

Valores típicos (2025)

| Modelo | TTFT aproximado | TPS aproximado | |---|---|---| | GPT-4o mini | 0.3-0.8s | 100-150 tps | | Claude Haiku | 0.2-0.6s | 120-180 tps | | Gemini Flash | 0.2-0.5s | 150-200 tps | | GPT-4o | 0.8-2s | 60-100 tps | | Claude Sonnet | 0.6-1.5s | 80-120 tps | | Claude Opus | 1.5-4s | 30-60 tps |

Los valores varían según el proveedor, la hora del día y la longitud del contexto.

Factores que aumentan la latencia

Contexto largo: Más tokens de entrada = más tiempo de procesamiento antes del primer token.

Modelos grandes: Los modelos frontier tienen más parámetros → TTFT más alto.

Herramientas y agentes: Cada llamada a herramienta añade una ronda de latencia.

Sistemas RAG: La búsqueda vectorial y el reranking añaden 100-500ms antes de llamar al modelo.

Estrategias para reducir latencia

Streaming: En lugar de esperar la respuesta completa, muestra los tokens a medida que llegan. Reduce la latencia percibida aunque no la real.

Modelos más pequeños para pasos intermedios: En pipelines multi-paso, usar modelos rápidos para clasificación y enrutamiento.

Caching: Si las mismas consultas se repiten, cachear las respuestas. Anthropic y OpenAI ofrecen prompt caching para contextos largos repetidos.

[[llm-routing]]: Enrutar consultas simples a modelos más rápidos.

Cuándo priorizar latencia vs calidad

Priorizar latencia: Chat en tiempo real, autocompletar, respuestas que el usuario espera mirando la pantalla.

Priorizar calidad: Análisis complejos, generación de documentos, tareas batch donde el usuario no está esperando activamente.

Términos relacionados

[[tokens]] — La unidad que determina el TPS
[[llm-routing]] — Técnica para reducir latencia promedio
[[context-window]] — El tamaño del contexto afecta directamente al TTFT