Context Engineering vs Fine-tuning: cuándo usar cada uno

La pregunta llega siempre en el mismo punto: "ya tenemos un sistema funcionando, ¿deberíamos hacer fine-tuning para mejorarlo?"

A veces sí. Muchas veces no. Y confundirlos sale caro.

La diferencia fundamental

Context Engineering le dice al modelo qué hacer en cada llamada, proporcionando instrucciones, ejemplos y documentos relevantes en el contexto.

Fine-tuning modifica los pesos del modelo mediante entrenamiento adicional sobre datos específicos, cambiando permanentemente cómo el modelo responde.

Son complementarios, no alternativos. Pero tienen casos de uso muy distintos.

Cuándo Context Engineering es suficiente (la mayoría de casos)

El context engineering resuelve casi todo lo que la gente cree que necesita fine-tuning:

Tono y estilo específico — Un system prompt bien diseñado con ejemplos few-shot produce consistencia de estilo sin entrenamiento adicional.

Conocimiento del dominio — RAG inyecta conocimiento actualizado en el contexto. El modelo no necesita "saber" tu documentación; necesita acceder a ella.

Formato de salida — Instrucciones claras + ejemplos en el prompt controlan el formato con alta fiabilidad.

Restricciones de comportamiento — Guardrails en el system prompt son más fáciles de actualizar que un modelo fine-tuned.

La ventaja: puedes cambiar todo esto en minutos sin reentrenar nada.

Cuándo fine-tuning tiene sentido real

El fine-tuning aporta valor genuino en casos específicos:

1. Reducción de latencia y costo a escala masiva

Si tienes 10 millones de llamadas al mes y tu system prompt ocupa 3.000 tokens, estás pagando 30 mil millones de tokens solo en instrucciones.

El fine-tuning puede aprender esas instrucciones en los pesos, reduciendo el prompt a unas pocas líneas. El ahorro a escala puede justificar el costo de entrenamiento.

2. Conocimiento que no puede estar en el contexto

Algunos conocimientos son demasiado densos para incluirlos en contexto eficientemente:

Jerga muy específica de tu industria con matices sutiles
Patrones implícitos que serían muy difíciles de describir explícitamente
Comportamientos que requieren cientos de ejemplos para capturarse con prompting

3. Tareas muy repetitivas y bien definidas

Si tienes una tarea ultra-específica (clasificar correos en 5 categorías exactas, extraer campos específicos de facturas) con miles de ejemplos etiquetados, un modelo fine-tuned pequeño puede superar a un modelo grande con prompting.

4. Modelos open source en tu infraestructura

Si ya corres Llama o Mistral propio por razones de privacidad, fine-tuning es tu principal herramienta de adaptación.

El proceso de decisión

¿El problema es que el modelo no tiene suficiente información?
→ RAG o context engineering

¿El problema es que el modelo no sigue las instrucciones?
→ Mejor system prompt + ejemplos few-shot

¿El problema es consistencia de estilo/tono?
→ System prompt + ejemplos

¿Tienes >1000 ejemplos de calidad de la tarea específica?
¿La tarea es muy repetitiva y bien definida?
¿El volumen justifica el costo de entrenamiento?
→ Considera fine-tuning

Los errores más frecuentes

Fine-tuning para añadir conocimiento — El modelo aprende patrones, no hechos. Inyectar documentación vía RAG es más efectivo y actualizable.

Fine-tuning sin evals previos — Muchos equipos hacen fine-tuning sin medir el baseline del modelo original. Después no saben si mejoró.

Fine-tuning con pocos datos — Con menos de 100-200 ejemplos de calidad, los resultados son impredecibles.

Olvidar que el modelo fine-tuned también puede alucinarse — Fine-tuning reduce algunos problemas pero no elimina las alucinaciones.

El orden correcto

Construye un buen sistema con context engineering
Mide su rendimiento con evals
Identifica fallos sistemáticos que el prompting no puede resolver
Si y solo si encuentras ese caso, evalúa fine-tuning

La mayoría de equipos que empiezan por el fine-tuning descubren que no era lo que necesitaban.

Recursos relacionados:

RAG vs fine-tuning: cuándo usar cada uno — comparativa detallada con árbol de decisión
Qué es RAG — cómo funciona el retrieval
Selector de modelo IA — decide qué approach es correcto para tu caso
Cómo hacer fine-tuning de un LLM — guía técnica