Context Poisoning
Ataque en el que información maliciosa o errónea se introduce en el contexto de un agente de IA para manipular sus respuestas o acciones.
Qué es Context Poisoning
Context Poisoning (envenenamiento de contexto) es un tipo de ataque contra sistemas de IA en el que un atacante introduce información maliciosa, falsa o manipuladora en el contexto que procesa el modelo para alterar su comportamiento.
A diferencia del [[prompt-injection]] directo (que intenta dar instrucciones al modelo), el context poisoning contamina los datos que el modelo usa como referencia.
Por qué importa
Los agentes modernos leen documentos, navegan webs, procesan correos y consultan bases de datos. Cualquier fuente externa es un vector potencial de envenenamiento.
Si el modelo confía ciegamente en esos datos, un atacante que controle cualquiera de esas fuentes puede influir en las respuestas o acciones del agente.
Ejemplos reales
Envenenamiento de documentos RAG: Un documento en tu base de conocimiento contiene información falsa que el agente cita como verdadera.
Páginas web manipuladas: Un agente que navega la web puede leer una página que contiene instrucciones ocultas o datos falsos diseñados para afectar sus respuestas.
Inyección en datos de terceros: Una API que el agente consulta devuelve datos alterados para manipular su comportamiento.
Historial de conversación manipulado: En sistemas con memoria, introducir mensajes falsos en el historial para cambiar el contexto del agente.
Cómo defenderse
Validación de fuentes: Solo indexar documentos de fuentes verificadas. Revisar periódicamente la base de conocimiento.
Etiquetado de confianza: Distinguir entre información interna (alta confianza) y externa (baja confianza) en el contexto.
Citar fuentes explícitamente: Si el agente cita de dónde vino cada afirmación, es más fácil detectar información envenenada.
Actualizaciones controladas: Auditar qué documentos se añaden a la base de conocimiento y quién puede añadirlos.
Faithfulness monitoring: Detectar cuando las respuestas se desvían de los documentos esperados.
Relación con prompt injection
Context poisoning y [[prompt-injection]] son ataques relacionados pero distintos:
- Prompt injection: Intentar dar instrucciones nuevas al modelo para cambiar su comportamiento
- Context poisoning: Contaminar los datos de referencia para que el modelo genere respuestas incorrectas o sesgadas
Ambos explotan la incapacidad del modelo de distinguir entre datos confiables e instrucciones maliciosas.
Términos relacionados
- [[prompt-injection]] — Ataque relacionado que explota las instrucciones
- [[guardrails]] — Capa de defensa que puede detectar respuestas anómalas
- [[rag]] — El sistema más expuesto al context poisoning
- [[evals]] — Para detectar comportamientos anómalos causados por envenenamiento
Pon en práctica lo que has aprendido
Tenemos una herramienta gratuita directamente relacionada con este concepto.
Evaluador de system prompts →Artículo relacionado
→ Qué son los guardrails en IATérminos relacionados
Guardrails
Restricciones y controles que limitan el comportamiento de un sistema de IA para hacerlo seguro, coherente y predecible dentro de un alcance definido.
Prompt Injection
Ataque donde instrucciones maliciosas en los datos que procesa el modelo intentan modificar su comportamiento para saltarse guardrails o ejecutar acciones no autorizadas.
System Prompt
Instrucciones persistentes que se envían al modelo antes de cualquier mensaje del usuario, definiendo su rol, comportamiento, tono y límites.
Alucinación (LLM Hallucination)
Fenómeno por el que un modelo de lenguaje genera información que parece correcta pero es inventada o incorrecta. El principal riesgo de los LLMs en producción.
Recibe lo mejor de Contextología
Diseño de contexto, agentes y workflows de IA directamente en tu correo.