Context Poisoning — Glosario de IA

Ataque en el que información maliciosa o errónea se introduce en el contexto de un agente de IA para manipular sus respuestas o acciones.

Qué es Context Poisoning

Context Poisoning (envenenamiento de contexto) es un tipo de ataque contra sistemas de IA en el que un atacante introduce información maliciosa, falsa o manipuladora en el contexto que procesa el modelo para alterar su comportamiento.

A diferencia del [[prompt-injection]] directo (que intenta dar instrucciones al modelo), el context poisoning contamina los datos que el modelo usa como referencia.

Por qué importa

Los agentes modernos leen documentos, navegan webs, procesan correos y consultan bases de datos. Cualquier fuente externa es un vector potencial de envenenamiento.

Si el modelo confía ciegamente en esos datos, un atacante que controle cualquiera de esas fuentes puede influir en las respuestas o acciones del agente.

Ejemplos reales

Envenenamiento de documentos RAG: Un documento en tu base de conocimiento contiene información falsa que el agente cita como verdadera.

Páginas web manipuladas: Un agente que navega la web puede leer una página que contiene instrucciones ocultas o datos falsos diseñados para afectar sus respuestas.

Inyección en datos de terceros: Una API que el agente consulta devuelve datos alterados para manipular su comportamiento.

Historial de conversación manipulado: En sistemas con memoria, introducir mensajes falsos en el historial para cambiar el contexto del agente.

Cómo defenderse

Validación de fuentes: Solo indexar documentos de fuentes verificadas. Revisar periódicamente la base de conocimiento.

Etiquetado de confianza: Distinguir entre información interna (alta confianza) y externa (baja confianza) en el contexto.

Citar fuentes explícitamente: Si el agente cita de dónde vino cada afirmación, es más fácil detectar información envenenada.

Actualizaciones controladas: Auditar qué documentos se añaden a la base de conocimiento y quién puede añadirlos.

Faithfulness monitoring: Detectar cuando las respuestas se desvían de los documentos esperados.

Relación con prompt injection

Context poisoning y [[prompt-injection]] son ataques relacionados pero distintos:

Prompt injection: Intentar dar instrucciones nuevas al modelo para cambiar su comportamiento
Context poisoning: Contaminar los datos de referencia para que el modelo genere respuestas incorrectas o sesgadas

Ambos explotan la incapacidad del modelo de distinguir entre datos confiables e instrucciones maliciosas.

Términos relacionados

[[prompt-injection]] — Ataque relacionado que explota las instrucciones
[[guardrails]] — Capa de defensa que puede detectar respuestas anómalas
[[rag]] — El sistema más expuesto al context poisoning
[[evals]] — Para detectar comportamientos anómalos causados por envenenamiento