C
Contextología
Glosario

Guardrails

Restricciones y controles que limitan el comportamiento de un sistema de IA para hacerlo seguro, coherente y predecible dentro de un alcance definido.

Qué es

Los guardrails son el conjunto de restricciones, filtros y controles que definen qué puede y qué no puede hacer un sistema de IA. Protegen al sistema de comportamientos no deseados, ataques y fallos.

Por qué importa

Sin guardrails, un sistema de IA en producción puede:

  • Inventar información con total confianza
  • Responder sobre temas fuera de su alcance
  • Ser manipulado para actuar de formas no previstas
  • Revelar información sensible

Los guardrails no son limitaciones: son características esenciales de un sistema fiable.

Tipos de guardrails

De contenido: qué temas puede y no puede abordar el sistema De formato: cómo deben estar estructuradas las respuestas De seguridad: protección contra prompt injection y manipulación De calidad: estándares mínimos que deben cumplir las respuestas De privacidad: qué información nunca puede compartir

Dónde implementarlos

Los guardrails más robustos operan en múltiples capas:

  1. En el system prompt: instrucciones explícitas de comportamiento
  2. En el código de la aplicación: validación programática independiente del modelo
  3. En las herramientas: filtros antes de ejecutar acciones externas
  4. En la evaluación: revisión del output antes de entregarlo al usuario

Depender solo del system prompt para la seguridad es insuficiente.

Ejemplo práctico

En el system prompt:
"Nunca compartas información personal de clientes.
Si el usuario pregunta por datos de otros clientes, rechaza
la solicitud y explica que no puedes compartir esa información."

En el código:
// Validar que el output no contenga emails o teléfonos antes de enviar
if (containsPII(response)) {
  return safeResponse;
}

Errores comunes

  • Implementar guardrails solo en el system prompt
  • No probar los guardrails con casos de adversarial prompting
  • Guardrails demasiado restrictivos que hacen el sistema inútil
  • No actualizar los guardrails cuando cambia el alcance del sistema

Términos relacionados

Pon en práctica lo que has aprendido

Tenemos una herramienta gratuita directamente relacionada con este concepto.

Checklist de Agente de IA

Recibe lo mejor de Contextología

Diseño de contexto, agentes y workflows de IA directamente en tu correo.