Qué son los embeddings

Definición

Un embedding es una representación numérica de un texto (o imagen, audio, etc.) que captura su significado semántico. Es básicamente convertir texto en un vector de números que los ordenadores pueden comparar matemáticamente.

La idea clave: textos con significados parecidos producen vectores parecidos. Textos con significados distintos producen vectores distintos.

Por qué importa

Los ordenadores no entienden palabras. Entienden números. Los embeddings son el puente entre el lenguaje humano y las operaciones matemáticas que hacen posible la búsqueda semántica, RAG y muchas otras aplicaciones de IA.

Búsqueda por palabras vs búsqueda semántica

Búsqueda tradicional (por palabras clave):

Búsqueda: "cómo cancelar suscripción"
Encuentra documentos con esas palabras exactas
No encuentra: "anular mi cuenta", "dar de baja el servicio"

Búsqueda semántica con embeddings:

Búsqueda: "cómo cancelar suscripción"
Entiende el significado
Encuentra: "anular mi cuenta", "dar de baja el servicio", "dejar de pagar"

Esto es lo que hace posible que RAG encuentre información relevante aunque el usuario no use las palabras exactas del documento.

Cómo se generan

Tomas un fragmento de texto
Lo pasas por un modelo de embeddings (OpenAI text-embedding-3, Cohere Embed, modelos locales como nomic-embed)
El modelo devuelve un vector de N dimensiones (típicamente 768 o 1536 números)
Ese vector captura el "lugar semántico" del texto en el espacio de significados

Cómo se comparan

La similitud entre dos embeddings se mide con similitud coseno: un número entre -1 y 1. Cuanto más cercano a 1, más parecido el significado.

Esto es lo que hace una vector database cuando buscas: compara el embedding de tu pregunta con todos los embeddings almacenados y devuelve los más similares.

Usos principales

RAG: buscar fragmentos relevantes de documentos
Búsqueda semántica: encontrar contenido por significado, no palabras
Clasificación: agrupar contenido por tema sin categorías predefinidas
Deduplicación: detectar contenido duplicado aunque esté redactado distinto
Recomendaciones: sugerir contenido similar

Modelos de embeddings populares

| Modelo | Dimensiones | Notas | |---|---|---| | OpenAI text-embedding-3-small | 1536 | Buena relación coste/calidad | | OpenAI text-embedding-3-large | 3072 | Máxima calidad de OpenAI | | Cohere Embed | 1024 | Multilingual muy bueno | | nomic-embed-text | 768 | Local, gratis, buena calidad | | all-MiniLM-L6-v2 | 384 | Ligero, ideal para pruebas |

Siguiente: Cómo diseñar un agente de IA paso a paso