Embeddings

Representaciones numéricas de texto que capturan su significado semántico. Son la base de la búsqueda semántica, RAG y muchas aplicaciones de IA.

Qué es

Un embedding es un vector numérico que representa el significado de un texto. Textos con significados parecidos producen vectores matemáticamente cercanos. Textos con significados distintos producen vectores alejados.

Por qué importa

Los ordenadores no entienden palabras, pero sí números. Los embeddings son el puente que permite buscar por significado en lugar de por palabras exactas. Son la pieza técnica que hace posible el RAG y la búsqueda semántica.

Cómo se usa

Cada fragmento de texto se convierte en un vector usando un modelo de embeddings
Los vectores se almacenan en una vector database
Cuando buscas, tu consulta se convierte en otro vector
Se devuelven los fragmentos más cercanos matemáticamente (más similares semánticamente)

Ejemplo

Sin embeddings: buscar "cancelar suscripción" solo encuentra documentos con esas palabras exactas.

Con embeddings: buscar "cancelar suscripción" también encuentra "anular mi cuenta", "dar de baja el servicio", "dejar de pagar".

Modelos populares

OpenAI text-embedding-3-small / large
Cohere Embed (multilingual)
nomic-embed-text (local, gratis)
all-MiniLM-L6-v2 (ligero, para pruebas)

Errores comunes

Usar embeddings de un idioma para buscar en otro sin un modelo multilingual
No actualizar los embeddings cuando cambian los documentos fuente
Chunks demasiado pequeños que pierden contexto o demasiado grandes que incluyen ruido