Embeddings
Representaciones numéricas de texto que capturan su significado semántico. Son la base de la búsqueda semántica, RAG y muchas aplicaciones de IA.
Qué es
Un embedding es un vector numérico que representa el significado de un texto. Textos con significados parecidos producen vectores matemáticamente cercanos. Textos con significados distintos producen vectores alejados.
Por qué importa
Los ordenadores no entienden palabras, pero sí números. Los embeddings son el puente que permite buscar por significado en lugar de por palabras exactas. Son la pieza técnica que hace posible el RAG y la búsqueda semántica.
Cómo se usa
- Cada fragmento de texto se convierte en un vector usando un modelo de embeddings
- Los vectores se almacenan en una vector database
- Cuando buscas, tu consulta se convierte en otro vector
- Se devuelven los fragmentos más cercanos matemáticamente (más similares semánticamente)
Ejemplo
Sin embeddings: buscar "cancelar suscripción" solo encuentra documentos con esas palabras exactas.
Con embeddings: buscar "cancelar suscripción" también encuentra "anular mi cuenta", "dar de baja el servicio", "dejar de pagar".
Modelos populares
- OpenAI text-embedding-3-small / large
- Cohere Embed (multilingual)
- nomic-embed-text (local, gratis)
- all-MiniLM-L6-v2 (ligero, para pruebas)
Errores comunes
- Usar embeddings de un idioma para buscar en otro sin un modelo multilingual
- No actualizar los embeddings cuando cambian los documentos fuente
- Chunks demasiado pequeños que pierden contexto o demasiado grandes que incluyen ruido
Términos relacionados
Pon en práctica lo que has aprendido
Tenemos una herramienta gratuita directamente relacionada con este concepto.
Analizador de context window →Artículo relacionado
→ Qué son los embeddingsTérminos relacionados
RAG
Retrieval-Augmented Generation: técnica que combina búsqueda de información en una base de conocimiento con generación de texto para producir respuestas precisas y verificables.
Semantic Search
Búsqueda por significado en lugar de por palabras exactas. Usa embeddings para encontrar contenido relevante aunque no coincidan las palabras clave.
Vector Database
Base de datos especializada en almacenar embeddings y buscar por similitud semántica. Componente central de los sistemas RAG.
Chunking
Proceso de dividir documentos largos en fragmentos más pequeños para indexarlos en una base de datos vectorial en sistemas RAG.
Recibe lo mejor de Contextología
Diseño de contexto, agentes y workflows de IA directamente en tu correo.