Chunking
Proceso de dividir documentos largos en fragmentos más pequeños para indexarlos en una base de datos vectorial en sistemas RAG.
Qué es Chunking
Chunking es el proceso de dividir documentos largos en fragmentos más pequeños (chunks) antes de convertirlos en embeddings e indexarlos en una base de datos vectorial.
Es un paso fundamental en cualquier sistema RAG. El tamaño y la estrategia de chunking afectan directamente la calidad de la recuperación.
Por qué importa
Los modelos de embeddings tienen un límite de tokens. Un documento de 50 páginas no puede convertirse en un único vector significativo.
Además, para recuperar información relevante necesitas que cada fragmento sea semánticamente coherente. Si divides mal, el chunk que recuperas tiene el principio de una idea pero no el final.
Estrategias principales
Por tamaño fijo
El método más simple: divide cada N tokens con solapamiento.
Chunk size: 512 tokens
Overlap: 50 tokens
Rápido y fácil de implementar. Puede cortar a mitad de oración.
Por estructura del documento
Divide por secciones naturales: párrafos, encabezados, páginas.
Mucho mejor para documentos estructurados (manuales, contratos, artículos).
Semántico
Agrupa frases hasta que el contenido semántico cambia significativamente.
Produce los chunks más coherentes pero es más lento y complejo.
Parent-child
Indexas chunks pequeños pero recuperas el documento padre completo cuando hay coincidencia.
Combina precisión en la búsqueda con contexto completo para el LLM.
Cuál elegir
| Tipo de documento | Estrategia recomendada | |---|---| | Texto libre (artículos, blogs) | Semántico o por párrafo | | Documentos estructurados (contratos, manuales) | Por sección/encabezado | | PDFs mixtos | Parent-child | | Código fuente | Por función/clase |
Errores comunes
Chunks demasiado pequeños: Cada chunk pierde contexto. El LLM recibe fragmentos sin suficiente información.
Chunks demasiado grandes: Cada chunk contiene demasiada información mezclada. La búsqueda vectorial lo recupera por una parte y el LLM tiene ruido del resto.
Sin solapamiento: Los chunks adyacentes pueden perder información en el corte. Un solapamiento del 10-15% ayuda.
Mismo tamaño para todo: Un chunk para código tiene diferentes necesidades que uno para texto narrativo.
Términos relacionados
- [[rag]] — El sistema donde vive el chunking
- [[embeddings]] — Lo que se genera de cada chunk
- [[vector-database]] — Donde se indexan los chunks como vectores
Pon en práctica lo que has aprendido
Tenemos una herramienta gratuita directamente relacionada con este concepto.
Checklist de RAG →Artículo relacionado
→ Cómo crear una base de conocimientoTérminos relacionados
Embeddings
Representaciones numéricas de texto que capturan su significado semántico. Son la base de la búsqueda semántica, RAG y muchas aplicaciones de IA.
RAG
Retrieval-Augmented Generation: técnica que combina búsqueda de información en una base de conocimiento con generación de texto para producir respuestas precisas y verificables.
Semantic Search
Búsqueda por significado en lugar de por palabras exactas. Usa embeddings para encontrar contenido relevante aunque no coincidan las palabras clave.
Vector Database
Base de datos especializada en almacenar embeddings y buscar por similitud semántica. Componente central de los sistemas RAG.
Recibe lo mejor de Contextología
Diseño de contexto, agentes y workflows de IA directamente en tu correo.