
一、Indexing 到底是什么?Indexing = 给你的知识库做 “超级目录”
你有一堆文档:
PDF
Word
网页
笔记
表格
书籍
不能直接理解文字
不能快速查找
把 “杂乱无章的文字” → 变成 “计算机能快速检索的结构化向量数据”
它是 RAG 的前置基建,没有 Indexing,就没有检索,就没有准确回答。
二、Indexing 的完整 5 步流程(标准 RAG 架构)所有 RAG 系统的 Indexing 都遵循这 5 步,一步都不能少:
1. 文档加载(Load)作用:把非结构化文件 → 纯文本
2. 文本清洗(Clean)去掉没用的东西:
多余空格、换行
水印、页眉页脚
乱码、符号
表格乱码
作用:让向量更纯净,避免噪声影响语义
3. 文本分块(Chunk)
太长 → 向量无法完整表达语义
太长 → 检索不精准
太长 → 大模型读不完
切分规则(最关键):
按段落
按句子
按固定长度
按语义(最推荐)
保留重叠(避免语义切断)
Chunk 质量 = 检索效果 = RAG 回答效果
4. 文本向量化(Embedding)就是你刚才问的:把文字变成 ...











