chagumu's blog

RAG中的Indexing全解析

2026-03-25T16:07:41.000Z

一、Indexing 到底是什么？

Indexing = 给你的知识库做 “超级目录”

你有一堆文档：

PDF
Word
网页
笔记
表格
书籍

不能直接理解文字

不能快速查找

把 “杂乱无章的文字” → 变成 “计算机能快速检索的结构化向量数据”

它是 RAG 的前置基建，没有 Indexing，就没有检索，就没有准确回答。

二、Indexing 的完整 5 步流程（标准 RAG 架构）

所有 RAG 系统的 Indexing 都遵循这 5 步，一步都不能少：

1. 文档加载（Load）

作用：把非结构化文件 → 纯文本

2. 文本清洗（Clean）

去掉没用的东西：

多余空格、换行
水印、页眉页脚
乱码、符号
表格乱码

作用：让向量更纯净，避免噪声影响语义

3. 文本分块（Chunk）

太长 → 向量无法完整表达语义
太长 → 检索不精准
太长 → 大模型读不完

切分规则（最关键）：

按段落
按句子
按固定长度
按语义（最推荐）
保留重叠（避免语义切断）

Chunk 质量 = 检索效果 = RAG 回答效果

4. 文本向量化（Embedding）

就是你刚才问的：把文字变成数字向量

1	[0.23, 0.55, -0.12, ... 768维]

作用：

语义相近 → 向量距离近
语义无关 → 向量距离远

5. 建立索引并存储（Index & Store）

把所有向量存到向量数据库，并建立索引结构。

向量数据库包括：

FAISS（本地轻量）
Milvus（企业级）
Pinecone（云服务）
Chroma（开发常用）
Elasticsearch（混合检索）

索引结构：

HNSW（最快最常用）
IVF
Flat

用户提问 → 生成问题向量 → 一秒从几万、几十万文档里找出最相关的几段

三、Indexing 的核心作用

1. 让检索从 “几分钟” 变成 “毫秒级”

没有索引：

逐字遍历所有文档 → 巨慢

有索引：

用向量距离计算 → 瞬间匹配

2. 让大模型不幻觉

因为检索到真实知识 → 模型只能基于事实回答

3. 让知识库可以无限大

几十万文档照样秒查

4. 让私有数据能用在大模型里

企业数据、隐私数据、本地数据 → 全部可检索

四、Indexing 最关键的 4 个技术点

1. 分块策略（最重要）

大小：300~800 字符
重叠：50~100 字符
按语义拆分 > 按字数拆分

2. 向量模型（Embedding Model）

决定语义理解能力：

开源：all-MiniLM-L6-v2（最快）、bge-small（最准）
商用：OpenAI Embedding、文心 Embedding

3. 向量数据库

决定速度和规模

4. 索引结构

决定检索效率

HNSW 是目前工业界标配。

五、Indexing 完整流程图（文字版）

原始文档
   ↓
加载（Load）→ 纯文本
   ↓
清洗（Clean）→ 去掉噪声
   ↓
分块（Split）→ 一段段 Chunk
   ↓
向量化（Embedding）→ 向量数组
   ↓
建立索引（Index）→ 向量数据库
   ↓
【完成！可用于 RAG 检索】

langchain中的chain到底是什么

2026-03-25T15:53:21.000Z

一、Chain 是什么

Chain 是 LangChain 中组件串联执行的核心机制，它将多个独立组件（提示词模板、模型、工具等）按顺序连接，前一个组件的输出自动作为下一个组件的输入，实现复杂任务的流水线化处理。

二、核心特性

链式语法：通过 | 符号快速拼接组件，写法简洁直观

1	chain = chat_prompt_template \| model # 提示词模板 → 模型

接口约束：参与成链的组件必须是 Runnable 接口的子类（如提示词模板、模型、嵌入模型等）
对象类型：最终形成的链是 RunnableSerializable 对象，本身也实现了 Runnable 接口，可继续参与链式拼接
执行触发：通过 invoke()（一次性执行）或 stream()（流式执行）触发整个链条运行

三、执行流程

输入：传入字典格式参数（如 {"history": "历史对话", "input": "用户问题"}）
组件 1：提示词模板：将输入参数填充到模板中，生成 PromptValue（完整提示词文本）
组件 2：模型对象：接收提示词文本，调用大模型生成回复
输出：返回模型回复的 AIMessage 对象（或流式 chunk）

1	输入字典 → chat_prompt_template → PromptValue → model → AIMessage

四、可加入的组件

LangChain 的链（Chain）本质是 Runnable 接口组件的流水线，只要实现 **Runnable** 接口（或通过封装适配），任何组件 / 逻辑都能加入，以下是完整分类总结（重点补充自定义函数）：

一、可加入 Chain 的核心组件

LangChain 的组件都遵循「输入→处理→输出」的标准化逻辑，核心可接入 Chain 的组件分为以下几类，先明确每类的核心作用和接口：

组件类型	核心作用	标准输入（Input）	标准输出（Output）
PromptTemplate	格式化提示词（填充变量）	字典（如 `{"question": "如何学Python？"}`）	字符串（填充后的完整提示词）
LLM/ChatModel	调用大模型（OpenAI / 智谱 / 文心等）	字符串 / 消息列表（提示词）	字符串 / BaseMessage（大模型回复）
DocumentLoader	加载外部文档（PDF / 文本 / 网页）	文件路径 / URL / 配置参数	Document 列表（含 `page_content` 字段）
TextSplitter	分割长文本（适配模型上下文窗口）	字符串 / Document 列表	Document 列表（分割后的小片段）
VectorStore	向量存储（存储文本嵌入向量）	Document 列表 + Embedding 模型	无（存储）/ 相似文档列表（检索时）
Retriever	从向量库检索相似文档	查询字符串	Document 列表（检索到的相关文档）
OutputParser	解析模型输出（转 JSON / 列表 / 自定义格式）	字符串（模型原始回复）	字典 / 列表 / 自定义对象（结构化结果）
Tool	调用外部工具（搜索 / 计算 / API）	工具入参（如 `{"query": "2026年GDP"}`）	工具返回结果（字符串 / 字典）

二、组件的连接方式

连接组件的核心是「让前一个组件的输出，匹配后一个组件的输入」，LangChain 提供了 3 种主流方式，从简单到复杂依次是：

方式 1：基础链式调用（手动拼接，适合新手）

直接通过变量赋值，把前一个组件的输出作为后一个的输入，逻辑最直观。

from langchain.prompts import PromptTemplate
from langchain_openai import ChatOpenAI
from langchain_core.output_parsers import StrOutputParser

# 1. 初始化组件
prompt = PromptTemplate(
    template="请用简洁的语言回答：{question}",
    input_variables=["question"]  # 定义需要填充的变量
)
llm = ChatOpenAI(model="gpt-3.5-turbo", api_key="你的API_KEY")
output_parser = StrOutputParser()  # 把模型输出转成纯字符串

# 2. 手动连接组件（前一个的输出 → 后一个的输入）
question = "LangChain的Chain有什么作用？"
# Step1: Prompt填充变量
prompt_text = prompt.format(question=question)
# Step2: 把填充后的Prompt传给LLM
llm_response = llm.invoke(prompt_text)
# Step3: 解析LLM输出
final_answer = output_parser.invoke(llm_response)

print(final_answer)

方式 2：使用 `|` 管道符（LangChain 推荐，简洁）

LangChain 支持用 | 符号直接串联组件（类似 Linux 管道），自动处理输入输出的适配，是最常用的方式。

# 基于上面的组件，用管道符串联成链
chain = prompt | llm | output_parser

# 调用链（输入字典，匹配Prompt的变量）
result = chain.invoke({"question": "LangChain的Chain有什么作用？"})
print(result)

核心逻辑：

prompt | llm：Prompt 输出的字符串自动作为 LLM 的输入；
llm | output_parser：LLM 输出的 BaseMessage 自动作为 Parser 的输入；
整个链的输入是 Prompt 所需的字典，输出是 Parser 处理后的字符串。

方式 3：自定义 Chain（适合复杂逻辑）

如果组件间的逻辑不是简单的「一对一」（比如需要分支、循环、多输入），可以继承 BaseChain 自定义。

from langchain_core.chains import BaseChain
from langchain_core.promises import Promise
from pydantic import Field

class CustomChain(BaseChain):
    prompt: PromptTemplate = Field(...)
    llm: ChatOpenAI = Field(...)
    output_parser: StrOutputParser = Field(...)

    # 定义链的输入变量（和Prompt一致）
    @property
    def input_keys(self):
        return ["question"]

    # 定义链的输出变量
    @property
    def output_keys(self):
        return ["answer"]

    # 核心：自定义组件连接逻辑
    def _call(self, inputs, run_manager=None):
        # Step1: 处理输入（可加自定义逻辑，比如参数校验）
        question = inputs["question"]
        if not question:
            return {"answer": "请输入有效问题！"}

        # Step2: 调用Prompt
        prompt_text = self.prompt.format(question=question)

        # Step3: 调用LLM
        llm_resp = self.llm.invoke(prompt_text)

        # Step4: 解析输出
        answer = self.output_parser.invoke(llm_resp)

        return {"answer": answer}

# 使用自定义链
custom_chain = CustomChain(prompt=prompt, llm=llm, output_parser=output_parser)
result = custom_chain.invoke({"question": "LangChain的Chain有什么作用？"})
print(result["answer"])

三、复杂场景示例：检索增强生成（RAG）链（多组件串联）

实际开发中最常用的「RAG 链」就是多组件连接的典型，完整示例如下（覆盖加载→分割→检索→调用模型）：

from langchain_community.document_loaders import TextLoader
from langchain_text_splitters import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import FAISS
from langchain_core.runnables import RunnablePassthrough

# 1. 加载并处理文档
loader = TextLoader("你的文档.txt")  # 加载本地文本
docs = loader.load()
# 分割文本
splitter = CharacterTextSplitter(chunk_size=200, chunk_overlap=20)
split_docs = splitter.split_documents(docs)
# 存入向量库
embeddings = OpenAIEmbeddings(api_key="你的API_KEY")
vector_db = FAISS.from_documents(split_docs, embeddings)
# 构建检索器
retriever = vector_db.as_retriever(k=2)  # 检索top2相关文档

# 2. 定义带检索的Prompt
rag_prompt = PromptTemplate(
    template="基于以下文档回答问题：\n{context}\n问题：{question}",
    input_variables=["context", "question"]
)

# 3. 串联RAG链（关键：用RunnablePassthrough处理多输入）
rag_chain = (
    {
        "context": lambda x: retriever.invoke(x["question"]),  # 检索文档作为context
        "question": RunnablePassthrough()  # 透传用户问题
    }
    | rag_prompt  # 填充context和question
    | llm         # 调用模型
    | output_parser  # 解析输出
)

# 4. 调用链
result = rag_chain.invoke({"question": "文档里提到的Python学习方法有哪些？"})
print(result)

关键说明：

RunnablePassthrough()：透传输入变量（比如用户的问题）；
lambda x: retriever.invoke(x["question"])：从输入中提取 question，调用检索器得到 context；
最终给 Prompt 传入 context（检索结果）和 question（用户问题），实现多组件的联动。

四、解决组件连接的核心要点

输入输出格式匹配：

- 前一个组件的输出必须是后一个的输入格式（比如 Prompt 输出字符串 → LLM 输入字符串）；
- 多输入时用「字典 + lambda/RunnablePassthrough」拆分 / 透传变量。

标准化组件：

- 优先使用 LangChain 内置的 Runnable 组件（所有核心组件都实现了 invoke 方法）；
- 自定义组件时，实现 invoke 方法，保证输入输出标准化。

调试技巧：

- 用 chain.invoke() 单步调用，查看每个组件的输出；
- 用 chain.get_graph() 可视化链的结构，检查连接是否正确。

Haspmap扩容原理剖析

2026-03-24T12:21:43.000Z

一、为什么需要扩容？

HashMap 底层是一个 数组 + 链表/红黑树 的结构。数组长度是固定的，随着元素不断插入，哈希冲突概率增大，链表越来越长，查询效率从 O(1) 退化为 O(n)。

为了维持高效的查询性能，HashMap 在元素数量达到一定阈值后会自动进行扩容（resize）。

二、核心参数

参数	默认值	说明
`DEFAULT_INITIAL_CAPACITY`	16	初始容量，必须是 2 的幂
`DEFAULT_LOAD_FACTOR`	0.75f	负载因子
`MAXIMUM_CAPACITY`	2^30	最大容量
`threshold`	capacity × loadFactor	扩容阈值

扩容触发条件：

1	当前元素数量（size）> threshold（容量 × 负载因子）

默认情况下：16 × 0.75 = 12，即插入第 13 个元素时触发扩容。

三、扩容策略：容量翻倍

编辑

每次扩容，新数组容量 = 旧容量 × 2。

1
2
3

// JDK 8 源码（resize 方法节选）
int newCap = oldCap << 1; // 左移1位 = ×2
int newThr = oldThr << 1; // 阈值也同步翻倍

容量始终保持 2 的幂次方，这是 HashMap 设计的核心约束，与后续的位运算寻址密切相关。

四、扩容全过程（JDK 8）

4.1 resize() 方法整体流程

final Node[] resize() {
    Node[] oldTab = table;
    int oldCap = (oldTab == null) ? 0 : oldTab.length;
    int oldThr = threshold;
    int newCap, newThr = 0;

    if (oldCap > 0) {
        // 已达最大容量，不再扩容
        if (oldCap >= MAXIMUM_CAPACITY) {
            threshold = Integer.MAX_VALUE;
            return oldTab;
        }
        // 正常扩容：容量和阈值均翻倍
        else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                 oldCap >= DEFAULT_INITIAL_CAPACITY)
            newThr = oldThr << 1;
    }
    else if (oldThr > 0)
        newCap = oldThr; // 使用指定初始容量
    else {
        // 使用默认值初始化
        newCap = DEFAULT_INITIAL_CAPACITY;
        newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
    }

    // 创建新数组
    Node[] newTab = (Node[])new Node[newCap];
    table = newTab;

    // 将旧数组元素迁移到新数组
    // ...（见下文）

    return newTab;
}

4.2 数据迁移（rehash）

编辑

扩容后，所有元素需要重新计算在新数组中的位置。

JDK 8 的优化： 利用容量是 2 的幂次这一特性，元素在新数组中的位置只有两种情况：

原位置不变：新增高位 bit 为 0
原位置 + 旧容量：新增高位 bit 为 1

// 判断高位 bit
if ((e.hash & oldCap) == 0) {
    // 放到低位链表（原位置）
} else {
    // 放到高位链表（原位置 + oldCap）
}

这个设计避免了重新计算 hash，极大提升了扩容效率。

图示说明（以 oldCap=16 为例）：

五、链表与红黑树的处理

JDK 8 中，链表长度 ≥ 8 时会转为红黑树。扩容时对两种结构分别处理：

5.1 链表拆分

// 将链表拆分为两条：lo（低位）和 hi（高位）
Node loHead = null, loTail = null;
Node hiHead = null, hiTail = null;
Node next;
do {
    next = e.next;
    if ((e.hash & oldCap) == 0) {
        // 低位链表
        if (loTail == null) loHead = e;
        else loTail.next = e;
        loTail = e;
    } else {
        // 高位链表
        if (hiTail == null) hiHead = e;
        else hiTail.next = e;
        hiTail = e;
    }
} while ((e = next) != null);

if (loTail != null) { loTail.next = null; newTab[j] = loHead; }
if (hiTail != null) { hiTail.next = null; newTab[j + oldCap] = hiHead; }

5.2 红黑树拆分

红黑树同样按高低位拆分。拆分后：

若子树节点数 ≤ 6，退化回链表（untreeify）
若节点数 > 6，重新构建红黑树（treeify）

六、疑问

JDK 7 与 JDK 8 扩容对比

对比项	JDK 7	JDK 8
数据结构	数组 + 链表	数组 + 链表 + 红黑树
插入方式	头插法	尾插法
rehash 方式	重新计算 hash 位置	位运算优化，无需重新 hash
并发问题	头插法导致死循环	尾插法规避了死循环问题

⚠️ JDK 7 头插法的并发危险：多线程扩容时，头插法可能导致链表成环，引发 get() 死循环。JDK 8 改为尾插法解决了这一问题，但 HashMap 仍非线程安全，多线程场景请使用 ConcurrentHashMap。

负载因子为什么是 0.75？

这是空间与时间的权衡：

过小（如 0.5）：扩容频繁，空间浪费多，但冲突少
过大（如 1.0）：内存利用率高，但冲突多，链表变长，查询慢
0.75：在泊松分布下，桶中元素碰撞概率较低，综合性能最优

官方注释中也提到，在理想随机 hash 下，0.75 的负载因子使得链表长度超过 8 的概率约为 0.00000006，极低。

初始容量的选择？

如果能预估元素数量，建议手动指定初始容量，避免多次扩容带来的性能损耗：

// 预计存放 1000 个元素
// 初始容量 = 预计数量 / 负载因子 + 1
int initialCapacity = (int)(1000 / 0.75) + 1; // ≈ 1334，HashMap 会向上取2的幂 = 2048
Map<String, Object> map = new HashMap<>(initialCapacity);

或者直接使用 Guava 的工具方法：

1 2	// Guava Map<String, Object> map = Maps.newHashMapWithExpectedSize(1000);

七、总结

要点	说明
触发条件	`size > capacity × loadFactor`
扩容倍数	新容量 = 旧容量 × 2
迁移优化	高位 bit 判断，避免重新 hash
链表/树处理	拆分为高低位两组，按长度决定链表或树
线程安全	HashMap 非线程安全，并发请用 ConcurrentHashMap

大模型学习基础概念

2026-03-24T12:18:33.000Z

一、核心原理

1. Transformer架构解析

为什么使用Transformer架构

并行处理能力：相比RNN/LSTM，Transformer可以并行处理整个序列，大幅提升训练效率
长距离依赖捕获：通过自注意力机制，能够有效捕捉长距离的语义关系
可扩展性强：架构设计使其能够轻松扩展到数十亿、数千亿参数规模

什么是Transformer架构

Transformer是一种基于自注意力机制（Self-Attention）的深度学习架构，由Google在2017年提出。其核心特点包括：

编码器-解码器结构：分别负责理解输入和生成输出
多头注意力机制：从多个角度并行计算注意力权重
位置编码：为序列中的每个位置添加位置信息
前馈神经网络：对每个位置的表示进行非线性变换

2. 大模型运行原理探索

大模型如何理解和表示单词

大模型处理单元 — Token

Token是大模型处理文本的基本单位
一个Token可能是：

- 一个完整的词（如”apple”）
- 一个词的一部分（如”running” → “run” + “ning”）
- 一个字符或标点符号

通过分词器（Tokenizer）将文本切分成Token序列

单元的远序亲疏关系

通过词嵌入（Word Embedding）将Token转换为高维向量
向量空间中距离近的词语义相似
自注意力机制计算Token之间的关联强度，建立语义关系网络

大模型词义的载体和表现特征

分布式表示：一个词的含义由整个向量表示，而非单一特征
上下文依赖：同一个词在不同上下文中有不同的表示
多义性捕获：模型能够根据上下文区分一词多义
语义组合性：词向量可以通过组合表达复杂概念

大模型如何理解并预测输入人的内容

注意力机制

作用：让模型”关注”输入序列中最相关的部分
计算过程：

1	Attention(Q, K, V) = softmax(QK^T / √d_k) V

Q（Query）：查询向量 - “我想找什么”
K（Key）：键向量 - “我是什么”
V（Value）：值向量 - “我的内容是什么”
多头注意力：从多个子空间并行捕获不同类型的依赖关系

自注意力机制

Token之间相互计算注意力权重
每个Token都能”看到”序列中的所有其他Token
动态调整注意力分布，建立上下文理解

基于语义理解的内容生成

自回归生成：逐个Token预测下一个最可能的Token
概率分布采样：

- Greedy Decoding：选择概率最高的Token
- Top-k采样：从概率最高的k个Token中随机选择
- Top-p（核采样）：从累积概率达到p的Token集合中采样
- Temperature调节：控制生成的随机性和创造性

二、与传统机器学习的核心区别

维度	传统机器学习	大模型
参数规模	百万级	数十亿至数千亿级
数据需求	相对较小的标注数据	海量无标注数据 + 少量标注数据
训练方式	任务特定训练	预训练 + 微调
泛化能力	局限于训练任务	强大的零样本/少样本学习能力
特征工程	需要人工设计特征	自动学习特征表示
理解深度	模式识别	语义理解和推理

MCP的理解

2026-03-24T11:49:33.000Z

(Model Context Protocol)

简单比喻：MCP就像是给AI装了一套”插件系统”

想象一下，Claude本身就像一个很聪明的大脑，但它被”困”在一个对话框里。MCP就是让Claude能够”伸出手”去操作外部工具的协议。

具体来说：

Claude原本只能聊天，不能直接访问你的文件、数据库、API等
有了MCP，你可以给Claude连接各种”服务器”（MCP servers）
比如连接GitHub的MCP服务器后，Claude就能帮你查看代码、创建issue
连接Google Drive后，Claude就能读取、搜索你的文档
连接数据库后，Claude就能查询、分析数据

技术角度：这是Anthropic开发的一个标准化协议，让AI模型能够安全地调用外部工具和数据源。

技术文档：https://juejin.cn/post/7604037348607082534?share_token=2684000a-90a2-44c4-9bdb-22930deaab35

主流支持 MCP 的软件

Claude Code - cursor - Vscode 的roo code插件- trae 等

教程

越多MCP也会有越多token消耗

https://smithery.ai/，在这里，搜索**报红的服务**，**更新**对应的配置