大模型学习基础概念 | chagumu's blog

大模型学习基础概念

发表于 2026-03-24|更新于2026-06-27

|字数总计:882|阅读时长:2分钟|阅读量:|评论数:

一、核心原理

1. Transformer架构解析

为什么使用Transformer架构

并行处理能力：相比RNN/LSTM，Transformer可以并行处理整个序列，大幅提升训练效率
长距离依赖捕获：通过自注意力机制，能够有效捕捉长距离的语义关系
可扩展性强：架构设计使其能够轻松扩展到数十亿、数千亿参数规模

什么是Transformer架构

Transformer是一种基于自注意力机制（Self-Attention）的深度学习架构，由Google在2017年提出。其核心特点包括：

编码器-解码器结构：分别负责理解输入和生成输出
多头注意力机制：从多个角度并行计算注意力权重
位置编码：为序列中的每个位置添加位置信息
前馈神经网络：对每个位置的表示进行非线性变换

2. 大模型运行原理探索

大模型如何理解和表示单词

大模型处理单元 — Token

Token是大模型处理文本的基本单位
一个Token可能是：
- 一个完整的词（如"apple"）
- 一个词的一部分（如"running" → “run” + “ning”）
- 一个字符或标点符号
通过分词器（Tokenizer）将文本切分成Token序列

单元的远序亲疏关系

通过词嵌入（Word Embedding）将Token转换为高维向量
向量空间中距离近的词语义相似
自注意力机制计算Token之间的关联强度，建立语义关系网络

大模型词义的载体和表现特征

分布式表示：一个词的含义由整个向量表示，而非单一特征
上下文依赖：同一个词在不同上下文中有不同的表示
多义性捕获：模型能够根据上下文区分一词多义
语义组合性：词向量可以通过组合表达复杂概念

大模型如何理解并预测输入人的内容

注意力机制

作用：让模型"关注"输入序列中最相关的部分
计算过程：

1	Attention(Q, K, V) = softmax(QK^T / √d_k) V

Q（Query）：查询向量 - “我想找什么”
K（Key）：键向量 - “我是什么”
V（Value）：值向量 - “我的内容是什么”
多头注意力：从多个子空间并行捕获不同类型的依赖关系

自注意力机制

Token之间相互计算注意力权重
每个Token都能"看到"序列中的所有其他Token
动态调整注意力分布，建立上下文理解

基于语义理解的内容生成

自回归生成：逐个Token预测下一个最可能的Token
概率分布采样：
- Greedy Decoding：选择概率最高的Token
- Top-k采样：从概率最高的k个Token中随机选择
- Top-p（核采样）：从累积概率达到p的Token集合中采样
- Temperature调节：控制生成的随机性和创造性

二、与传统机器学习的核心区别

维度	传统机器学习	大模型
参数规模	百万级	数十亿至数千亿级
数据需求	相对较小的标注数据	海量无标注数据 + 少量标注数据
训练方式	任务特定训练	预训练 + 微调
泛化能力	局限于训练任务	强大的零样本/少样本学习能力
特征工程	需要人工设计特征	自动学习特征表示
理解深度	模式识别	语义理解和推理

大模型学习基础概念

作者

chagumu's blog

发布于

2026-03-24

更新于

2026-06-27

许可协议

CC BY-NC-SA 4.0

评论

数据库加载中