大模型学习基础概念
一、核心原理
1. Transformer架构解析
为什么使用Transformer架构
- 并行处理能力:相比RNN/LSTM,Transformer可以并行处理整个序列,大幅提升训练效率
- 长距离依赖捕获:通过自注意力机制,能够有效捕捉长距离的语义关系
- 可扩展性强:架构设计使其能够轻松扩展到数十亿、数千亿参数规模
什么是Transformer架构
Transformer是一种基于自注意力机制(Self-Attention)的深度学习架构,由Google在2017年提出。其核心特点包括:
- 编码器-解码器结构:分别负责理解输入和生成输出
- 多头注意力机制:从多个角度并行计算注意力权重
- 位置编码:为序列中的每个位置添加位置信息
- 前馈神经网络:对每个位置的表示进行非线性变换
2. 大模型运行原理探索
大模型如何理解和表示单词
大模型处理单元 — Token
- Token是大模型处理文本的基本单位
- 一个Token可能是:
- 一个完整的词(如”apple”)
- 一个词的一部分(如”running” → “run” + “ning”)
- 一个字符或标点符号
- 通过分词器(Tokenizer)将文本切分成Token序列
单元的远序亲疏关系
- 通过词嵌入(Word Embedding)将Token转换为高维向量
- 向量空间中距离近的词语义相似
- 自注意力机制计算Token之间的关联强度,建立语义关系网络
大模型词义的载体和表现特征
- 分布式表示:一个词的含义由整个向量表示,而非单一特征
- 上下文依赖:同一个词在不同上下文中有不同的表示
- 多义性捕获:模型能够根据上下文区分一词多义
- 语义组合性:词向量可以通过组合表达复杂概念
大模型如何理解并预测输入人的内容
注意力机制
- 作用:让模型”关注”输入序列中最相关的部分
- 计算过程:
1 | Attention(Q, K, V) = softmax(QK^T / √d_k) V |
- Q(Query):查询向量 - “我想找什么”
- K(Key):键向量 - “我是什么”
- V(Value):值向量 - “我的内容是什么”
- 多头注意力:从多个子空间并行捕获不同类型的依赖关系
自注意力机制
- Token之间相互计算注意力权重
- 每个Token都能”看到”序列中的所有其他Token
- 动态调整注意力分布,建立上下文理解
基于语义理解的内容生成
- 自回归生成:逐个Token预测下一个最可能的Token
- 概率分布采样:
- Greedy Decoding:选择概率最高的Token
- Top-k采样:从概率最高的k个Token中随机选择
- Top-p(核采样):从累积概率达到p的Token集合中采样
- Temperature调节:控制生成的随机性和创造性
二、与传统机器学习的核心区别
| 维度 | 传统机器学习 | 大模型 |
|---|---|---|
| 参数规模 | 百万级 | 数十亿至数千亿级 |
| 数据需求 | 相对较小的标注数据 | 海量无标注数据 + 少量标注数据 |
| 训练方式 | 任务特定训练 | 预训练 + 微调 |
| 泛化能力 | 局限于训练任务 | 强大的零样本/少样本学习能力 |
| 特征工程 | 需要人工设计特征 | 自动学习特征表示 |
| 理解深度 | 模式识别 | 语义理解和推理 |
评论