GLOSSARY 术语表#
大语言模型技术索引 (2025年版)
本术语表包含大语言模型领域的核心概念、前沿技术与工程实践术语。每个术语提供精炼定义及章节交叉引用。
A#
AdaLoRA (Adaptive LoRA)#
自适应秩分配的LoRA变体,根据重要性动态调整不同层的秩参数,提升参数效率。 → 详见 [Part 3 Ch 2: 微调你的专属模型]
Agent (智能体)#
能够感知环境、自主决策并执行行动以完成目标的LLM系统,通常结合ReAct模式与工具调用能力。 → 详见 [Part 4 Ch 3: 智能体核心机制]
Alignment (对齐)#
使模型输出符合人类价值观和意图的过程,核心技术包括RLHF、DPO等。 → 详见 [Part 3 Ch 3: 与人类对齐:偏好优化]
Attention (注意力机制)#
Transformer的核心组件,通过Query-Key-Value机制动态加权聚合信息,实现上下文理解。 → 详见 [Part 2 Ch 1: Transformer核心揭秘]
B#
BERT (Bidirectional Encoder Representations from Transformers)#
基于Transformer编码器的双向预训练模型,擅长理解任务如文本分类、命名实体识别。 → 详见 [Part 1 Ch 1: 初识大语言模型] / [Part 2 Ch 2: 模型家族谱系]
BPE (Byte Pair Encoding)#
子词分词算法,通过迭代合并高频字符对构建词表,平衡词表大小与分词粒度。 → 详见 [Part 1 Ch 3: 语言的基石:分词与嵌入]
C#
Chain-of-Thought (CoT / 思维链)#
通过在Prompt中要求模型"逐步思考"输出推理过程,显著提升复杂推理任务准确率的技术。 → 详见 [Part 1 Ch 2: 与模型对话:提示工程基础] / [Part 7 Ch 3: 推理时计算增强]
Chunking (文档分块)#
RAG系统中将长文档切分为语义连贯的片段的技术,影响检索精度与生成质量。 → 详见 [Part 4 Ch 2: 检索增强生成(RAG)原理]
Cold Start (冷启动)#
数据工程中缺乏初始训练数据的场景,常通过Synthetic Data或Self-Instruct缓解。 → 详见 [Part 3 Ch 1: 数据工程基础]
Context Window (上下文窗口)#
模型一次能处理的最大Token数量,2025年前沿模型已达128K~200K tokens。 → 详见 [Part 7 Ch 1: 长上下文技术]
Continuous Batching (连续批处理)#
vLLM核心技术,动态管理不同长度的推理请求,避免传统静态批处理的等待浪费。 → 详见 [Part 6 Ch 2: vLLM高性能推理]
D#
DeepSeek-R1#
2025年前沿推理模型,通过强化学习训练推理时计算能力,在数学/代码任务中表现出色。 → 详见 [Part 7 Ch 4: 推理模型专题]
DeepSpeed#
微软开源的分布式训练框架,支持ZeRO优化、流水线并行、混合精度训练等大模型训练技术。 → 详见 [Part 5 Ch 4: DeepSpeed分布式训练]
DoRA (Weight-Decomposed Low-Rank Adaptation)#
将权重分解为幅度(Magnitude)和方向(Direction)的LoRA变体,提升微调性能与稳定性。 → 详见 [Part 3 Ch 2: 微调你的专属模型]
DPO (Direct Preference Optimization)#
无需RL训练器的偏好优化算法,直接从偏好数据中优化模型,相比RLHF更简单高效。 → 详见 [Part 3 Ch 3: 与人类对齐:偏好优化]
E#
Embedding (嵌入)#
将离散的Token/文本映射到连续向量空间的表示,是语义理解与RAG的基础。 → 详见 [Part 1 Ch 3: 语言的基石:分词与嵌入] / [Part 3 Ch 4: 创建更优的嵌入模型]
Encoder-Decoder#
Transformer的完整架构,编码器双向理解输入,解码器自回归生成输出,适用于翻译任务。 → 详见 [Part 2 Ch 2: 模型家族谱系:从编码器到解码器]
F#
Few-shot Learning (少样本学习)#
通过在Prompt中提供少量示例让模型学会新任务,无需梯度更新,是ICL的核心应用。 → 详见 [Part 1 Ch 2: 与模型对话:提示工程基础]
FlashAttention#
高效Attention实现,通过IO-aware算法和Tiling优化显存访问,加速训练与推理2-4倍。 → 详见 [Part 2 Ch 1: Transformer核心揭秘] / [Part 6 Ch 1: 模型压缩与推理加速]
Function Calling (函数调用)#
模型根据用户意图自动调用外部工具/API的能力,是构建Agent系统的核心机制。 → 详见 [Part 4 Ch 3: 智能体核心机制]
G#
GPT (Generative Pre-trained Transformer)#
基于Transformer解码器的自回归生成模型,通过预测下一个Token训练,是ChatGPT的基础架构。 → 详见 [Part 1 Ch 1: 初识大语言模型] / [Part 2 Ch 2: 模型家族谱系]
GraphRAG#
微软提出的高级RAG架构,通过知识图谱建模文档关系,提升复杂推理与多跳问答能力。 → 详见 [Part 4 Ch 2: 检索增强生成(RAG)原理]
Grokking (顿悟)#
训练过程中模型突然从记忆转向泛化的现象,通常在过拟合后继续训练才出现。 → 详见 [Part 2 Ch 3: 预训练的奥秘:从数据到智能]
GRPO (Group Relative Policy Optimization)#
分组相对策略优化,DeepSeek-R1等推理模型使用的强化学习算法,改进传统PPO。 → 详见 [Part 7 Ch 4: 推理模型专题]
H#
Hallucination (幻觉)#
模型生成看似合理但实际错误或无根据的内容,RAG与外部验证是主要缓解手段。 → 详见 [Part 4 Ch 2: 检索增强生成(RAG)原理] / [Part 7 Ch 5: 模型安全与可解释性]
I#
In-Context Learning (ICL / 上下文学习)#
模型通过Prompt中的示例学会新任务而无需梯度更新,是大模型的涌现能力。 → 详见 [Part 1 Ch 2: 与模型对话:提示工程基础]
Instruction Tuning (指令微调)#
在多样化指令数据上微调模型,使其能准确理解并遵循人类指令,是SFT的核心。 → 详见 [Part 3 Ch 2: 微调你的专属模型]
K#
KV Cache (键值缓存)#
自回归生成中缓存历史Token的Key和Value张量,避免重复计算,PagedAttention优化其管理。 → 详见 [Part 6 Ch 2: vLLM高性能推理]
L#
LangChain#
开源LLM应用开发框架,提供链式调用、Agent、RAG等组件,简化应用构建。 → 详见 [Part 5 Ch 5: 端到端LLM项目实战]
LangGraph#
LangChain团队推出的多Agent编排框架,基于有向图建模Agent工作流。 → 详见 [Part 4 Ch 3: 智能体核心机制]
LawGLM#
面向法律领域的垂直大模型,通过领域预训练与微调实现专业法律问答与文书生成。 → 详见 [Part 3 Ch 2: 微调你的专属模型]
LLaMA-Factory#
一站式大模型微调工具,集成LoRA/QLoRA/全量微调,支持WebUI配置,降低微调门槛。 → 详见 [Part 5 Ch 2: LLaMA-Factory微调工厂]
LoRA (Low-Rank Adaptation)#
参数高效微调(PEFT)的代表方法,通过低秩分解冻结原模型权重,仅训练小规模适配器。 → 详见 [Part 3 Ch 2: 微调你的专属模型]
M#
Mamba#
基于状态空间模型(SSM)的新型架构,线性时间复杂度替代Attention,适合超长序列建模。 → 详见 [Part 7 Ch 2: 新型架构探索]
Matryoshka Embedding (俄罗斯套娃嵌入)#
支持灵活维度的嵌入模型,可在推理时截断向量维度以平衡精度与效率。 → 详见 [Part 3 Ch 4: 创建更优的嵌入模型]
MCP (Model Context Protocol)#
Anthropic提出的标准化协议,定义LLM与外部工具/数据源交互接口,增强互操作性。 → 详见 [Part 4 Ch 3: 智能体核心机制]
MinHash LSH (局部敏感哈希)#
高效近似最近邻搜索算法,在大规模文档去重与相似度检索中广泛应用。 → 详见 [Part 3 Ch 1: 数据工程基础] / [Part 7 Ch 6: 大规模预训练数据工程]
MoE (Mixture of Experts / 专家混合)#
模型架构变体,每次只激活部分专家子网络,在保持性能的同时大幅减少计算量。 → 详见 [Part 2 Ch 2: 模型家族谱系] / [Part 6 Ch 1: 模型压缩与推理加速]
P#
PagedAttention#
vLLM核心技术,借鉴虚拟内存思想,将KV Cache分块管理,解决内存碎片与利用率问题。 → 详见 [Part 6 Ch 2: vLLM高性能推理]
PEFT (Parameter-Efficient Fine-Tuning / 参数高效微调)#
只更新少量参数实现模型适配的方法集合,包括LoRA、Adapter、Prefix-Tuning等。 → 详见 [Part 3 Ch 2: 微调你的专属模型]
PPO (Proximal Policy Optimization)#
RLHF训练中使用的强化学习算法,通过限制策略更新步长保证训练稳定性。 → 详见 [Part 3 Ch 3: 与人类对齐:偏好优化] / [Part 5 Ch 3: TRL与强化学习实战]
Prompt Engineering (提示工程)#
设计优化Prompt以引导模型输出的技术,包括Few-shot、CoT、ReAct等模式。 → 详见 [Part 1 Ch 2: 与模型对话:提示工程基础]
Q#
QLoRA (Quantized LoRA)#
结合4-bit量化与LoRA的微调方法,在单张消费级GPU上微调65B模型。 → 详见 [Part 3 Ch 2: 微调你的专属模型] / [Part 5 Ch 2: LLaMA-Factory微调工厂]
Quantization (量化)#
降低模型权重/激活精度(如FP16→INT8)以减少显存占用与计算量,关键技术是量化感知训练。 → 详见 [Part 6 Ch 1: 模型压缩与推理加速]
R#
RAG (Retrieval-Augmented Generation / 检索增强生成)#
结合外部知识库检索与LLM生成的架构,缓解幻觉、知识过时问题。 → 详见 [Part 4 Ch 2: 检索增强生成(RAG)原理]
ReAct (Reasoning and Acting)#
结合推理(Thought)与行动(Action)的Prompt模式,是Agent系统的核心范式。 → 详见 [Part 1 Ch 2: 与模型对话:提示工程基础] / [Part 4 Ch 3: 智能体核心机制]
Reranking (重排序)#
RAG中对初步检索结果进行精排的步骤,使用Cross-Encoder等模型提升Top-K精度。 → 详见 [Part 4 Ch 2: 检索增强生成(RAG)原理]
RLHF (Reinforcement Learning from Human Feedback / 基于人类反馈的强化学习)#
通过奖励模型(Reward Model)与PPO训练使模型对齐人类偏好,是ChatGPT的关键技术。 → 详见 [Part 3 Ch 3: 与人类对齐:偏好优化]
RoPE (Rotary Position Embedding / 旋转位置编码)#
相对位置编码方法,通过复数旋转矩阵注入位置信息,支持长度外推,是LLaMA架构标配。 → 详见 [Part 2 Ch 1: Transformer核心揭秘] / [Part 7 Ch 1: 长上下文技术]
S#
Scaling Laws (缩放定律)#
描述模型性能与参数量、数据量、计算量之间幂律关系的经验规律,指导大模型训练资源配置。 → 详见 [Part 2 Ch 3: 预训练的奥秘:从数据到智能]
Self-Attention (自注意力)#
Transformer核心机制,计算序列内每个Token与其他Token的关联权重,实现全局依赖建模。 → 详见 [Part 1 Ch 1: 初识大语言模型] / [Part 2 Ch 1: Transformer核心揭秘]
SetFit (Sentence Transformer Fine-Tuning)#
少样本文本分类框架,先用对比学习微调Sentence-Transformer,再训练轻量分类头。 → 详见 [Part 4 Ch 1: 语义理解应用:文本分类与聚类]
SFT (Supervised Fine-Tuning / 监督式微调)#
在标注数据上通过最大似然训练微调模型,是RLHF流程的第一阶段。 → 详见 [Part 3 Ch 2: 微调你的专属模型]
SimPO (Simple Preference Optimization)#
简化版偏好优化算法,直接优化模型输出概率而不引入参考模型,相比DPO更高效。 → 详见 [Part 3 Ch 3: 与人类对齐:偏好优化]
Speculative Decoding (推测解码)#
用小模型快速生成候选Token序列,大模型并行验证,加速自回归生成2-3倍。 → 详见 [Part 6 Ch 1: 模型压缩与推理加速] / [Part 6 Ch 2: vLLM高性能推理]
SwiGLU (Swish-Gated Linear Unit)#
改进的FFN激活函数,结合Swish激活与门控机制,是LLaMA/PaLM等模型的标准选择。 → 详见 [Part 2 Ch 1: Transformer核心揭秘]
Synthetic Data (合成数据)#
使用大模型生成的训练数据,通过Self-Instruct、Evol-Instruct等方法缓解数据稀缺。 → 详见 [Part 3 Ch 1: 数据工程基础] / [Part 7 Ch 6: 大规模预训练数据工程]
T#
Temperature (温度参数)#
控制模型输出随机性的采样参数,T=0确定性输出,T>1增加创造性。 → 详见 [Part 1 Ch 2: 与模型对话:提示工程基础]
Tokenizer (分词器)#
将文本切分为Token序列的工具,常用算法包括BPE、WordPiece、SentencePiece。 → 详见 [Part 1 Ch 3: 语言的基石:分词与嵌入]
Top-p Sampling (核采样)#
动态截断低概率Token的采样策略,只从累积概率达到p的最小集合中采样。 → 详见 [Part 1 Ch 2: 与模型对话:提示工程基础]
Transformer#
基于Self-Attention的深度学习架构,彻底改变NLP领域,是现代大语言模型的基础。 → 详见 [Part 1 Ch 1: 初识大语言模型] / [Part 2 Ch 1: Transformer核心揭秘]
TRL (Transformer Reinforcement Learning)#
Hugging Face推出的强化学习训练库,简化RLHF/DPO实现,与PEFT、Accelerate深度集成。 → 详见 [Part 5 Ch 3: TRL与强化学习实战]
V#
vLLM#
高性能LLM推理引擎,通过PagedAttention与Continuous Batching实现24倍吞吐量提升。 → 详见 [Part 6 Ch 2: vLLM高性能推理]
VeRA (Vector-based Random Matrix Adaptation)#
使用共享随机矩阵+可训练缩放向量的PEFT方法,相比LoRA参数量更少。 → 详见 [Part 3 Ch 2: 微调你的专属模型]
Z#
ZeRO (Zero Redundancy Optimizer)#
DeepSpeed核心优化技术,通过分片优化器状态、梯度、参数实现显存高效分布式训练。 → 详见 [Part 5 Ch 4: DeepSpeed分布式训练]
Zero-shot Learning (零样本学习)#
不提供任何示例直接让模型完成任务,依赖预训练期间学到的通用能力。 → 详见 [Part 1 Ch 2: 与模型对话:提示工程基础]
交叉索引#
按技术领域分类#
架构与原理: Transformer | Self-Attention | Encoder-Decoder | MoE | Mamba
训练与微调: SFT | LoRA | QLoRA | DoRA | PEFT | AdaLoRA | Instruction Tuning
对齐与优化: RLHF | DPO | SimPO | PPO | Alignment
推理与部署: vLLM | PagedAttention | KV Cache | Speculative Decoding | Quantization | FlashAttention
应用开发: RAG | Agent | ReAct | Function Calling | Prompt Engineering | LangChain | LangGraph
数据工程: Synthetic Data | MinHash LSH | Cold Start | Chunking
位置编码与长上下文: RoPE | Context Window
分布式训练: DeepSpeed | ZeRO
参考文献#
本术语表基于2025年前沿研究与工程实践整理,具体技术细节与实现请参阅对应章节。
版本: v1.0 (2025-01) 维护: 随书籍章节更新同步更新
使用建议:
- 初学者: 按字母顺序浏览,结合章节交叉引用建立知识体系
- 实践者: 作为快速查询手册,定位具体技术的章节位置
- 研究者: 追踪术语演进脉络,理解技术发展趋势