GLOSSARY 术语表#

大语言模型技术索引 (2025年版)
本术语表包含大语言模型领域的核心概念、前沿技术与工程实践术语。每个术语提供精炼定义及章节交叉引用。

A#

AdaLoRA (Adaptive LoRA)#

自适应秩分配的LoRA变体，根据重要性动态调整不同层的秩参数，提升参数效率。 → 详见 [Part 3 Ch 2: 微调你的专属模型]

Agent (智能体)#

能够感知环境、自主决策并执行行动以完成目标的LLM系统，通常结合ReAct模式与工具调用能力。 → 详见 [Part 4 Ch 3: 智能体核心机制]

Alignment (对齐)#

使模型输出符合人类价值观和意图的过程，核心技术包括RLHF、DPO等。 → 详见 [Part 3 Ch 3: 与人类对齐：偏好优化]

Attention (注意力机制)#

Transformer的核心组件，通过Query-Key-Value机制动态加权聚合信息，实现上下文理解。 → 详见 [Part 2 Ch 1: Transformer核心揭秘]

B#

BERT (Bidirectional Encoder Representations from Transformers)#

基于Transformer编码器的双向预训练模型，擅长理解任务如文本分类、命名实体识别。 → 详见 [Part 1 Ch 1: 初识大语言模型] / [Part 2 Ch 2: 模型家族谱系]

BPE (Byte Pair Encoding)#

子词分词算法，通过迭代合并高频字符对构建词表，平衡词表大小与分词粒度。 → 详见 [Part 1 Ch 3: 语言的基石：分词与嵌入]

C#

Chain-of-Thought (CoT / 思维链)#

通过在Prompt中要求模型"逐步思考"输出推理过程，显著提升复杂推理任务准确率的技术。 → 详见 [Part 1 Ch 2: 与模型对话：提示工程基础] / [Part 7 Ch 3: 推理时计算增强]

Chunking (文档分块)#

RAG系统中将长文档切分为语义连贯的片段的技术，影响检索精度与生成质量。 → 详见 [Part 4 Ch 2: 检索增强生成（RAG）原理]

Cold Start (冷启动)#

数据工程中缺乏初始训练数据的场景，常通过Synthetic Data或Self-Instruct缓解。 → 详见 [Part 3 Ch 1: 数据工程基础]

Context Window (上下文窗口)#

模型一次能处理的最大Token数量，2025年前沿模型已达128K~200K tokens。 → 详见 [Part 7 Ch 1: 长上下文技术]

Continuous Batching (连续批处理)#

vLLM核心技术，动态管理不同长度的推理请求，避免传统静态批处理的等待浪费。 → 详见 [Part 6 Ch 2: vLLM高性能推理]

D#

DeepSeek-R1#

2025年前沿推理模型，通过强化学习训练推理时计算能力，在数学/代码任务中表现出色。 → 详见 [Part 7 Ch 4: 推理模型专题]

DeepSpeed#

微软开源的分布式训练框架，支持ZeRO优化、流水线并行、混合精度训练等大模型训练技术。 → 详见 [Part 5 Ch 4: DeepSpeed分布式训练]

DoRA (Weight-Decomposed Low-Rank Adaptation)#

将权重分解为幅度(Magnitude)和方向(Direction)的LoRA变体，提升微调性能与稳定性。 → 详见 [Part 3 Ch 2: 微调你的专属模型]

DPO (Direct Preference Optimization)#

无需RL训练器的偏好优化算法，直接从偏好数据中优化模型，相比RLHF更简单高效。 → 详见 [Part 3 Ch 3: 与人类对齐：偏好优化]

E#

Embedding (嵌入)#

将离散的Token/文本映射到连续向量空间的表示，是语义理解与RAG的基础。 → 详见 [Part 1 Ch 3: 语言的基石：分词与嵌入] / [Part 3 Ch 4: 创建更优的嵌入模型]

Encoder-Decoder#

Transformer的完整架构，编码器双向理解输入，解码器自回归生成输出，适用于翻译任务。 → 详见 [Part 2 Ch 2: 模型家族谱系：从编码器到解码器]

F#

Few-shot Learning (少样本学习)#

通过在Prompt中提供少量示例让模型学会新任务，无需梯度更新，是ICL的核心应用。 → 详见 [Part 1 Ch 2: 与模型对话：提示工程基础]

FlashAttention#

高效Attention实现，通过IO-aware算法和Tiling优化显存访问，加速训练与推理2-4倍。 → 详见 [Part 2 Ch 1: Transformer核心揭秘] / [Part 6 Ch 1: 模型压缩与推理加速]

Function Calling (函数调用)#

模型根据用户意图自动调用外部工具/API的能力，是构建Agent系统的核心机制。 → 详见 [Part 4 Ch 3: 智能体核心机制]

G#

GPT (Generative Pre-trained Transformer)#

基于Transformer解码器的自回归生成模型，通过预测下一个Token训练，是ChatGPT的基础架构。 → 详见 [Part 1 Ch 1: 初识大语言模型] / [Part 2 Ch 2: 模型家族谱系]

GraphRAG#

微软提出的高级RAG架构，通过知识图谱建模文档关系，提升复杂推理与多跳问答能力。 → 详见 [Part 4 Ch 2: 检索增强生成（RAG）原理]

Grokking (顿悟)#

训练过程中模型突然从记忆转向泛化的现象，通常在过拟合后继续训练才出现。 → 详见 [Part 2 Ch 3: 预训练的奥秘：从数据到智能]

GRPO (Group Relative Policy Optimization)#

分组相对策略优化，DeepSeek-R1等推理模型使用的强化学习算法，改进传统PPO。 → 详见 [Part 7 Ch 4: 推理模型专题]

H#

Hallucination (幻觉)#

模型生成看似合理但实际错误或无根据的内容，RAG与外部验证是主要缓解手段。 → 详见 [Part 4 Ch 2: 检索增强生成（RAG）原理] / [Part 7 Ch 5: 模型安全与可解释性]

I#

In-Context Learning (ICL / 上下文学习)#

模型通过Prompt中的示例学会新任务而无需梯度更新，是大模型的涌现能力。 → 详见 [Part 1 Ch 2: 与模型对话：提示工程基础]

Instruction Tuning (指令微调)#

在多样化指令数据上微调模型，使其能准确理解并遵循人类指令，是SFT的核心。 → 详见 [Part 3 Ch 2: 微调你的专属模型]

K#

KV Cache (键值缓存)#

自回归生成中缓存历史Token的Key和Value张量，避免重复计算，PagedAttention优化其管理。 → 详见 [Part 6 Ch 2: vLLM高性能推理]

L#

LangChain#

开源LLM应用开发框架，提供链式调用、Agent、RAG等组件，简化应用构建。 → 详见 [Part 5 Ch 5: 端到端LLM项目实战]

LangGraph#

LangChain团队推出的多Agent编排框架，基于有向图建模Agent工作流。 → 详见 [Part 4 Ch 3: 智能体核心机制]

LawGLM#

面向法律领域的垂直大模型，通过领域预训练与微调实现专业法律问答与文书生成。 → 详见 [Part 3 Ch 2: 微调你的专属模型]

LLaMA-Factory#

一站式大模型微调工具，集成LoRA/QLoRA/全量微调，支持WebUI配置，降低微调门槛。 → 详见 [Part 5 Ch 2: LLaMA-Factory微调工厂]

LoRA (Low-Rank Adaptation)#

参数高效微调(PEFT)的代表方法，通过低秩分解冻结原模型权重，仅训练小规模适配器。 → 详见 [Part 3 Ch 2: 微调你的专属模型]

M#

Mamba#

基于状态空间模型(SSM)的新型架构，线性时间复杂度替代Attention，适合超长序列建模。 → 详见 [Part 7 Ch 2: 新型架构探索]

Matryoshka Embedding (俄罗斯套娃嵌入)#

支持灵活维度的嵌入模型，可在推理时截断向量维度以平衡精度与效率。 → 详见 [Part 3 Ch 4: 创建更优的嵌入模型]

MCP (Model Context Protocol)#

Anthropic提出的标准化协议，定义LLM与外部工具/数据源交互接口，增强互操作性。 → 详见 [Part 4 Ch 3: 智能体核心机制]

MinHash LSH (局部敏感哈希)#

高效近似最近邻搜索算法，在大规模文档去重与相似度检索中广泛应用。 → 详见 [Part 3 Ch 1: 数据工程基础] / [Part 7 Ch 6: 大规模预训练数据工程]

MoE (Mixture of Experts / 专家混合)#

模型架构变体，每次只激活部分专家子网络，在保持性能的同时大幅减少计算量。 → 详见 [Part 2 Ch 2: 模型家族谱系] / [Part 6 Ch 1: 模型压缩与推理加速]

P#

PagedAttention#

vLLM核心技术，借鉴虚拟内存思想，将KV Cache分块管理，解决内存碎片与利用率问题。 → 详见 [Part 6 Ch 2: vLLM高性能推理]

PEFT (Parameter-Efficient Fine-Tuning / 参数高效微调)#

只更新少量参数实现模型适配的方法集合，包括LoRA、Adapter、Prefix-Tuning等。 → 详见 [Part 3 Ch 2: 微调你的专属模型]

PPO (Proximal Policy Optimization)#

RLHF训练中使用的强化学习算法，通过限制策略更新步长保证训练稳定性。 → 详见 [Part 3 Ch 3: 与人类对齐：偏好优化] / [Part 5 Ch 3: TRL与强化学习实战]

Prompt Engineering (提示工程)#

设计优化Prompt以引导模型输出的技术，包括Few-shot、CoT、ReAct等模式。 → 详见 [Part 1 Ch 2: 与模型对话：提示工程基础]

Q#

QLoRA (Quantized LoRA)#

结合4-bit量化与LoRA的微调方法，在单张消费级GPU上微调65B模型。 → 详见 [Part 3 Ch 2: 微调你的专属模型] / [Part 5 Ch 2: LLaMA-Factory微调工厂]

Quantization (量化)#

降低模型权重/激活精度(如FP16→INT8)以减少显存占用与计算量，关键技术是量化感知训练。 → 详见 [Part 6 Ch 1: 模型压缩与推理加速]

R#

RAG (Retrieval-Augmented Generation / 检索增强生成)#

结合外部知识库检索与LLM生成的架构，缓解幻觉、知识过时问题。 → 详见 [Part 4 Ch 2: 检索增强生成（RAG）原理]

ReAct (Reasoning and Acting)#

结合推理(Thought)与行动(Action)的Prompt模式，是Agent系统的核心范式。 → 详见 [Part 1 Ch 2: 与模型对话：提示工程基础] / [Part 4 Ch 3: 智能体核心机制]

Reranking (重排序)#

RAG中对初步检索结果进行精排的步骤，使用Cross-Encoder等模型提升Top-K精度。 → 详见 [Part 4 Ch 2: 检索增强生成（RAG）原理]

RLHF (Reinforcement Learning from Human Feedback / 基于人类反馈的强化学习)#

通过奖励模型(Reward Model)与PPO训练使模型对齐人类偏好，是ChatGPT的关键技术。 → 详见 [Part 3 Ch 3: 与人类对齐：偏好优化]

RoPE (Rotary Position Embedding / 旋转位置编码)#

相对位置编码方法，通过复数旋转矩阵注入位置信息，支持长度外推，是LLaMA架构标配。 → 详见 [Part 2 Ch 1: Transformer核心揭秘] / [Part 7 Ch 1: 长上下文技术]

S#

Scaling Laws (缩放定律)#

描述模型性能与参数量、数据量、计算量之间幂律关系的经验规律，指导大模型训练资源配置。 → 详见 [Part 2 Ch 3: 预训练的奥秘：从数据到智能]

Self-Attention (自注意力)#

Transformer核心机制，计算序列内每个Token与其他Token的关联权重，实现全局依赖建模。 → 详见 [Part 1 Ch 1: 初识大语言模型] / [Part 2 Ch 1: Transformer核心揭秘]

SetFit (Sentence Transformer Fine-Tuning)#

少样本文本分类框架，先用对比学习微调Sentence-Transformer，再训练轻量分类头。 → 详见 [Part 4 Ch 1: 语义理解应用：文本分类与聚类]

SFT (Supervised Fine-Tuning / 监督式微调)#

在标注数据上通过最大似然训练微调模型，是RLHF流程的第一阶段。 → 详见 [Part 3 Ch 2: 微调你的专属模型]

SimPO (Simple Preference Optimization)#

简化版偏好优化算法，直接优化模型输出概率而不引入参考模型，相比DPO更高效。 → 详见 [Part 3 Ch 3: 与人类对齐：偏好优化]

Speculative Decoding (推测解码)#

用小模型快速生成候选Token序列，大模型并行验证，加速自回归生成2-3倍。 → 详见 [Part 6 Ch 1: 模型压缩与推理加速] / [Part 6 Ch 2: vLLM高性能推理]

SwiGLU (Swish-Gated Linear Unit)#

改进的FFN激活函数，结合Swish激活与门控机制，是LLaMA/PaLM等模型的标准选择。 → 详见 [Part 2 Ch 1: Transformer核心揭秘]

Synthetic Data (合成数据)#

使用大模型生成的训练数据，通过Self-Instruct、Evol-Instruct等方法缓解数据稀缺。 → 详见 [Part 3 Ch 1: 数据工程基础] / [Part 7 Ch 6: 大规模预训练数据工程]

T#

Temperature (温度参数)#

控制模型输出随机性的采样参数，T=0确定性输出，T>1增加创造性。 → 详见 [Part 1 Ch 2: 与模型对话：提示工程基础]

Tokenizer (分词器)#

将文本切分为Token序列的工具，常用算法包括BPE、WordPiece、SentencePiece。 → 详见 [Part 1 Ch 3: 语言的基石：分词与嵌入]

Top-p Sampling (核采样)#

动态截断低概率Token的采样策略，只从累积概率达到p的最小集合中采样。 → 详见 [Part 1 Ch 2: 与模型对话：提示工程基础]

Transformer#

基于Self-Attention的深度学习架构，彻底改变NLP领域，是现代大语言模型的基础。 → 详见 [Part 1 Ch 1: 初识大语言模型] / [Part 2 Ch 1: Transformer核心揭秘]

TRL (Transformer Reinforcement Learning)#

Hugging Face推出的强化学习训练库，简化RLHF/DPO实现，与PEFT、Accelerate深度集成。 → 详见 [Part 5 Ch 3: TRL与强化学习实战]

V#

vLLM#

高性能LLM推理引擎，通过PagedAttention与Continuous Batching实现24倍吞吐量提升。 → 详见 [Part 6 Ch 2: vLLM高性能推理]

VeRA (Vector-based Random Matrix Adaptation)#

使用共享随机矩阵+可训练缩放向量的PEFT方法，相比LoRA参数量更少。 → 详见 [Part 3 Ch 2: 微调你的专属模型]

Z#

ZeRO (Zero Redundancy Optimizer)#

DeepSpeed核心优化技术，通过分片优化器状态、梯度、参数实现显存高效分布式训练。 → 详见 [Part 5 Ch 4: DeepSpeed分布式训练]

Zero-shot Learning (零样本学习)#

不提供任何示例直接让模型完成任务，依赖预训练期间学到的通用能力。 → 详见 [Part 1 Ch 2: 与模型对话：提示工程基础]

交叉索引#

按技术领域分类#

架构与原理: Transformer | Self-Attention | Encoder-Decoder | MoE | Mamba

对齐与优化: RLHF | DPO | SimPO | PPO | Alignment

数据工程: Synthetic Data | MinHash LSH | Cold Start | Chunking

位置编码与长上下文: RoPE | Context Window

分布式训练: DeepSpeed | ZeRO

参考文献#

本术语表基于2025年前沿研究与工程实践整理，具体技术细节与实现请参阅对应章节。

版本: v1.0 (2025-01) 维护: 随书籍章节更新同步更新

使用建议:

初学者: 按字母顺序浏览，结合章节交叉引用建立知识体系
实践者: 作为快速查询手册，定位具体技术的章节位置
研究者: 追踪术语演进脉络，理解技术发展趋势