大模型领域核心术语全景解读：30 + 关键概念深度解析

本文最后更新于45 天前，其中的信息可能已经过时，如有错误请发送邮件到big_fw@foxmail.com

本文系统梳理大模型领域七大维度的关键技术术语，涵盖从基础架构到前沿应用的完整知识图谱，助您全面掌握 AI 领域最核心的专业概念体系。

一、模型规模维度

1. 大模型 (Large Model)

定义：大模型，也称为大型语言模型（Large Language Models，LLMs），是指那些拥有海量参数和复杂计算结构的机器学习模型。这些模型通常基于深度学习技术，尤其是Transformer架构，能够处理和生成自然语言文本。大模型的参数量可以达到数十亿甚至数千亿，这使得它们能够捕捉和学习数据中的复杂模式和关系。

大模型的演进趋势

数据标注自动化：从强手工标注到大模型半自动化标注的转变。大模型将更多地参与到数据标注过程中，实现数据的半自动化标注，提高数据处理的效率。

参数规模：大模型的参数量从早期的几亿到现在的数千亿甚至万亿级别，呈现出快速增长的趋势。例如，GPT-1拥有1.17亿参数，而GPT-3的参数量达到了1750亿。随着硬件算力和分布式训练技术的进步，未来大模型的参数规模还将继续扩大。

多模态融合：从单一模态的LLM（Large Language Models）向多模态的MMM（Multi-Modal Models）过渡。多模态模型能够处理和融合多种类型的数据，如文本、图像、语音等，从而更好地理解和生成复杂的内容。

轻量化：从大参数模型到小参数模型的转变。轻量化的大模型在保持性能的同时，降低了计算资源的需求，使得模型能够在资源受限的设备上运行。

强推理能力：从概率生成到逻辑推理的转变。大模型将更加注重推理能力的提升，能够在复杂场景中进行逻辑推理和决策。

移动端/边缘端应用：从云端到本地的转变。大模型将更多地部署在移动端和边缘端设备上，实现本地化的智能处理。

强化学习的深度应用：从强化训练到强化微调的转变。强化学习将在大模型的训练和微调中发挥更重要的作用，提升模型的适应性和性能。

国外大模型发展史

时间	模型名称	参数量	特点
2017年	Transformer	–	提出基于自注意力机制的架构，奠定了大模型的基础。
2018年	BERT	3.4亿	双向Transformer架构，预训练语言模型，推动NLP发展。
2018年	GPT-1	1.17亿	单向Transformer架构，开启生成式预训练模型时代。
2019年	GPT-2	15亿	生成连贯文本，支持多种自然语言处理任务。
2020年	GPT-3	1750亿	参数量大幅提升，零样本学习能力显著增强。
2023年	GPT-4	未知（数千亿以上）	多模态能力增强，性能全面超越前代。
2023年	Claude 3	未知	性能强劲，多模态和跨模态能力突出。
2023年	Gemini Ultra	未知	原生多模态模型，多模态能力取得突破。
2024年	LLaMA 2	700亿	开源模型，性能接近闭源模型，社区影响力大。

国内大模型发展史

时间	模型名称	参数量	特点
2023年	文心一言	2600亿	百度推出，中文处理能力强，支持多模态任务。
2023年	通义千问	未知	阿里巴巴推出，性能与国际一流模型接近。
2023年	GLM-130B	1300亿	清华大学推出，开源模型，性能优异。
2024年	文心一言 4.0	未知	百度升级版，性能进一步提升，多模态能力增强。
2024年	Kimi	未知	月之暗面推出，长文本处理能力强，支持实时联网检索。
2024年	DeepSeek-R1	未知	深度求索推出，强化学习技术，性价比高，推理能力强。

2. 参数计量标准

单位体系：

1B=10^9（十亿）  
1T=10^{12}（万亿）

典型模型对比：

模型名称	参数量	发布年份
LLaMA-2	70B	2023
PaLM	540B	2022
GPT-4	~1.7T	2023

二、模型架构维度

3. Transformer 架构

Transformer架构是一种用于自然语言处理和其他序列任务的深度学习模型架构，在2017年提出。它摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）架构，转而采用自注意力（self-attention）机制来处理输入序列。该架构由编码器（encoder）和解码器（decoder）组成，其中编码器负责将输入序列转换为连续的表示形式，而解码器则基于编码器的输出生成输出序列。Transformer架构的自注意力机制能够同时考虑输入序列中的所有单词或元素，从而更高效地捕捉长距离依赖关系，显著提高了序列处理任务的性能和效率。

核心组件：自注意力机制 + 前馈网络
革新意义：突破 RNN 的序列处理瓶颈

4. 混合专家模型 (MoE)

混合专家模式（Mixture of Experts，MoE）是一种机器学习架构，通过多个专家模型和门控网络来处理输入数据。专家模型负责特定任务，门控网络动态选择合适的专家，提升模型性能和计算效率。其核心优势在于能够根据输入特征灵活分配任务，实现更高效、准确的预测。

架构特征：

专家模型、门控网络、动态选择、性能提升、计算效率。

优势：激活参数占比仅 20-30%，显著降低计算成本

三、训练方法维度

5. 强化学习 (RL)

三要素：环境状态 + 动作空间 + 奖励函数
算法演进：Q-Learning → PPO → DPO

6. RLHF 技术栈

四阶段流程：

graph LR
    A[初始模型] --> B[人工标注]
    B --> C[奖励模型训练]
    C --> D[强化学习优化]

7. 缩放定律 (Scaling Laws)

核心发现：模型性能∝(参数量，数据量，计算量)^0.3

四、模型能力维度

8. 涌现效应

临界阈值：模型参数量 > 100B 时出现
典型表现：
▸ 上下文学习（ICL）
▸ 代码生成能力突变
▸ 跨语言理解提升

9. 多模态能力

多模态模型能够理解和处理不同类型的数据，如文本、图像、语音甚至视频。以 OpenAI 的 GPT-4 Multimodal 为例，它可以根据一张图片生成文字描述，或者结合文字和图像回答复杂的问题。这种能力使得模型能够应用于更多场景，如自动驾驶（处理图像和传感器数据）或视频分析。

多模态模型的核心在于能够将不同类型的数据映射到同一个语义空间中，从而实现对多种数据类型的统一处理。例如，模型可以将一张图片和一段文字映射到同一个向量空间，从而理解它们之间的语义关系。

实现路径：CLIP 对齐 + 跨模态注意力
代表模型：Flamingo、KOSMOS

五、优化技术维度

10. 微调技术矩阵

技术类型	参数修改量	典型应用
全参数微调	100%	领域适配
LoRA	1-5%	轻量化部署
Prefix-Tuning	0.1%	多任务学习

11. 模型蒸馏

核心思想：知识迁移（Knowledge Distillation）
压缩效率：可将 175B 模型压缩至 3B 且保留 90% 能力

六、评估体系维度

12. 基准测试集

语言理解：MMLU（57 学科测试）
代码能力：HumanEval（164 编程题）
数学推理：GSM8K（8500 小学数学题）

13. 困惑度 (Perplexity)

计算公式：

PPL = \exp\left(-\frac{1}{N}\sum_{i=1}^N \log P(w_i|w_{<i})\right)

一、模型规模维度

1. 大模型 (Large Model)

国外大模型发展史

国内大模型发展史

2. 参数计量标准

二、模型架构维度

3. Transformer 架构

4. 混合专家模型 (MoE)

三、训练方法维度

5. 强化学习 (RL)

6. RLHF 技术栈

7. 缩放定律 (Scaling Laws)

四、模型能力维度

8. 涌现效应

9. 多模态能力

五、优化技术维度

10. 微调技术矩阵

11. 模型蒸馏

六、评估体系维度

12. 基准测试集

13. 困惑度 (Perplexity)

七、应用场景维度

14. AIGC 技术

15. 智能体 (Agent)

发送评论编辑评论

一、模型规模维度

1. 大模型 (Large Model)

国外大模型发展史

国内大模型发展史

2. 参数计量标准

二、模型架构维度

3. Transformer 架构

4. 混合专家模型 (MoE)

三、训练方法维度

5. 强化学习 (RL)

6. RLHF 技术栈

7. 缩放定律 (Scaling Laws)

四、模型能力维度

8. 涌现效应

9. 多模态能力

五、优化技术维度

10. 微调技术矩阵

11. 模型蒸馏

六、评估体系维度

12. 基准测试集

13. 困惑度 (Perplexity)

七、应用场景维度

14. AIGC 技术

15. 智能体 (Agent)

发送评论 编辑评论

推荐文章

发送评论编辑评论