训练
训狗时,我们能清晰判断狗的行为是否正确,并通过奖励(零食)和惩罚(训斥)来塑造它的行为。那么,对于 AI 来说,我们如何判断它“做得对不对”,又该如何给予“奖励”和“惩罚”呢?
AI 训练的本质与训狗高度相似,只是“奖励”与“惩罚”被抽象成了数学形式:
降低 Loss(损失值)→ 行为正确
提高 Loss(损失值)→ 行为错误
AI 本身不会产生“好”或“坏”的感受,它唯一能感知的只是一个数字:Loss 越低越好。整个训练过程,就是让这个 Loss 值不断下降的过程。
预训练 (Pre-training)
预训练阶段,模型通过海量无标注数据学习世界的规律,包括语言模式、常识、世界知识和基本逻辑等,相当于让 AI“读遍互联网”来建立世界观。
损失函数 (Loss Function)
作用:为模型的每一次预测给出客观评分。
损失函数负责计算模型的预测值与真实值之间的差距。差距越大,Loss 值越高;反之则越低。训练的核心目标,就是通过不断优化参数来最小化这个 Loss 值。
反向传播 (Backpropagation)
作用:将误差责任精确分配到每一个参数。
我们可以把神经网络想象成一台拥有数亿个旋钮的复杂收音机,最终输出结果是所有旋钮共同作用的结果。如果一个一个去尝试调整,效率极低。
反向传播算法通过链式求导(微积分的核心原理),将输出端的误差从后向前高效传递,精确计算出每个参数对总误差的贡献程度(即梯度)。
梯度下降 (Gradient Descent)
作用:根据梯度信息实际调整模型参数。
梯度下降的核心思想是:沿着 Loss 下降最快的方向(梯度的反方向),每次迈出一小步,不断迭代,直至到达 Loss 的局部最小值。
你可以把它想象成蒙着眼睛站在大雾笼罩的山上,想下到山谷最低点。梯度会告诉你“当前哪个方向最陡峭向下”,你只需每次朝那个方向谨慎迈一小步。
常用优化器包括:SGD(随机梯度下降)、Adam 及其变体等。
后训练 (Post-training / Alignment)
预训练模型虽然知识丰富、能力强大,但它本质上只是一个“下一个词预测器”。它不一定懂人类的意图,也可能出现胡言乱语、拒绝回答或输出有害内容。
后训练的目标是:将一个聪明但野生的 AI,转变为听话、有用、安全且让人舒适的助手。
SFT(监督微调)
Supervised Fine-Tuning 是后训练的基础步骤。
方法:收集数万到数百万条高质量的「指令 - 优秀回答」数据集,让模型直接模仿这些高标准回答。
局限性:模型只能学习“表面正确”,难以建立深层的价值观判断和对齐能力,容易出现讨好式回答或幻觉。
RLHF(基于人类反馈的强化学习)
Reinforcement Learning from Human Feedback 是目前最经典的对齐技术。
它不再简单教模型“正确答案是什么”,而是教它“哪个答案更好”:
- 收集人类偏好数据:让标注者对模型生成的多个回答进行两两比较,选出更优者。
- 训练奖励模型 (Reward Model):训练一个专门的模型,能够对「指令 + 回答」给出人类偏好程度的标量分数。
- 策略优化:使用 PPO(Proximal Policy Optimization)等强化学习算法,让主模型不断生成回答,并朝着奖励模型打分更高的方向优化。
RLHF 虽然效果显著,但训练不稳定、成本较高。因此涌现了许多更高效的改进方案:
- DPO(Direct Preference Optimization):直接利用人类偏好数据优化模型,无需单独训练奖励模型,训练更稳定,已成为当前开源模型的主流选择。
- ORPO、KTO:进一步简化的偏好优化方法,仅需“好/坏”标签即可。
- RLAIF:用 AI 代替人类进行偏好标注,大幅降低成本。
- Self-Reward / Self-Refine:模型自己生成多个答案,自己打分、自己迭代优化。
对抗训练(生成对抗网络 GAN)
对抗训练的核心思想是让模型自己和自己对抗,在竞争中共同进化。
典型代表是 GAN(Generative Adversarial Networks):
- 生成器 (Generator):负责生成尽可能逼真的内容(例如图片、文本)。
- 判别器 (Discriminator):负责判断内容是真实的还是生成的。
两者使用相同的对抗损失函数,但优化目标完全相反:
- 生成器努力“骗过”判别器(Loss 降低 = 奖励)
- 判别器努力“识破”生成器(Loss 降低 = 奖励)
在这种持续对抗中,两者的能力都快速提升,最终生成器可以生成极高质量的内容。
知识蒸馏 (Knowledge Distillation)
知识蒸馏是用一个强大但体积庞大的教师模型 (Teacher),去指导训练一个更小、更快的学生模型 (Student),让小模型在参数量大幅减少的情况下,尽可能保留大模型的能力。
蒸馏过程中,损失函数通常包含两部分:
- 硬标签损失:学生预测与真实答案的差距
- 软标签损失:学生预测与教师模型输出概率分布(soft labels)的差距
通过学习教师的“思考过程”(而非仅正确答案),学生模型能获得更好的泛化能力和推理能力。
现代 LLM 常用的蒸馏方式:
- 输出蒸馏(黑盒蒸馏):让大模型生成大量高质量合成数据,再用于训练小模型。
- 内部特征蒸馏(白盒蒸馏):利用教师模型的中间层特征(Hidden States)、注意力图等内部信息指导学生模型。