训练

训狗时，我们能清晰判断狗的行为是否正确，并通过奖励（零食）和惩罚（训斥）来塑造它的行为。那么，对于 AI 来说，我们如何判断它“做得对不对”，又该如何给予“奖励”和“惩罚”呢？

AI 训练的本质与训狗高度相似，只是“奖励”与“惩罚”被抽象成了数学形式：

降低 Loss（损失值）→ 行为正确
提高 Loss（损失值）→ 行为错误

AI 本身不会产生“好”或“坏”的感受，它唯一能感知的只是一个数字：Loss 越低越好。整个训练过程，就是让这个 Loss 值不断下降的过程。

预训练 (Pre-training)

预训练阶段，模型通过海量无标注数据学习世界的规律，包括语言模式、常识、世界知识和基本逻辑等，相当于让 AI“读遍互联网”来建立世界观。

作用：为模型的每一次预测给出客观评分。

损失函数负责计算模型的预测值与真实值之间的差距。差距越大，Loss 值越高；反之则越低。训练的核心目标，就是通过不断优化参数来最小化这个 Loss 值。

作用：将误差责任精确分配到每一个参数。

我们可以把神经网络想象成一台拥有数亿个旋钮的复杂收音机，最终输出结果是所有旋钮共同作用的结果。如果一个一个去尝试调整，效率极低。

反向传播算法通过链式求导（微积分的核心原理），将输出端的误差从后向前高效传递，精确计算出每个参数对总误差的贡献程度（即梯度）。

作用：根据梯度信息实际调整模型参数。

梯度下降的核心思想是：沿着 Loss 下降最快的方向（梯度的反方向），每次迈出一小步，不断迭代，直至到达 Loss 的局部最小值。

你可以把它想象成蒙着眼睛站在大雾笼罩的山上，想下到山谷最低点。梯度会告诉你“当前哪个方向最陡峭向下”，你只需每次朝那个方向谨慎迈一小步。

常用优化器包括：SGD（随机梯度下降）、Adam 及其变体等。

预训练模型虽然知识丰富、能力强大，但它本质上只是一个“下一个词预测器”。它不一定懂人类的意图，也可能出现胡言乱语、拒绝回答或输出有害内容。

后训练的目标是：将一个聪明但野生的 AI，转变为听话、有用、安全且让人舒适的助手。

Supervised Fine-Tuning 是后训练的基础步骤。

方法：收集数万到数百万条高质量的「指令 - 优秀回答」数据集，让模型直接模仿这些高标准回答。

局限性：模型只能学习“表面正确”，难以建立深层的价值观判断和对齐能力，容易出现讨好式回答或幻觉。

Reinforcement Learning from Human Feedback 是目前最经典的对齐技术。

它不再简单教模型“正确答案是什么”，而是教它“哪个答案更好”：

收集人类偏好数据：让标注者对模型生成的多个回答进行两两比较，选出更优者。
训练奖励模型 (Reward Model)：训练一个专门的模型，能够对「指令 + 回答」给出人类偏好程度的标量分数。
策略优化：使用 PPO（Proximal Policy Optimization）等强化学习算法，让主模型不断生成回答，并朝着奖励模型打分更高的方向优化。

RLHF 虽然效果显著，但训练不稳定、成本较高。因此涌现了许多更高效的改进方案：

DPO（Direct Preference Optimization）：直接利用人类偏好数据优化模型，无需单独训练奖励模型，训练更稳定，已成为当前开源模型的主流选择。
ORPO、KTO：进一步简化的偏好优化方法，仅需“好/坏”标签即可。
RLAIF：用 AI 代替人类进行偏好标注，大幅降低成本。
Self-Reward / Self-Refine：模型自己生成多个答案，自己打分、自己迭代优化。

对抗训练的核心思想是让模型自己和自己对抗，在竞争中共同进化。

典型代表是 GAN（Generative Adversarial Networks）：

两者使用相同的对抗损失函数，但优化目标完全相反：

在这种持续对抗中，两者的能力都快速提升，最终生成器可以生成极高质量的内容。

知识蒸馏是用一个强大但体积庞大的教师模型 (Teacher)，去指导训练一个更小、更快的学生模型 (Student)，让小模型在参数量大幅减少的情况下，尽可能保留大模型的能力。

蒸馏过程中，损失函数通常包含两部分：

通过学习教师的“思考过程”（而非仅正确答案），学生模型能获得更好的泛化能力和推理能力。

现代 LLM 常用的蒸馏方式：