DPO为何能取代RLHF成为大模型对齐的主流方法:从奖励函数重参数化到偏好优化的数学革命

2022年,ChatGPT的成功让"人类反馈强化学习"(RLHF)成为大模型训练的标配流程。但很少有人知道,这个流程在工程实现上有多么脆弱——PPO训练需要精心调校的学习率、KL散度系数、价值函数裁剪范围等超参数,稍有不慎就会导致模型崩溃或性能退化。一位资深工程师曾调侃:“调PPO比调女朋友还难。” ...

12 min · 5761 words