偏好优化 | Answer

2022年，ChatGPT的成功让"人类反馈强化学习"（RLHF）成为大模型训练的标配流程。但很少有人知道，这个流程在工程实现上有多么脆弱——PPO训练需要精心调校的学习率、KL散度系数、价值函数裁剪范围等超参数，稍有不慎就会导致模型崩溃或性能退化。一位资深工程师曾调侃：“调PPO比调女朋友还难。” ...