奖励塑形(Reward Shaping) 是强化学习中的一种技术,通过修改或增强原始奖励信号来帮助模型更好地学习。
在强化学习中,常见的问题包括:
中间奖励(Intermediate Rewards)
奖励标准化/归一化
奖励组合
total_reward = α × accuracy + β × brevityKL散度惩罚
reward = RM_score - β × KL(π||π_ref)潜在奖励(Potential-based Shaping)
论文作者说他们没有使用额外的奖励塑形技术,原因是:
因此不需要额外的技巧来"修正"或"增强"奖励信号。
展开代码使用较小/较弱的奖励模型(如7B): ├─ 奖励信号可能不准确 ├─ 可能需要添加: │ ├─ 长度惩罚(避免啰嗦) │ ├─ 格式奖励(鼓励特定格式) │ └─ KL惩罚(防止过度优化) └─ 需要奖励塑形技术来弥补 使用强大的奖励模型(如72B): ├─ 奖励信号已经很准确 ├─ 自然地捕捉到多个维度的质量 └─ 直接使用原始奖励即可,无需额外技巧
这也是论文在6.2节中强调奖励模型规模很重要的原因——更大的奖励模型能提供更高质量的信号,简化训练流程。


本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!