现代模型通常组合使用:
展开代码阶段1: Warm-up SFT ├─ 用高质量CoT数据做监督学习 ├─ 让模型学会基本的推理格式 └─ 建立初步的"逻辑先验" 阶段2: 强化学习 ├─ 基于SFT模型继续探索 ├─ 发现新的推理路径 ├─ 优化推理效率和准确性 └─ 可能超越初始训练数据 阶段3: (可选) Rejection Sampling ├─ 用RL模型生成大量推理 ├─ 筛选出答案正确的 └─ 再做一轮SFT巩固
展开代码只做SFT: 优点: 稳定,推理格式好 缺点: 上限受限于训练数据质量 32B模型的R1-Zero失败就是因为直接RL 只做RL: 优点: 可能超越训练数据 缺点: 不稳定,可能学到奇怪的推理格式 (如DeepSeek-R1-Zero的多语言混杂问题) SFT + RL: 优点: 结合两者优势 SFT打基础,RL突破上限
bash展开代码┌───────────────────────────────────────────┐ │ SFT (Think格式) │ ├───────────────────────────────────────────┤ │ 输入: 完整标注的推理过程 │ │ 过程: 模仿训练数据 │ │ 输出: 和训练数据风格一致的推理 │ │ 上限: 训练数据质量 │ └───────────────────────────────────────────┘ ┌───────────────────────────────────────────┐ │ 强化学习 (RL) │ ├───────────────────────────────────────────┤ │ 输入: 问题 + 答案验证器 │ │ 过程: 自由探索 + 对错反馈 │ │ 输出: 模型自己发现的有效推理 │ │ 上限: 可能超越训练数据(论文争论焦点) │ └───────────────────────────────────────────┘


本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!