大模型训练中的混合策略

现代模型通常组合使用:


展开代码
阶段1: Warm-up SFT
├─ 用高质量CoT数据做监督学习
├─ 让模型学会基本的推理格式
└─ 建立初步的"逻辑先验"

阶段2: 强化学习  
├─ 基于SFT模型继续探索
├─ 发现新的推理路径
├─ 优化推理效率和准确性
└─ 可能超越初始训练数据

阶段3: (可选) Rejection Sampling
├─ 用RL模型生成大量推理
├─ 筛选出答案正确的
└─ 再做一轮SFT巩固


展开代码
只做SFT:
优点: 稳定，推理格式好
缺点: 上限受限于训练数据质量
     32B模型的R1-Zero失败就是因为直接RL

只做RL:
优点: 可能超越训练数据
缺点: 不稳定，可能学到奇怪的推理格式
     (如DeepSeek-R1-Zero的多语言混杂问题)

SFT + RL:
优点: 结合两者优势
     SFT打基础，RL突破上限

bash
展开代码
┌───────────────────────────────────────────┐
│         SFT (Think格式)                    │
├───────────────────────────────────────────┤
│ 输入:  完整标注的推理过程                    │
│ 过程:  模仿训练数据                         │
│ 输出:  和训练数据风格一致的推理               │
│ 上限:  训练数据质量                         │
└───────────────────────────────────────────┘

┌───────────────────────────────────────────┐
│         强化学习 (RL)                      │
├───────────────────────────────────────────┤
│ 输入:  问题 + 答案验证器                    │
│ 过程:  自由探索 + 对错反馈                  │
│ 输出:  模型自己发现的有效推理                │
│ 上限:  可能超越训练数据（论文争论焦点）      │
└───────────────────────────────────────────┘