https://arxiv.org/pdf/2512.13607
https://huggingface.co/collections/nvidia/nemotron-cascade
本文提出了“级联分域强化学习”方法,通过分阶段、分领域的强化学习训练流程,解决了异构推理任务混合训练效率低下的难题,从而训出了在编程竞赛中达到国际银牌水平的14B通用推理模型。
看这图,几个阶段训练,准确率最终没低:

SOTA 性能:
统一推理模型突破:
技术透明与开源:
训练过程:

这篇论文统一了think和nothink的模型到一个模型身上去:我们表明,一个统一的推理模型可以在思考和非常想模式中有效运行,在确保通过开放数据和训练配方实现透明性的同时,缩小了与专用思考模型之间的推理差距。
多阶段监督微调
第一阶段:本阶段包含通用领域数据以及数学、科学和代码推理数据,最大序列长度为 16K 词元。对于通用领域数据,每个提示包含思考模式和非思考模式的并行回复,而数学、科学和代码数据仅包含思考模式的回复。训练执行 1 个轮次。
第二阶段:本阶段通过更长的回复进一步增强模型的推理能力,并使其具备工具使用和软件工程技能。为此,我们将通用领域数据与新的第二阶段数学、科学和代码推理数据,以及工具使用和软件工程数据集重新组合。除通用领域数据外,所有其他领域仅包含思考模式的回复。训练执行 1 个轮次。

模型的交互模式,这对于我们支持思考和非思考两种生成模式的统一推理模型尤为重要。我们采用标准的 ChatML 模板,并在用户提示中引入了两个控制标志 /think和 /no_think,用于明确指示模型以相应的模式生成回复。
Qwen3 采用了一种冗余机制,支持通过显式标志或通过 enable_thinking参数修改模板这两种方式进行模式切换。我们的早期实验表明,显式标志比基于模板的提示能带来更可靠的模式转换。
通过此简化,在非思考模式下省略了空的 块,因为它不再需要。
对于工具调用任务,我们在系统提示的 和 标签内指定所有可用工具。我们进一步指示模型在 <tool_call>和 </tool_call>标签内执行工具调用。

我们构建了一个庞大的语料库,包含280万个例子,总共320亿个“词”(token),数据来自各种通用领域。这么做是为了给模型打好基础,并增强它的对话能力。这个语料库涵盖了多种任务,比如日常聊天、问答、创意写作、安全性、执行指令、角色扮演等等。
同时,针对那些需要丰富知识的任务,我们从公开数据集中收集了大量问题,还特别补充了法律、伦理等专业领域的难题。最终,这部分形成了一个单独的语料库,有120万个例子,150亿个“词”。
不过,如果直接把这些数据混在一起用,会遇到三个明显的问题:
为了解决这些问题,我们采取了一个新方法:对于每一个问题,我们用两个先进的大语言模型(DeepSeek-R1和DeepSeek-V3)来生成回答。一个模型生成带有“思考过程”的详细回答,另一个生成直接的回答。这样我们就得到了两种格式、风格一致的高质量答案。
为了进一步提高数据质量,我们还做了额外的处理:
解决数据不足的问题
我们发现,在“让模型听指令”和“创意写作”这些任务上,现成的训练数据不够用。为了弥补这个缺口,我们采取了以下方法:
“一个问题,多种回答”:对于同一个问题,我们让模型用不同的“种子”生成多个版本的回答。
手动打造“连续对话”:为了增强模型“聊天”的能力,我们手动制造了一些多轮对话的数据:
使用 AceReason-Nemotron-1.1等数学问答对直接在第一阶段sft。
使用DeepSeek-R1和DeepSeek-R1-0528来为NuminaMath等数学问题生成带推理的问答对。
与数学推理数据类似的做法。
从优质种子中筛选复杂题目 -> 用AI生成更多样化的变体 -> 严格清洗以防止作弊 -> 构建成带有推理过程的数据 -> 用于分阶段训练模型。
标准:使用了严格的 9-gram重叠检测(即连续9个词完全一样就视为污染)。
使用了名为“Llama-Nemotron”(由Nathawani等人在2025年提出)的工具调用数据集。
在整理 RL 数据时,我们确保 SFT 和 RL 数据集在提示方面严格不重叠,因此模型在 RL 训练过程中无法利用从 SFT 中记忆的答案来回答给定的提示。
先人类反馈强化学习(RLHF),然后进行领域特定的可验证奖励强化学习(RLVR)。
RLHF 通过减少冗余和重复来显著提高生成响应的质量,从而在受限的响应长度(例如,64K 个 token)内提升推理性能。
灾难性遗忘发生在模型在多个领域顺序训练时,在获取新知识的同时覆盖了先前学习的知识,这是监督学习中常见的问题,其中不连续的训练数据集导致更新将模型推向新的分布。
级联跨领域强化学习(RL)对于 LLMs 在结构上有几个差异,可以缓解这个问题:
i) 在 RL 中,训练数据的分布是策略相关的;LLM 生成自己的经验。当引入新的目标或任务时,LLM 仍然探索状态,这意味着如果旧行为仍然有用或高奖励,它们会持续采样。这与监督学习(例如 SFT)形成对比,在监督学习中,先前领域的样本除非明确重放,否则会消失。
ii) RL 优化预期累积奖励,而不是每个输入的精确目标。因此,更新侧重于改善长期结果,而不是显式地拟合新的 token 级分布。保持奖励相关的旧知识自然会持续存在。当新任务与旧任务共享结构时,更新倾向于泛化而不是覆盖。
iii) 当新领域的奖励与先前领域产生剧烈冲突时(例如,优化简洁回答与详细分步推理之间的冲突),灾难性遗忘仍可能发生,尤其是在来自不同领域的提示在语义上相似时。然而,RLHF 和 RLVR 的奖励结构在多个领域(如数学、代码、推理和指令遵循)中存在显著重叠,因为它们都旨在使输出更好、更准确,并更符合人类偏好或验证信号。例如,减少冗余或幻觉通常对所有领域都有益。
iv) 在我们的 Cascade RL 框架中,我们进一步尽可能减少提示重叠,因为跨领域的提示通常已经具有区分性。例如,我们从 RLHF 阶段移除所有数学和竞赛编程相关的提示,以减少跨领域干扰。此外,领域特定的 RL 是从更通用的领域(例如,RLHF、指令遵循)组织到更专业的领域(例如,数学、代码、SWE),以防止专业能力被通用行为覆盖。
写出并解释这个GRPO (Group Relative Policy Optimization) 的目标函数公式。
公式
其中:
公式解释
这个公式描述了GRPO的训练目标,主要包含以下几个关键部分:
1. 期望外层结构
2. 归一化项
3. 优势函数 (Group-Normalized Advantage)
4. 核心思想
这种简化使得算法更接近原始的REINFORCE,但通过组归一化和on-policy采样保持了训练稳定性。
我们搞了点“特别的数据”来升级训练数据。
数据来源:
“坏老师”(强模型): 用 DeepSeek-V3-0324 来生成坏答案。(我们不是直接命令它“写个错误答案”(这招试了,没用) 用DeepSeek-V3模型,把原始问题稍微改写一下,让它意思偏一点。然后把这个“有点偏题的问题”拿去问那个厉害的模型,它就会自然而然地给出一个“跑题的、不好的答案”。)
“好学生”(弱模型): 用更早的 DeepSeek-V3 来生成好答案。
使用 Bradley-Terry 目标函数来训练人类偏好数据的奖励模型。该模型基于 Qwen2.5-72B-Instruct 初始化,在最后一个隐藏层上添加线性预测头,通过最大化人类偏好的对数似然进行训练。
Bradley-Terry 公式 P(y≻y'|x) = exp(r(x,y)) / [exp(r(x,y)) + exp(r(x,y'))] 用于计算在给定输入 x 的条件下,被偏好回复 y 优于非偏好回复 y' 的概率。其中 r(x,y) 表示奖励模型对回复的评分。训练目标是最小化负对数似然损失函数 ℒ(θ) = -E[log P(y≻y'|x)]。
对于每个提示,模型通过对比方式比较两个响应,使 RM 学会给优选响应分配更高的标量分数,给非优选响应分配较低的分数。这个标量分数被视为衡量模型响应"质量"的代理指标。训练采用批大小 256、学习率 2e-6、AdamW 优化器,训练 1 个 epoch。文档提到他们尝试了更长的训练计划,但发现单个 epoch 产生了最佳效果。
目前,虽然我们通过RewardBench筛选奖励模型,排除低分模型,但高分模型并不总能通过RLHF过程产生最佳的对齐策略,这既因为该基准作为代理指标的局限性,也源于RLHF过程本身的不确定性。
模型越大肯定越强:我们使用 Qwen2.5-Instruct 系列(7B、14B、32B 和 72B)训练了不同大小的奖励模型,观察到性能随模型大小呈正相关,证实了规模法则(Kaplan 等人,2020)同样适用于奖励模型训练的背景(参见表 3 中的(a)-(d))。
大模型聪明,小模型只是学习形,学习不到神:较大的 LLMs 对偏好数据中的风格伪影表现出更强的鲁棒性,而较小的模型则更倾向于关注响应的风格而非其整体质量。
模型大小是重要的:

我们将介绍作为级联强化学习(Cascade RL)流程第一阶段的 RLHF 实施方案。
我们发现,奖励模型的泛化能力对保障 RLHF 训练稳定性至关重要,且更大规模的奖励模型(例如 720 亿参数的 RM)对策略大语言模型生成的分布外(OOD)样本具有更强的适应能力。
我们发现,如果把奖励模型不太懂、容易判断错的问题(OOD提示)放进核心训练(RLHF)里,会发出错误或混乱的信号,导致训练“学歪了”,甚至直接崩溃。
乱出题会把孩子教懵:想象你在教一个小孩什么行为是好的(比如礼貌、乐于助人),什么行为是不好的(比如说谎、伤人)。如果你突然拿一道高等数学题去问他,他完全不会。这时你再批评他,他不仅学不会数学,反而会困惑:“我刚才不是在学习礼貌吗?为什么突然骂我?” 这会让他对整个“学习什么是好行为”这件事都产生混乱和抵触。文中的“OOD提示”和“数学/编程提示”就相当于这些“超纲的难题”。
用对“评分标准”很重要:评价一个小孩礼貌与否,你看他的言行就能判断。但评价一道数学题对不对,你需要标准答案和解题步骤。用“看言行”的标准去批改“数学题”,给出的分数(奖励信号)肯定不准。文中的“奖励模型”就像“看言行”的评分标准,而“基于规则的验证器”就像“对照标准答案批改数学题”的评分标准。
所以:我们的RLHF数据集主要侧重于提升助益性、无害性以及与人类偏好的对齐性,同时避免与后续级联强化学习阶段将增强的领域重叠。


本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!