单机4卡训练 LLaMAFactory Megatron 速度如何？这篇做了测试。

## MCA 训练

镜像`kevinchina/deeplearning:llamafactory0-9-4-base-1-megatron-1-ok`

单机4卡训练。

脚本：

```bash
model_name_or_path: /mnt/jfs6/model/Qwen3-VL-8B-Instruct/
image_max_pixels: 451584
video_max_pixels: 16384

do_train: true
stage: sft
finetuning_type: full
dataset: llava_1k_en  # 或使用 mllm_demo
template: qwen3_vl_nothink
cutoff_len: 2048
trust_remote_code: true

output_dir: saves/mca/qwen3_vl_test2
per_device_train_batch_size: 1
gradient_accumulation_steps: 8
num_train_epochs: 1.0
learning_rate: 1.0e-6
lr_scheduler_type: cosine
bf16: true
flash_attn: auto

# 冻结参数配置
freeze_vision_tower: false
freeze_multi_modal_projector: false
freeze_language_model: false

# 数据加载配置
preprocessing_num_workers: 32
preprocessing_batch_size: 32
dataloader_num_workers: 32
data_shared_file_system: true

# 日志和保存配置
logging_steps: 10
plot_loss: true
save_steps: 500
save_strategy: steps
overwrite_output_dir: false
save_only_model: false
report_to: none

# SwanLab 配置
use_swanlab: true
swanlab_project: run-qwen3vl8b-1030  # 可根据需要修改
swanlab_mode: cloud
# swanlab_api_key: pM7Xvs5OS2EeXPO5gKXfJ  # 建议通过环境变量设置，不要硬编码在配置文件中

# Megatron 并行配置
tensor_model_parallel_size: 1
pipeline_model_parallel_size: 4
sequence_parallel: false
bias_activation_fusion: true
apply_rope_fusion: true
use_distributed_optimizer: true
```

训练指令：

```bash
USE_MCA=1 llamafactory-cli train /mnt/s3fs/train-LlamaFactory/examples/megatron/qwen3_vl_2b_full.yaml
```

qwen3vl 8b MCA用时：3分钟37秒

显存占用：


![image.png](/static/img/27fbc2a89bc376978bd49d24258a6f7f.image.webp)


数据缓存：
```bash
# 或者清除所有缓存（如果上面不行）
rm -rf ~/.cache/huggingface/datasets/*
```

## deepspeed

镜像：kevinchina/deeplearning:llamafactory0-9-4-base-1-megatron-1-ok 不行了，deepspeed版本不对。

使用镜像`kevinchina/deeplearning:llamafactory-qwen3vl-ok`


```bash
model_name_or_path: /mnt/jfs6/model/Qwen3-VL-8B-Instruct/
image_max_pixels: 451584
video_max_pixels: 16384

do_train: true
stage: sft
finetuning_type: full
dataset: llava_1k_en  # 或使用 mllm_demo
template: qwen3_vl_nothink
cutoff_len: 2048
trust_remote_code: true

output_dir: saves/mca/qwen3_vl_haha1
per_device_train_batch_size: 1
gradient_accumulation_steps: 8
num_train_epochs: 1.0
learning_rate: 1.0e-6
lr_scheduler_type: cosine
bf16: true
flash_attn: auto

# 冻结参数配置
freeze_vision_tower: false
freeze_multi_modal_projector: false
freeze_language_model: false

# 数据加载配置
preprocessing_num_workers: 32
preprocessing_batch_size: 32
dataloader_num_workers: 32
data_shared_file_system: true

# 日志和保存配置
logging_steps: 10
plot_loss: true
save_steps: 500
save_strategy: steps
overwrite_output_dir: false
save_only_model: false
report_to: none

# SwanLab 配置
use_swanlab: true
swanlab_project: run-qwen3vl8b-1030  # 可根据需要修改
swanlab_mode: cloud
# swanlab_api_key: pM7Xvs5OS2EeXPO5gKXfJ  # 建议通过环境变量设置，不要硬编码在配置文件中

# --deepspeed /app/examples/deepspeed/ds_z2_config.json
deepspeed: /app/examples/deepspeed/ds_z2_config.json
```

```bash
llamafactory-cli train  /mnt/s3fs/train-LlamaFactory/examples/train_full/qwen3_vl_8b_full.yaml
```


qwen3vl 8b deepspeed用时： 4分钟39秒




LLaMAFactory Megatron的加速（2）速度测试


## 1. Dockerfile.megatron 是什么？

`Dockerfile.megatron` 是用于构建支持 Megatron-Core 训练的 Docker 镜像的 Dockerfile。主要特点：

它安装了：
- `megatron-core==0.13.0`：Megatron 核心库
- `transformer-engine[pytorch]==2.2.0`：Transformer 优化引擎
- `deepspeed==0.16.4`：DeepSpeed 训练框架
- `mcore_adapter`（第65行）：Megatron Core Adapter

## 2. Megatron 训练会更快吗？

通常会更快。Megatron 提供多种优化：

- 模型并行：张量模型并行、流水线模型并行、序列并行
- 融合优化：`bias_activation_fusion`、`apply_rope_fusion`
- 分布式优化器：`use_distributed_optimizer`
- 通信重叠：`overlap_param_gather`、`overlap_grad_reduce`
- 其他：MoE 优化（如 `moe_grouped_gemm`）

示例配置：

```23:35:examples/megatron/qwen3_moe_full.yaml
# mcore speed up
tensor_model_parallel_size: 1
sequence_parallel: false
pipeline_model_parallel_size: 4
bias_activation_fusion: true
apply_rope_fusion: true
use_distributed_optimizer: true
overlap_param_gather: true
overlap_grad_reduce: true
moe_grouped_gemm: true
moe_token_dispatcher_type: alltoall
expert_model_parallel_size: 2
recompute_granularity: full
```

## 3. 如何启用 Megatron 训练？

### 方法一：设置环境变量

设置 `USE_MCA=1` 启用 Megatron Core Adapter：

```bash
export USE_MCA=1
llamafactory-cli train examples/megatron/qwen3_moe_full.yaml
```

代码中的检查逻辑：

```26:36:src/llamafactory/hparams/training_args.py
if is_env_enabled("USE_MCA"):
    if not is_mcore_adapter_available():
        raise ImportError(
            "mcore_adapter is required when USE_MCA=1. Please install `mcore_adapter` and its dependencies."
        )

    from mcore_adapter import Seq2SeqTrainingArguments as McaSeq2SeqTrainingArguments

    BaseTrainingArguments = McaSeq2SeqTrainingArguments
else:
    BaseTrainingArguments = Seq2SeqTrainingArguments
```

- finetuning_type: full  # Megatron 目前只支持 full 微调
- use_mca: true  # 这个参数由 USE_MCA 环境变量控制

### 注意事项

1. 需要安装 `mcore_adapter`：
   ```bash
   pip install "git+https://github.com/alibaba/roll.git#subdirectory=mcore_adapter"
   ```

2. 目前仅支持 `finetuning_type: full`（全量微调），不支持 LoRA。

3. 支持的训练阶段：`pt`（预训练）、`sft`（监督微调）、`dpo`（直接偏好优化）。

4. 训练入口判断逻辑：

```69:83:src/llamafactory/train/tuner.py
    if finetuning_args.stage in ["pt", "sft", "dpo"] and finetuning_args.use_mca:
        if not is_mcore_adapter_available():
            raise ImportError("mcore_adapter is not installed. Please install it with `pip install mcore-adapter`.")
        if finetuning_args.stage == "pt":
            from .mca import run_pt as run_pt_mca

            run_pt_mca(model_args, data_args, training_args, finetuning_args, callbacks)
        elif finetuning_args.stage == "sft":
            from .mca import run_sft as run_sft_mca

            run_sft_mca(model_args, data_args, training_args, finetuning_args, callbacks)
        elif finetuning_args.stage == "dpo":
            from .mca import run_dpo as run_dpo_mca

            run_dpo_mca(model_args, data_args, training_args, finetuning_args, callbacks)
```

总结：设置 `USE_MCA=1` 环境变量，使用支持 Megatron 的 Docker 镜像或安装 `mcore_adapter`，然后在配置文件中设置 Megatron 相关参数即可启用。

## 4. 镜像构建


构建 apex whl 文件的脚本

```bash
#!/bin/bash

# 构建 apex whl 文件的脚本

# 创建输出目录
mkdir -p /workspace/wheels

# 配置 pip 源
export PIP_INDEX=${PIP_INDEX:-https://mirrors.aliyun.com/pypi/simple/}
export PIP_TRUSTED_HOST=${PIP_TRUSTED_HOST:-mirrors.aliyun.com}

# 先安装构建依赖
pip install --no-cache-dir -i ${PIP_INDEX} --trusted-host ${PIP_TRUSTED_HOST} \
    packaging wheel setuptools pyproject-metadata

# 克隆 apex 仓库（指定分支/标签，与 Dockerfile 保持一致）
git clone --depth 1 --branch 25.04 https://github.com/NVIDIA/apex.git /workspace/apex

# 进入 apex 目录
cd /workspace/apex

# 设置环境变量（与 Dockerfile 中保持一致）
export MAX_JOBS=32
export NINJA_FLAGS="-j32"
export NVCC_APPEND_FLAGS="--threads 32"

# 使用 pip wheel 构建 whl 文件（不安装）
# --config-settings 传递构建选项，与 Dockerfile 保持一致
MAX_JOBS=32 NINJA_FLAGS="-j32" NVCC_APPEND_FLAGS="--threads 32" \
pip wheel -v --disable-pip-version-check --no-cache-dir --no-build-isolation \
    --config-settings "--build-option=--cpp_ext --cuda_ext --parallel 32" \
    -w /workspace/wheels .

echo "apex whl 文件已构建完成，保存在 /workspace/wheels 目录"
ls -lh /workspace/wheels/*.whl
```

```bash
docker build -f ./docker/docker-cuda/Dockerfile.megatron \
    --build-arg PIP_INDEX=https://pypi.org/simple \
    --build-arg EXTRAS=metrics，swanlab,vllm \
    -t llamafactory:latest .
```


meiguo机器：

```bash
docker run -it --net host \
  --gpus all \
  --ipc=host \
  --shm-size=8g \
  --ulimit memlock=-1 \
  --ulimit stack=67108864 \
  -v /data/xiedong:/data/xiedong \
  nvcr.io/nvidia/pytorch:25.04-py3 bash


docker run -it --net host \
  --gpus all \
  --ipc=host \
  --shm-size=8g \
  --ulimit memlock=-1 \
  --ulimit stack=67108864 \
  -v /data/xiedong:/data/xiedong \
  kevinchina/deeplearning:llamafactory0-9-4-base-1-megatron-1 bash






export DEBIAN_FRONTEND=noninteractive
export PIP_ROOT_USER_ACTION=ignore

pip install --upgrade pip setuptools wheel "hatchling>=1.18.0" editables --trusted-host ${PYPI_TRUSTED_HOST} --index-url ${PYPI_MIRROR}

pip uninstall -y torch torchvision torch-tensorrt \
    flash_attn transformer-engine \
    cudf dask-cuda cugraph cugraph-service-server cuml raft-dask cugraph-dgl cugraph-pyg dask-cudf

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

pip uninstall -y opencv opencv-python opencv-python-headless && \
    rm -rf /usr/local/lib/python3.10/dist-packages/cv2/ && \
    pip install opencv-python-headless==4.11.0.86 --trusted-host ${PYPI_TRUSTED_HOST} --index-url ${PYPI_MIRROR}

pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.2.post1/flash_attn-2.7.2.post1+cu12torch2.6cxx11abiFALSE-cp310-cp310-linux_x86_64.whl

apt-get update && apt-get install -y zip

apt-get install -y --no-install-recommends \
    locales \
    aria2 \
    fonts-noto-cjk \
    language-pack-zh-hans \
    zip \
    unzip \
    tree \
    vim \
    tzdata \
    apt-utils \
    htop \
    tmux \
    curl \
    wget \
    git \
    file \
    net-tools \
    libibverbs1 \
    libibverbs-dev \
    build-essential \
    ca-certificates

pip install pybind11 s3fs decord msgspec opencv-python megfile math_verify wandb swanlab
pip install "git+https://github.com/alibaba/roll.git#subdirectory=mcore_adapter"


apt-get install -y openjdk-21-jdk




ENV JAVA_HOME /usr/lib/jvm/java-21-openjdk-amd64


conda update -y openssl || true && \
    apt-get update && \
    DEBIAN_FRONTEND=noninteractive apt-get install -y openssh-server || \
    (DEBIAN_FRONTEND=noninteractive apt-get install -y --no-install-recommends openssh-server openssh-client && \
     mkdir -p /etc/ssh && \
     ssh-keygen -A || true)





# wang 机器
docker run -it --net host \
  --ipc=host \
  --shm-size=8g \
  --ulimit memlock=-1 \
  --ulimit stack=67108864 \
  --gpus all \
  -v /data/xiedong:/data/xiedong \
  kevinchina/deeplearning:llamafactory-megatron-base-2 bash


pip install "numpy==1.26.4" "optree>=0.13.0" "spacy==3.7.5" "weasel==0.4.1" \
    transformer-engine[pytorch]==2.2.0 megatron-core==0.13.0 deepspeed==0.16.4 \
    --no-build-isolation

export apex_url=git+https://github.com/NVIDIA/apex.git@25.04
pip uninstall -y apex && \
    MAX_JOBS=2 NINJA_FLAGS="-j2" NVCC_APPEND_FLAGS="--threads 2" \
    pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation \
    --config-settings "--build-option=--cpp_ext --cuda_ext --parallel 2" ${apex_url}

export LD_LIBRARY_PATH=/usr/local/nvidia/lib64:/usr/lib/x86_64-linux-gnu:$LD_LIBRARY_PATH





# 推送镜像
docker commit fc3b244ee669 kevinchina/deeplearning:llamafactory-megatron-base-4
docker push kevinchina/deeplearning:llamafactory-megatron-base-4
```



```bash
git clone https://github.com/hiyouga/LlamaFactory.git -b v0.9.4 --depth 1 /app
cd /app && pip install --no-cache-dir -e . --no-build-isolation
```


```bash
FORCE_TORCHRUN=1 llamafactory-cli train /path/to/qwen3_vl_2b_full.yaml

USE_MCA=1 llamafactory-cli train /mnt/s3fs/train-LlamaFactory/examples/megatron/qwen3_vl_2b_full.yaml


USE_MCA=1 llamafactory-cli train /data/xiedong/LlamaFactory/examples/megatron/qwen3_full.yaml
```


## 5. 训练

上面的镜像构建累死人。训练报错也是绷不住哭出声音：

```bash
USE_MCA=1 llamafactory-cli train /data/xiedong/LlamaFactory/examples/megatron/qwen3_full.yaml
```


| 参数 | 含义 | 当前值 | 说明 |
|------|------|--------|------|
| `tensor_model_parallel_size` | 张量并行大小 | 1 | 在权重矩阵维度上切分，1=不并行 |
| `pipeline_model_parallel_size` | 流水线并行大小 | 1 | 按层切分到多个 GPU，需要至少对应数量的进程 |
| `sequence_parallel` | 序列并行 | false | 在序列长度维度并行注意力计算 |
| `bias_activation_fusion` | 偏置激活融合 | true | 优化计算，减少内存访问 |
| `apply_rope_fusion` | RoPE 融合 | true | 优化位置编码计算 |
| `use_distributed_optimizer` | 分布式优化器 | true | 优化器状态分片 |


不写了，我留下一篇写。











LLaMAFactory Megatron的加速

用一个具体例子详细说明 GSPO 的两个变体的计算过程，特别是 token 级别的重要性比率是如何得到的。


用一个具体的数值例子说明 GSPO 的两种方式的 token 级别重要性比率计算：

## 假设场景

假设有一个 prompt，模型生成了一个响应："机器学习很实用"

### 输入数据（假设的数值）

假设我们有以下的 log_probs 和 old_log_probs（都是 tensor，shape 为 `(batch_size=1, seq_len=5)`）：

```python
# 响应包含5个token：["机器", "学习", "很", "实用", "<pad>"]
# 但实际只有前4个token有效

log_probs = torch.tensor([
    [-2.0, -1.8, -1.5, -1.2, 0.0]  # 当前策略的对数概率
])

old_log_probs = torch.tensor([
    [-2.2, -2.0, -1.6, -1.3, 0.0]  # 旧策略的对数概率
])

response_mask = torch.tensor([
    [1, 1, 1, 1, 0]  # 前4个token有效，最后一个padding
])
```

## 步骤1：计算 Token 级别的 negative_approx_kl

```python
negative_approx_kl = log_probs - old_log_probs
```

**计算结果：**

| Token位置 | log_probs | old_log_probs | negative_approx_kl |
|----------|-----------|---------------|-------------------|
| 0 ("机器") | -2.0 | -2.2 | -2.0 - (-2.2) = **0.2** |
| 1 ("学习") | -1.8 | -2.0 | -1.8 - (-2.0) = **0.2** |
| 2 ("很") | -1.5 | -1.6 | -1.5 - (-1.6) = **0.1** |
| 3 ("实用") | -1.2 | -1.3 | -1.2 - (-1.3) = **0.1** |
| 4 (padding) | 0.0 | 0.0 | 0.0 - 0.0 = **0.0** |

所以：
```python
negative_approx_kl = torch.tensor([
    [0.2, 0.2, 0.1, 0.1, 0.0]
])
```

## 步骤2：计算序列级别的平均 KL（这是 GSPO 的关键步骤）

```python
negative_approx_kl_in_seq = VF.masked_mean(negative_approx_kl, response_mask, dim=-1)
```

`VF.masked_mean` 会：
1. 只对 mask=1 的位置求平均（忽略 padding）
2. 在最后一个维度（`dim=-1`）上求平均

**计算过程：**
\[
\text{negative_approx_kl_in_seq} = \frac{0.2 + 0.2 + 0.1 + 0.1}{4} = 0.15
\]

**结果：**
```python
negative_approx_kl_in_seq = torch.tensor([0.15])  # shape: (1,)
```

## 步骤3：构建 Token 级别的重要性比率（两种方式）

### 方式A：`gspo`（纯序列级别）

```python
log_importance_ratio = negative_approx_kl_in_seq * response_mask
```

**计算过程：**

1. `negative_approx_kl_in_seq` 的值是 `0.15`（标量）
2. `response_mask` 是 `[1, 1, 1, 1, 0]`
3. 执行广播（broadcast）：
   - `0.15 * 1 = 0.15`（对每个有效token）
   - `0.15 * 0 = 0.0`（对padding）

**结果：**

| Token位置 | negative_approx_kl_in_seq | response_mask | log_importance_ratio |
|----------|---------------------------|---------------|---------------------|
| 0 | 0.15 | 1 | **0.15** |
| 1 | 0.15 | 1 | **0.15** |
| 2 | 0.15 | 1 | **0.15** |
| 3 | 0.15 | 1 | **0.15** |
| 4 | 0.15 | 0 | **0.0** |

```python
log_importance_ratio = torch.tensor([
    [0.15, 0.15, 0.15, 0.15, 0.0]
])
```

特点：所有有效 token 的 `log_importance_ratio` 相同（都是 `0.15`）。

### 方式B：`gspo_token`（序列级别 + Token 级别组合）

```python
log_importance_ratio = negative_approx_kl_in_seq.detach().unsqueeze(-1) + log_probs - log_probs.detach()
```

需要分步说明：

#### 步骤3.1：准备序列级别的部分

```python
negative_approx_kl_in_seq.detach().unsqueeze(-1)
```

- `.detach()`：不参与梯度计算
- `.unsqueeze(-1)`：在最后一个维度扩展，`(1,)` → `(1, 1)`

结果：
```python
# shape: (1, 1) → 广播到 (1, 5)
torch.tensor([[0.15, 0.15, 0.15, 0.15, 0.15]])  # 每个token都是0.15
```

#### 步骤3.2：计算 Token 级别的调整项

```python
log_probs - log_probs.detach()
```

**计算过程：**

| Token位置 | log_probs | log_probs.detach() | 差值 |
|----------|-----------|-------------------|------|
| 0 | -2.0 | -2.0 | **0.0** |
| 1 | -1.8 | -1.8 | **0.0** |
| 2 | -1.5 | -1.5 | **0.0** |
| 3 | -1.2 | -1.2 | **0.0** |
| 4 | 0.0 | 0.0 | **0.0** |

注意：如果 `log_probs` 是从前向传播直接得到的（没有额外的梯度操作），那么 `log_probs - log_probs.detach()` 在当前时刻通常为 0。这里的目的是在后续训练迭代中，`log_probs` 会变化，从而提供 token 级别的梯度信息。

#### 步骤3.3：相加得到最终结果

```python
log_importance_ratio = [0.15, 0.15, 0.15, 0.15, 0.15] + [0.0, 0.0, 0.0, 0.0, 0.0]
                     = [0.15, 0.15, 0.15, 0.15, 0.15]
```

更真实的场景：假设在训练过程中，`log_probs` 发生了变化：

```python
# 假设经过一次更新后，log_probs变成了：
log_probs_new = torch.tensor([
    [-1.9, -1.7, -1.4, -1.1, 0.0]  # 稍微提高了
])

# 但是之前detach的值还是旧的：
log_probs_old_detached = torch.tensor([
    [-2.0, -1.8, -1.5, -1.2, 0.0]
])

# 那么 token级别的调整项：
token_adjustment = log_probs_new - log_probs_old_detached
                = [-1.9 - (-2.0), -1.7 - (-1.8), -1.4 - (-1.5), -1.1 - (-1.2), 0.0 - 0.0]
                = [0.1, 0.1, 0.1, 0.1, 0.0]

# 序列级别的部分（从negative_approx_kl计算得到，假设还是0.15）：
seq_level = 0.15

# 最终：
log_importance_ratio = seq_level + token_adjustment
                     = [0.15 + 0.1, 0.15 + 0.1, 0.15 + 0.1, 0.15 + 0.1, 0.15 + 0.0]
                     = [0.25, 0.25, 0.25, 0.25, 0.15]
```

但实际上，在代码中的使用场景，让我重新理解一下...

让我再仔细看看代码逻辑。实际上，`log_probs` 是在每次前向传播时计算的，所以 `log_probs - log_probs.detach()` 在当前前向传播中确实是0。这个设计的目的可能是为了在后续的梯度更新中，让 token 级别的变化能够影响梯度。

让我用更实际的例子来说明：

## 完整例子对比

假设我们有一个 batch，包含 2 个响应：

```python
# Batch size = 2
# Response 1: "机器学习" (4个token)
# Response 2: "很有趣" (3个token)

log_probs = torch.tensor([
    [-2.0, -1.8, -1.5, -1.2, 0.0],  # Response 1
    [-1.9, -1.6, -1.3,  0.0, 0.0]   # Response 2
])

old_log_probs = torch.tensor([
    [-2.2, -2.0, -1.6, -1.3, 0.0],  # Response 1 旧策略
    [-2.1, -1.8, -1.5,  0.0, 0.0]   # Response 2 旧策略
])

response_mask = torch.tensor([
    [1, 1, 1, 1, 0],  # Response 1: 4个有效token
    [1, 1, 1, 0, 0]   # Response 2: 3个有效token
])
```

### 步骤1：计算 negative_approx_kl

```python
negative_approx_kl = log_probs - old_log_probs
```

**Response 1:**
- Token 0: -2.0 - (-2.2) = 0.2
- Token 1: -1.8 - (-2.0) = 0.2
- Token 2: -1.5 - (-1.6) = 0.1
- Token 3: -1.2 - (-1.3) = 0.1
- Token 4: 0.0 - 0.0 = 0.0

**Response 2:**
- Token 0: -1.9 - (-2.1) = 0.2
- Token 1: -1.6 - (-1.8) = 0.2
- Token 2: -1.3 - (-1.5) = 0.2
- Token 3: 0.0 - 0.0 = 0.0
- Token 4: 0.0 - 0.0 = 0.0

```python
negative_approx_kl = torch.tensor([
    [0.2, 0.2, 0.1, 0.1, 0.0],  # Response 1
    [0.2, 0.2, 0.2, 0.0, 0.0]   # Response 2
])
```

### 步骤2：计算序列级别的平均

```python
negative_approx_kl_in_seq = VF.masked_mean(negative_approx_kl, response_mask, dim=-1)
```

**Response 1:**
\[
\frac{0.2 + 0.2 + 0.1 + 0.1}{4} = 0.15
\]

**Response 2:**
\[
\frac{0.2 + 0.2 + 0.2}{3} = 0.2
\]

```python
negative_approx_kl_in_seq = torch.tensor([0.15, 0.2])  # shape: (2,)
```

### 方式A：`gspo` 计算 log_importance_ratio

```python
log_importance_ratio = negative_approx_kl_in_seq * response_mask
```

**计算过程（广播）：**

**Response 1:**
- 0.15 * [1, 1, 1, 1, 0] = [0.15, 0.15, 0.15, 0.15, 0.0]

**Response 2:**
- 0.2 * [1, 1, 1, 0, 0] = [0.2, 0.2, 0.2, 0.0, 0.0]

**最终结果：**

| 响应 | Token 0 | Token 1 | Token 2 | Token 3 | Token 4 |
|------|---------|---------|---------|---------|---------|
| Response 1 | **0.15** | **0.15** | **0.15** | **0.15** | 0.0 |
| Response 2 | **0.2** | **0.2** | **0.2** | 0.0 | 0.0 |

特点：每个响应内部的所有 token 都有相同的 `log_importance_ratio`。

### 方式B：`gspo_token` 计算 log_importance_ratio

```python
log_importance_ratio = negative_approx_kl_in_seq.detach().unsqueeze(-1) + log_probs - log_probs.detach()
```

由于在当前前向传播中 `log_probs - log_probs.detach()` 为 0，所以：

**Response 1:**
- [0.15, 0.15, 0.15, 0.15, 0.15] + [0, 0, 0, 0, 0] = [0.15, 0.15, 0.15, 0.15, 0.15]

**Response 2:**
- [0.2, 0.2, 0.2, 0.2, 0.2] + [0, 0, 0, 0, 0] = [0.2, 0.2, 0.2, 0.2, 0.2]

但在实际训练中，当 `log_probs` 在梯度更新后变化时，`log_probs - log_probs.detach()` 会提供 token 级别的差异，从而让每个 token 的 `log_importance_ratio` 可以不同。

## 步骤4：转换成 ratio

```python
ratio = torch.exp(log_importance_ratio)
```

对于 `gspo` 方式（Response 1）：
- Token 0: e^0.15 ≈ 1.162
- Token 1: e^0.15 ≈ 1.162
- Token 2: e^0.15 ≈ 1.162
- Token 3: e^0.15 ≈ 1.162

## 总结对比

| 方法 | 每个响应的 token 级别 log_importance_ratio | 特点 |
|------|-------------------------------------------|------|
| **`gspo`** | 所有 token 相同（都是序列级别平均值） | 纯序列级别优化，稳定性高 |
| **`gspo_token`** | 序列级别基础值 + token 级别调整项 | 结合序列和 token 级别信息，更灵活 |

关键在于理解：`gspo` 直接将序列级别的平均值扩展到所有 token，而 `gspo_token` 在序列级别基础上增加了 token 级别的调整项（虽然在当前前向传播中可能为0，但在梯度更新后会体现差异）。

GSPO vs GRPO



## 引言

在大语言模型的强化学习训练中，如何设计一个既稳定又高效的目标函数一直是核心挑战。NVIDIA最新发布的Nemotron-Cascade论文提出了一个出人意料的简化方案：**完全移除KL散度约束**，将GRPO简化为最基础的REINFORCE算法。这个看似"倒退"的设计，却在数学推理任务上取得了显著效果。

本文将深入剖析这个目标函数的设计哲学、数学细节和实践意义。

## 核心目标函数

Nemotron-Cascade采用的GRPO目标函数形式如下：

$$\mathcal{J}_{\text{GRPO}}(\theta) = \mathbb{E}_{(q,a)\sim\mathcal{D}, \{o_i\}_{i=1}^G\sim\pi_\theta(\cdot|q)} \left[\frac{1}{\sum_{i=1}^G |o_i|} \sum_{i=1}^G \sum_{t=1}^{|o_i|} \hat{A}_{i,t}\right]$$

其中优势函数定义为：

$$\hat{A}_{i,t} = \frac{r_i - \text{mean}(\{r_i\}_{i=1}^G)}{\text{std}(\{r_i\}_{i=1}^G)} \quad \text{对所有} \; t$$

让我们逐个拆解这个公式的每个部分。

## 公式拆解

### 1. 采样过程

```
(q, a) ∼ D
```
- 从数据集中采样一个问题-答案对
- **q**: 问题（如数学题）
- **a**: 标准答案

```
{o_i}^G_{i=1} ∼ π_θ(·|q)
```
- 对同一个问题q，用当前策略生成**G个不同的响应**
- 这是GRPO的核心：**群组采样**（Group sampling）
- 典型的G值为4-8个

### 2. 奖励计算

```
r_i = Reward(o_i, a)
```

对于数学推理任务（RLVR），奖励通常是二元的：
- **r_i = 1**: 答案正确
- **r_i = 0**: 答案错误

这个奖励是**序列级**（sequence-level）的，整个响应只有一个分数。

### 3. 组内标准化

这是GRPO的关键创新：

$$\hat{A}_{i,t} = \frac{r_i - \mu_G}{\sigma_G}$$

其中：
- μ_G = mean({r₁, r₂, ..., r_G})：这一组响应的平均奖励
- σ_G = std({r₁, r₂, ..., r_G})：这一组响应的奖励标准差

**为什么这样做？**

假设对于一道难题，模型生成了8个响应：
- 6个错误（r=0）
- 2个正确（r=1）

标准化后：
- μ_G = 2/8 = 0.25
- σ_G ≈ 0.43
- 错误响应的优势：Â = (0 - 0.25) / 0.43 ≈ **-0.58**（惩罚）
- 正确响应的优势：Â = (1 - 0.25) / 0.43 ≈ **+1.74**（奖励）

这种**相对比较**使得不同难度的问题产生的梯度尺度保持一致。

### 4. Token级传播

注意到优势函数 $\hat{A}_{i,t}$ 对所有token位置 t 都相同。这意味着：

```
response: "Let's solve this step by step..."
          ↓    ↓     ↓    ↓    ↓   ↓
reward:   +1.74 +1.74 +1.74 +1.74 +1.74 +1.74 (如果答案正确)
```

虽然奖励是序列级的，但**每个token都会被同等地奖励或惩罚**。

### 5. 归一化因子

$$\frac{1}{\sum_{i=1}^G |o_i|}$$

这个因子对所有生成的token总数进行归一化：
- 如果8个响应平均长度200 tokens
- 总token数 = 8 × 200 = 1600
- 每个token的贡献被缩放为 1/1600

这确保了不同batch size和响应长度下梯度的可比性。

## 三大核心设计决策

### 决策1：移除KL散度项

**传统RLHF/GRPO** 通常包含KL约束：

$$\mathcal{J} = \mathbb{E}[\text{reward}] - \beta \cdot \text{KL}(\pi_\theta || \pi_{\text{ref}})$$

这个KL项的作用：
- 防止策略偏离初始模型太远
- 保持输出的多样性
- 提供正则化效果

**Nemotron-Cascade的选择**：完全移除KL项

**为什么敢这么做？**

1. **严格on-policy训练**：每次迭代都用最新策略采样，然后立即更新，importance ratio = 1
2. **清晰的奖励信号**：数学题的对错是明确的，不需要额外约束
3. **熵正则化依然存在**：组内采样本身就鼓励多样性

### 决策2：严格on-policy

```
for iteration in training:
    # 1. 用当前策略采样
    responses = current_policy.generate(questions)
    
    # 2. 立即计算奖励
    rewards = evaluate(responses)
    
    # 3. 立即更新策略
    current_policy.update(responses, rewards)
    
    # 4. 丢弃这批数据，下次迭代重新采样
```

**优点**：
- Importance sampling ratio = 1，无需复杂的重要性权重计算
- 避免off-policy带来的分布偏移
- 训练更稳定

**代价**：
- 数据效率较低（不能复用旧数据）
- 需要更多计算资源

### 决策3：群组标准化

对比三种优势估计方法：

**方法A：全局baseline**
```
Â_i = r_i - baseline_all_data
问题：不同难度问题的梯度尺度差异巨大
```

**方法B：价值函数baseline**
```
Â_i = r_i - V(state)
优点：方差更小
缺点：需要训练额外的价值网络
```

**方法C：组内标准化（Nemotron采用）**
```
Â_i = (r_i - μ_group) / σ_group
优点：自动适应问题难度，无需额外网络
缺点：需要组内有足够的方差
```

## 梯度计算详解

让我们看一个具体例子，理解梯度如何流动。

**场景设置**：
- 问题：计算 23 × 47
- 生成4个响应（G=4）

| 响应 | 内容 | 长度 | 正确性 | 奖励 r_i |
|------|------|------|--------|----------|
| o₁ | "23×47=1081" | 50 tokens | ✓ | 1.0 |
| o₂ | "Let me think... 1081" | 80 tokens | ✓ | 1.0 |
| o₃ | "23×47=1071" | 45 tokens | ✗ | 0.0 |
| o₄ | "I'll calculate... 1071" | 60 tokens | ✗ | 0.0 |

**计算优势**：
```
μ = (1.0 + 1.0 + 0.0 + 0.0) / 4 = 0.5
σ = std([1.0, 1.0, 0.0, 0.0]) = 0.577

Â₁ = (1.0 - 0.5) / 0.577 = +0.866
Â₂ = (1.0 - 0.5) / 0.577 = +0.866
Â₃ = (0.0 - 0.5) / 0.577 = -0.866
Â₄ = (0.0 - 0.5) / 0.577 = -0.866
```

**策略梯度**（简化形式）：

$$\nabla_\theta \mathcal{J} = \frac{1}{235} \left[\sum_{t=1}^{50} (+0.866) \nabla_\theta \log \pi_\theta(o_1^t) + \sum_{t=1}^{80} (+0.866) \nabla_\theta \log \pi_\theta(o_2^t) + \ldots \right]$$

其中235是总token数（50+80+45+60）。

**解读**：
- 正确响应的每个token都获得**正梯度**（增加其概率）
- 错误响应的每个token都获得**负梯度**（降低其概率）
- 即使同样正确，较短的响应（o₁）每个token的贡献相对更大

## 与其他算法的对比

### vs. 标准PPO

| 特性 | Nemotron-GRPO | PPO |
|------|---------------|-----|
| 策略更新 | On-policy | Near on-policy |
| KL约束 | ❌ 无 | ✓ Clipping或KL惩罚 |
| 价值网络 | ❌ 不需要 | ✓ 需要 |
| 优势估计 | 组内标准化 | GAE（λ-return） |
| 实现复杂度 | ⭐⭐ | ⭐⭐⭐⭐ |

### vs. DPO

| 特性 | Nemotron-GRPO | DPO |
|------|---------------|-----|
| 训练数据 | 生成的响应 | 预先标注的偏好对 |
| 在线/离线 | 在线（生成新数据） | 离线（固定数据集） |
| 奖励模型 | 可选 | ❌ 隐式 |
| 适用场景 | 明确奖励（数学） | 偏好建模 |

### vs. ReSTEM

ReSTEM（Reinforced Self-Training on Error-corrected Multi-step reasoning）的主要区别：

| 特性 | Nemotron-GRPO | ReSTEM |
|------|---------------|--------|
| 训练方式 | 纯RL（策略梯度） | 蒸馏+RL混合 |
| 数据利用 | 丢弃旧数据 | 保留高质量轨迹 |
| 迭代方式 | 单步更新 | 多轮蒸馏 |



## 理论洞察

### 为什么去掉KL反而更稳定？

这看似违反直觉，但有几个解释：

1. **任务特性**：数学推理的奖励信号足够dense和informative
2. **on-policy机制**：本身就提供了隐式的正则化
3. **组内竞争**：标准化机制让模型学习相对好坏，而非绝对分数
4. **避免复杂性**：移除KL项减少了超参数调优的困难

### 数学上的等价性

去掉KL项后，目标函数退化为经典REINFORCE：

$$\nabla_\theta \mathcal{J} = \mathbb{E}_{\pi_\theta}\left[\hat{A} \cdot \nabla_\theta \log \pi_\theta(a|s)\right]$$

这其实是最原始的策略梯度形式！但通过：
- 组内标准化（降低方差）
- On-policy采样（减少偏差）
- Token级归一化（统一尺度）

让这个简单的算法在现代LLM上依然有效。

### 方差-偏差权衡

组内标准化的巧妙之处：

**方差**：
```
Var[Â] = Var[(r - μ_G) / σ_G] 
       = 1 / σ_G² · Var[r - μ_G]
       ≈ 1  (标准化后方差为1)
```

**偏差**：
```
E[Â] = E[(r - μ_G) / σ_G] = 0  (期望为0)
```

这是一个**无偏估计器**，且方差被归一化，在不同问题间保持一致。



Nemotron-Cascade的简化GRPO目标函数

# 深入理解奖励模型：从训练到RLHF应用

> 基于Nemotron-Cascade论文解析奖励模型的训练机制与实战应用

## 引言

在大语言模型(LLM)的训练流程中，奖励模型(Reward Model, RM)扮演着至关重要的角色。它是连接人类偏好与模型优化的桥梁，让模型能够学习什么样的回答是"好"的。本文将深入剖析奖励模型的工作原理、训练方法，以及在RLHF中的应用。

## 一、奖励模型是什么？

### 1.1 核心功能

奖励模型本质上是一个**打分器(Scorer)**：

```
输入：(prompt, response)
输出：一个标量分数 r ∈ ℝ
```

这个分数反映了response对于给定prompt的质量高低。分数越高，表示回答质量越好。

训练时的使用方式

在训练奖励模型时，需要调用两次来比较一个偏好对：


```bash
# 对更好的回答打分
score_chosen = reward_model(prompt, chosen_response)

# 对较差的回答打分  
score_rejected = reward_model(prompt, rejected_response)

# 计算损失（希望 score_chosen > score_rejected）
loss = -log(sigmoid(score_chosen - score_rejected))
```

PyTorch会自动构建如下计算图：

```bash
prompt + chosen_response
         ↓
    reward_model (参数θ) → score_chosen (2.5)
         ↓                        ↓
prompt + rejected_response        ↓
         ↓                        ↓
    reward_model (参数θ) → score_rejected (1.0)
                                  ↓
                            diff = score_chosen - score_rejected
                                  ↓
                            prob = sigmoid(diff)
                                  ↓
                            loss = -log(prob)
```

反向传播时，梯度会沿着计算图反向流动：


```bash
∂loss/∂score_chosen = ∂loss/∂prob · ∂prob/∂diff · ∂diff/∂score_chosen
                     = -1/prob · sigmoid'(diff) · 1

∂loss/∂score_rejected = ∂loss/∂prob · ∂prob/∂diff · ∂diff/∂score_rejected  
                       = -1/prob · sigmoid'(diff) · (-1)
```

然后继续反向传播到模型参数θ

```bash
∂loss/∂θ = ∂loss/∂score_chosen · ∂score_chosen/∂θ + 
           ∂loss/∂score_rejected · ∂score_rejected/∂θ
```

### 1.2 为什么需要奖励模型？

在强化学习from人类反馈(RLHF)的框架下，我们面临一个核心问题：

- **目标**：让模型生成符合人类偏好的高质量回答
- **挑战**：无法直接获得每个回答的绝对质量分数
- **解决方案**：通过人类标注的偏好对(哪个回答更好)来训练奖励模型

## 二、奖励模型的训练

### 2.1 训练数据：偏好对(Preference Pairs)

训练数据的基本单位是**偏好对**，每个样本包含：

```python
{
    "prompt": "解释什么是量子纠缠",
    "chosen_response": "量子纠缠是量子力学中的一种现象...[详细解释]",
    "rejected_response": "量子纠缠就是两个粒子之间有联系"
}
```

- **prompt (x)**：用户的问题或指令
- **chosen response (y_w)**：被标注为更好的回答(winner)
- **rejected response (y_l)**：被标注为较差的回答(loser)

### 2.2 损失函数：Bradley-Terry模型


奖励模型采用配对比较损失(Pairwise Ranking Loss),基于Bradley-Terry模型:

$$L_{RM} = -\log(\sigma(r_\theta(x, y_w) - r_\theta(x, y_l)))$$

其中:
- $r_\theta(x, y)$ 是奖励模型对提示 $x$ 和回复 $y$ 的评分
- $y_w$ 是更优的回复(winning response)
- $y_l$ 是较差的回复(losing response)
- $\sigma$ 是sigmoid函数
- $\theta$ 是模型参数

这个损失函数确保奖励模型给更优回复的评分高于较差回复的评分。



### 2.3 训练目标的直观理解

这个损失函数做了什么？

1. **拉开差距**：让`r(x, y_w)`尽可能大于`r(x, y_l)`
2. **概率解释**：sigmoid输出可以理解为"选择y_w的概率"
3. **相对排序**：关注的是相对优劣，而非绝对分数

**举例说明：**

```
场景1：r(x, y_w) = 2.0, r(x, y_l) = 1.0
差值 = 1.0, σ(1.0) ≈ 0.73, Loss ≈ 0.31

场景2：r(x, y_w) = 5.0, r(x, y_l) = 1.0  
差值 = 4.0, σ(4.0) ≈ 0.98, Loss ≈ 0.02 ✓

场景3：r(x, y_w) = 1.0, r(x, y_l) = 2.0
差值 = -1.0, σ(-1.0) ≈ 0.27, Loss ≈ 1.31 ✗
```

场景2中分数差距大，损失小；场景3中排序错误，损失大。

### 2.4 模型架构

奖励模型通常基于已训练好的LLM构建：

```
[Pretrained LLM] → [Value Head] → Scalar Score
```

**在Nemotron-Cascade中：**

- **Backbone**：Qwen2.5-72B-Instruct
- **Value Head**：单层线性投影，输出标量
- **训练数据**：82K个偏好对
- **数据来源**：公开数据集 + 自动生成的偏好数据

## 三、数据构造：如何获得偏好对？

### 3.1 人工标注

最直接但成本高的方法：

1. 给标注者展示prompt和多个候选回答
2. 标注者选择最好的回答
3. 构成偏好对：(chosen, rejected)

### 3.2 自动生成(论文中的方法)

Nemotron-Cascade论文在附录C.1中描述了自动生成"不受欢迎回答"的方法：

**策略1：破坏性采样**
- 使用高温度(temperature)采样生成质量较低的回答
- 添加明确的负面指令，如"给出简短且不完整的回答"

**策略2：模型对比**
- 使用较弱的模型生成rejected response
- 使用较强的模型生成chosen response

**策略3：规则过滤**
- 对数学/代码任务，使用验证器检查正确性
- 正确答案作为chosen，错误答案作为rejected

### 3.3 质量控制

论文中提到的数据过滤技巧：

```python
# 伪代码示例
def filter_preference_pair(prompt, y_w, y_l):
    # 1. 确保chosen确实更好
    if len(y_w) < len(y_l) * 0.5:  # chosen太短
        return False
    
    # 2. 对于有ground truth的任务
    if has_ground_truth(prompt):
        if not is_correct(y_w, ground_truth):
            return False
    
    # 3. 使用辅助模型交叉验证
    score_w = auxiliary_model.evaluate(prompt, y_w)
    score_l = auxiliary_model.evaluate(prompt, y_l)
    if score_w <= score_l:
        return False
    
    return True
```

## 四、在RLHF中的应用

### 4.1 RLHF的完整奖励函数

训练好奖励模型后，在RLHF阶段，完整的奖励函数设计为：

```
R_total(x, y) = r_RM(x, y) + α·bonus(y) - β·KL(π_θ || π_ref)
```

**各项含义：**

1. **`r_RM(x, y)`**：奖励模型的分数（主要信号）
2. **`α·bonus(y)`**：额外奖励项
   - 长度奖励：鼓励详细回答
   - 格式奖励：鼓励结构化输出
3. **`β·KL(π_θ || π_ref)`**：KL散度惩罚
   - 防止模型偏离参考模型太远
   - 避免过度优化导致的退化

### 4.2 Nemotron-Cascade的RLHF配置

根据论文4.3.2节，具体实现为：

```
R_RLHF = r_RM(x, y) + α·length_bonus(y)
```

其中：
- `length_bonus(y) = min(|y|/1000, 1.0)`：长度奖励，上限为1.0
- `α = 0.5`：长度奖励系数
- KL惩罚通过PPO算法自然引入

**为什么需要长度奖励？**

在RLHF早期阶段，模型倾向于生成简短回答以避免错误。长度奖励鼓励模型：
- 提供更详细的解释
- 展示更完整的推理过程
- 提高回答的信息量

## 五、训练技巧与消融实验

### 5.1 奖励模型大小的影响

论文中的关键发现：

| 模型大小 | RewardBench分数 | RLHF后模型性能 | 训练稳定性 |
|---------|----------------|---------------|----------|
| 14B | 86.2 | 中等 | 一般 |
| 32B | 88.5 | 良好 | 良好 |
| **72B** | **90.8** | **最佳** | **优秀** |

**结论**：更大的奖励模型带来：
- 更准确的质量评估
- 更稳定的RLHF训练过程
- 更好的最终模型性能

### 5.2 训练稳定性技巧

论文第6.3节提到的"稳定RLHF训练的技巧包"：

**技巧1：奖励归一化**
```python
reward_normalized = (reward - reward_mean) / (reward_std + 1e-8)
```

**技巧2：优势函数裁剪**
```python
advantage_clipped = torch.clamp(advantage, -10.0, 10.0)
```

**技巧3：学习率预热与衰减**
```python
warmup_steps = total_steps * 0.1
lr = lr_max * min(step/warmup_steps, 1.0)
```

## 六、Cascade RL：不同阶段使用不同奖励

Nemotron-Cascade的核心创新是**级联强化学习**，关键洞察是：

> **不是所有RL阶段都应该使用同一个奖励模型！**

### 6.1 各阶段的奖励函数设计

| RL阶段 | 奖励类型 | 奖励函数 | 验证速度 |
|--------|---------|---------|---------|
| **RLHF** | 奖励模型 | `r_RM + α·length` | 快 |
| **IF-RL** | 奖励模型 | `r_RM + format_bonus` | 快 |
| **Math RL** | 规则验证 | `correct ? 1 : 0` | 非常快 |
| **Code RL** | 单元测试 | `tests_passed / total_tests` | 慢 |
| **SWE RL** | 专用RM | `r_SWE + test_score` | 中等 |

### 6.2 为什么这样设计？

**原因1：验证速度差异巨大**
- 数学：符号验证，毫秒级
- 代码：编译+执行，秒级到分钟级
- SWE：大型代码库测试，分钟级

**原因2：任务特性不同**
- RLHF：主观质量，需要学习的偏好模型
- Math/Code：客观正确性，有明确的ground truth

**原因3：优化目标不同**
- RLHF：提升对话质量、遵循指令
- Math RL：提升数学推理准确率
- Code RL：提升代码生成正确率

## 七、实战建议

### 7.1 构建你自己的奖励模型

**步骤1：选择合适的基座模型**
```python
# 推荐使用已经过instruction tuning的模型
base_model = "Qwen2.5-32B-Instruct"  # 或类似模型
```

**步骤2：准备偏好数据**
```python
preference_data = [
    {
        "prompt": "...",
        "chosen": "...",
        "rejected": "..."
    },
    # 至少需要10K-100K条高质量偏好对
]
```

**步骤3：训练配置**
```python
training_config = {
    "learning_rate": 1e-6,  # 小学习率，避免灾难性遗忘
    "batch_size": 32,
    "epochs": 1,  # 通常1-3个epoch足够
    "loss": "bradley_terry",
    "warmup_ratio": 0.1
}
```

### 7.2 评估奖励模型质量

**指标1：Pairwise Accuracy**
```python
def pairwise_accuracy(reward_model, test_set):
    correct = 0
    for prompt, y_w, y_l in test_set:
        score_w = reward_model(prompt, y_w)
        score_l = reward_model(prompt, y_l)
        if score_w > score_l:
            correct += 1
    return correct / len(test_set)
```

**指标2：使用RewardBench**
- 标准化的奖励模型评估基准
- 覆盖多个维度：有用性、无害性、推理能力

### 7.3 避免常见陷阱

**陷阱1：奖励Hacking**
- **现象**：模型学会生成高分但低质的回答
- **解决**：KL散度约束 + 多样化的偏好数据

**陷阱2：长度偏好(Length Bias)**
- **现象**：奖励模型偏好更长的回答
- **解决**：显式添加长度惩罚或归一化

**陷阱3：过度拟合偏好数据**
- **现象**：在训练数据上表现好，泛化差
- **解决**：数据增强 + early stopping

## 八、总结与展望

### 8.1 核心要点回顾

1. **奖励模型的本质**：学习人类偏好的打分函数
2. **训练方法**：基于偏好对的Bradley-Terry损失
3. **在RLHF中的作用**：提供优化信号，结合KL惩罚平衡探索与利用
4. **Cascade RL的智慧**：不同阶段使用最适合的奖励信号

### 8.2 未来发展方向

**方向1：更高效的偏好学习**
- 从隐式反馈中学习（点击率、停留时间）
- 主动学习：选择最有信息量的样本标注

**方向2：多目标奖励建模**
- 同时优化有用性、无害性、真实性
- 可控的多维度奖励权衡

**方向3：在线学习与迭代优化**
- 根据用户真实反馈持续更新奖励模型
- 闭环优化系统

## 参考资源

- **论文**：Nemotron-Cascade (arXiv:2512.13607)
- **代码实现**：[HuggingFace TRL库](https://github.com/huggingface/trl)
- **评估基准**：[RewardBench](https://github.com/allenai/reward-bench)

---

*本文基于Nemotron-Cascade论文的技术细节撰写，旨在帮助研究者和工程师深入理解奖励模型的训练与应用。*

深入理解奖励模型：从训练到RLHF应用

## 奖励塑形(Reward Shaping)技术解释

**奖励塑形(Reward Shaping)** 是强化学习中的一种技术，通过修改或增强原始奖励信号来帮助模型更好地学习。

### 为什么需要奖励塑形？

在强化学习中，常见的问题包括：

1. **稀疏奖励问题**：只在任务完全完成时才给奖励（如下棋只在赢/输时给奖励）
2. **延迟奖励问题**：奖励信号来得太晚，模型难以学习哪些早期行为是有益的
3. **奖励信号质量差**：奖励模型不够准确，给出的信号有噪音

### 常见的奖励塑形技术：

1. **中间奖励(Intermediate Rewards)**
   - 在达到最终目标前，为中间步骤提供额外奖励
   - 例如：在数学问题中，不仅奖励最终答案，还奖励正确的中间推理步骤

2. **奖励标准化/归一化**
   - 将奖励缩放到合适的范围
   - 减少奖励值的方差，使训练更稳定

3. **奖励组合**
   - 结合多个奖励信号（如准确性 + 简洁性 + 可读性）
   - 例如：`total_reward = α × accuracy + β × brevity`

4. **KL散度惩罚**
   - 添加与参考模型的KL散度项，防止模型偏离太远
   - 例如：`reward = RM_score - β × KL(π||π_ref)`

5. **潜在奖励(Potential-based Shaping)**
   - 基于状态势能函数设计辅助奖励
   - 理论上保证不改变最优策略

### 这句话的意思：

论文作者说他们**没有使用额外的奖励塑形技术**，原因是：

- 他们使用的**72B奖励模型已经足够强大和准确**
- 这个大规模奖励模型提供的信号：
  - ✅ 质量高、噪音少
  - ✅ 区分度好（能准确区分好回答和坏回答）
  - ✅ 覆盖面广（能评估各种类型的回答）
  
因此**不需要额外的技巧来"修正"或"增强"奖励信号**。

### 对比例子：

```
使用较小/较弱的奖励模型（如7B）：
├─ 奖励信号可能不准确
├─ 可能需要添加：
│  ├─ 长度惩罚（避免啰嗦）
│  ├─ 格式奖励（鼓励特定格式）
│  └─ KL惩罚（防止过度优化）
└─ 需要奖励塑形技术来弥补

使用强大的奖励模型（如72B）：
├─ 奖励信号已经很准确
├─ 自然地捕捉到多个维度的质量
└─ 直接使用原始奖励即可，无需额外技巧
```

这也是论文在6.2节中强调**奖励模型规模很重要**的原因——更大的奖励模型能提供更高质量的信号，简化训练流程。

奖励塑形(Reward Shaping)技术解释

https://arxiv.org/html/2512.22047v1

## 一、核心创新

**MAI-UI** 是一个多尺寸的GUI智能体家族(2B、8B、32B、235B-A22B),专注于解决GUI智能体在实际部署中的四大挑战:

1. **智能体-用户交互能力不足** - 现有系统缺乏主动询问、澄清用户意图的能力
2. **仅依赖UI操作的局限性** - 长操作序列容易出错,且无法完成某些任务
3. **缺乏端云协同架构** - 纯云端方案有隐私风险,纯端侧方案能力受限
4. **动态环境脆弱性** - 在静态数据上训练的模型难以应对真实场景的多变性



## 二、技术方案

### 1. **自进化数据流水线**
- 结合人工标注、模型合成和迭代拒绝采样
- 扩展动作空间:包含UI操作 + 用户交互(`ask_user`) + MCP工具调用(`mcp_call`)
- 从多个视角生成指令(外观、功能、位置、意图),作为推理路径

### 2. **GUI定位训练范式**
- **指令即推理(Instruction-as-Reasoning)**:将多视角指令作为显式分析推理
- 先监督微调(SFT),再强化学习(RL with GRPO算法)
- **Zoom-in策略**:复杂场景下先粗定位,再裁剪放大精细定位

### 3. **端云协同系统**
- **本地智能体**:既充当GUI执行者,也作为轨迹监控器
- **云端智能体**:高容量模型,在检测到偏差时接管
- **统一轨迹内存**:维护端云间的一致状态交换
- 根据任务状态和数据敏感性动态路由计算

### 4. **在线强化学习框架**
- **可扩展GUI环境**:容器化Android虚拟设备,支持512并发实例
- **长视距RL**:异步rollout + 混合并行(TP+PP+CP)处理百万token轨迹
- **自动课程学习**:根据任务难度动态调整采样分布
- **混合验证器**:规则验证 + MLLM-as-Judge

## 三、性能亮点

### GUI定位(Grounding)
- **ScreenSpot-Pro**: 73.5%(带zoom-in),超越Gemini-3-Pro和Seed1.8
- **MMBench GUI L2**: 91.3%
- **OSWorld-G**: 70.9%(75.0% refined版本)
- **UI-Vision**: 49.2%

### 移动导航
- **AndroidWorld**: 76.7%(SOTA),超越UI-Tars-2、Gemini-2.5-Pro、Seed1.8
- **MobileWorld**: 41.7%成功率,大幅领先端到端模型
- 端侧2B模型也达到49.1%,比Ferret-UI Lite提升75.4%

### 端云协同效果
- 端侧性能提升33%
- 云端调用减少40%以上
- 保护用户隐私的同时提升效率

## 四、实验发现

1. **规模化收益**:并行环境从32扩展到512带来+5.2点提升,环境步数预算从15增至50带来+4.3点提升
2. **MCP增强**:在需要工具调用的任务上成功率提升+18.7
3. **用户交互**:在需要澄清的任务上成功率提升+32.1
4. **RL鲁棒性**:在线RL显著提升模型在动态环境中的泛化能力

## 五、关键意义

MAI-UI代表了GUI智能体从实验室走向实用的重要一步,通过系统性地解决用户交互、工具集成、隐私保护和环境适应等实际问题,为下一代人机交互提供了可行方案。其全尺寸家族设计也体现了对不同部署场景的深刻理解。

MAI-UI 智谱UI-Agent

在后台目录新建：

```bash
vanblog# mkdir data/static/markdown-themes/
```

然后去找一款主题，比如这里：https://theme.typora.io/



举个例子，比如第一个，点击后进入：https://github.com/sumruler/typora-theme-phycat/releases


![image.png](/static/img/60ed24f575064f27a7080adf5070c7c2.image.webp)


我直接下载到这里：
```bash
vanblog/data/static/markdown-themes# wget https://github.com/sumruler/typora-theme-phycat/releases/download/v2.0.3/typora-theme-phycat.zip
```

解压：

```bash
vanblog/data/static/markdown-themes# unzip typora-theme-phycat.zip
Archive:  typora-theme-phycat.zip
   creating: phycat/
  inflating: phycat/HarmonyOS_Sans_SC_Regular.woff
  inflating: phycat/phycat.dark.css
  inflating: phycat/SourceHanSerifCN-Medium.ttf
  inflating: phycat/SourceHanSerifCN-Bold.ttf
  inflating: phycat/HarmonyOS_Sans_SC_Bold.woff
  inflating: phycat/phycat.light.css
  inflating: phycat/Cascadia-Code-Regular.ttf
  inflating: phycat-caramel.css
  inflating: phycat-cherry.css
  inflating: phycat-dark.css
  inflating: phycat-forest.css
  inflating: phycat-mauve.css
  inflating: phycat-mint.css
  inflating: phycat-prussian.css
  inflating: phycat-sakura.css
  inflating: phycat-sky.css
  inflating: README.md
vanblog/vanblog/data/static/markdown-themes# ll
total 29104
drwxr-xr-x  3 root root     4096 Dec 28 15:06 ./
drwxr-xr-x 12 root root     4096 Dec 28 15:03 ../
drwxr-xr-x  2 root root     4096 Dec 27 20:12 phycat/
-rw-r--r--  1 root root     8077 Dec 27 20:12 phycat-caramel.css
-rw-r--r--  1 root root     8251 Dec 27 20:12 phycat-cherry.css
-rw-r--r--  1 root root     6594 Dec 27 20:12 phycat-dark.css
-rw-r--r--  1 root root     8139 Dec 27 20:12 phycat-forest.css
-rw-r--r--  1 root root     8335 Dec 27 20:12 phycat-mauve.css
-rw-r--r--  1 root root     8226 Dec 27 20:12 phycat-mint.css
-rw-r--r--  1 root root     8262 Dec 27 20:12 phycat-prussian.css
-rw-r--r--  1 root root     8226 Dec 27 20:12 phycat-sakura.css
-rw-r--r--  1 root root     8026 Dec 27 20:12 phycat-sky.css
-rw-r--r--  1 root root     6480 Dec 27 20:12 README.md
-rw-r--r--  1 root root 29687713 Dec 27 20:12 typora-theme-phycat.zip

```
后台 站点设置 → 布局 里：

亮色填：/static/markdown-themes/xxx-light.css

暗色填：/static/markdown-themes/xxx-dark.css

填写后提交：

![image.png](/static/img/02009ec634c3b9fa8e69f9787ce2ccba.image.webp)

Vanblog 如何自定义markdown ccs渲染样式

Nemotron-Cascade 级联强化学习

推理模型与测试时计算 (Test-Time Compute)
核心论文:

"Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters" (2024年8月)

最重要的突破之一,OpenAI o1/o3系列的理论基础

核心观点:在推理时投入更多计算资源(test-time compute)可能比单纯增大模型参数更有效

引入了"System 2思考"概念,让模型在输出前进行深度推理



延伸阅读:

"Competitive Programming with Large Reasoning Models" (OpenAI, 2025年2月)

o3模型在IOI 2024竞赛中的表现,展示了推理模型的实际能力

o3无需人工设计的推理策略就能达到金牌水平






**中心思想**：
这篇论文研究的是：**“在回答问题的时候，让AI多花点时间‘想一想’，能有多大提升？”**


1.  **为什么重要？**
    *   AI 在生成答案时，通常是一遍过。但我们可以让它“慢下来”，用更多的计算资源（比如多思考几步、多尝试几种答案）来提升答案质量。这就像是让一个学生“检查两遍作业”，而不是“做完就交”。这是让AI能自我改进的重要一步。

2.  **研究了啥？**
    *   他们就想知道：**给AI一道难题，如果允许它多花点“计算功夫”，它的表现能好多少？**
    *   这关系到未来怎么训练AI，以及怎么在“训练成本”和“使用成本”之间做平衡。

3.  **他们发现了什么？**
    *   **“多想想”是有用的，但方法要对。** 他们试了两种主要方法：一种是**边做边检查**（用内置的“评分员”判断思路对不对），另一种是**边想边调整**（根据问题动态调整回答方向）。
    *   **最关键的发现在于：**
        *   题越难，这种“多想想”的好处就越大。简单的题，可能一眼就看穿了，多花时间也没啥用。
        *   所以，不能对所有问题都平均用力。应该“**看人下菜碟**”，**对难题多分配点计算资源，对简单的题就快点过**。这就是他们说的“**计算最优**”策略。

4.  **结果有多牛？**
    *   用上这个“看人下菜碟”的聪明策略后，效率是传统“多试几次选最好”方法的**4倍以上**。省了大力气。
    *   一个更惊人的结果是：在一些问题上，**一个经过精心“多想想”的小模型，其表现能超过一个体积比自己大14倍的、但只用一遍过方法的大模型。** 这好比一个**善于反复推敲的聪明学生，有时能打败一个记忆力超强但思考仓促的学霸**。