推理模型与测试时计算 (Test-Time Compute) 核心论文:
"Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters" (2024年8月)
最重要的突破之一,OpenAI o1/o3系列的理论基础
核心观点:在推理时投入更多计算资源(test-time compute)可能比单纯增大模型参数更有效
引入了"System 2思考"概念,让模型在输出前进行深度推理
延伸阅读:
"Competitive Programming with Large Reasoning Models" (OpenAI, 2025年2月)
o3模型在IOI 2024竞赛中的表现,展示了推理模型的实际能力
o3无需人工设计的推理策略就能达到金牌水平
现代模型通常组合使用:
展开代码阶段1: Warm-up SFT ├─ 用高质量CoT数据做监督学习 ├─ 让模型学会基本的推理格式 └─ 建立初步的"逻辑先验" 阶段2: 强化学习 ├─ 基于SFT模型继续探索 ├─ 发现新的推理路径 ├─ 优化推理效率和准确性 └─ 可能超越初始训练数据 阶段3: (可选) Rejection Sampling ├─ 用RL模型生成大量推理 ├─ 筛选出答案正确的 └─ 再做一轮SFT巩固
在 Ubuntu 22.04 中定时重启可以通过以下方法实现:
创建 systemd 服务文件
bash展开代码sudo nano /etc/systemd/system/reboot.service
在文件中添加以下内容
ini展开代码[Unit]
Description=System Reboot
[Service]
Type=oneshot
ExecStart=/sbin/reboot
[Install]
WantedBy=multi-user.target
在强化学习中,我们想知道:在状态采取动作,比平均水平好多少?
Proximal Policy Optimization (PPO):
模型和价值模型在PPO训练中的区别和作用时机:
版本依赖:ms-swift >= 3.11
Megatron GSPO 当前已支持以下功能:
https://github.com/vllm-project/vllm/blob/v0.11.0/pyproject.toml
在pyproject.toml中查看pytorch版本:
bash展开代码requires = [
"cmake>=3.26.1",
"ninja",
"packaging>=24.2",
"setuptools>=77.0.3,<80.0.0",
"setuptools-scm>=8.0",
"torch == 2.8.0",
"wheel",
"jinja2",
]
安装uv:
bash展开代码curl -LsSf https://astral.sh/uv/install.sh | sh
source $HOME/.local/bin/env
查看cuda版本:
bash展开代码nvcc --version
安装vllm:
bash展开代码uv pip install vllm==0.11.0 --torch-backend=cu129 --system --break-system-packages
torch如果掉了就再装:
bash展开代码# CUDA 12.9
uv pip install torch==2.8.0 torchvision==0.23.0 torchaudio==2.8.0 --index-url https://download.pytorch.org/whl/cu129 --system
https://github.com/NVIDIA/apex
为了可以离线安装,现编译出whl文件:
bash展开代码#!/bin/bash
# 构建 apex whl 文件的脚本
# 创建输出目录
mkdir -p /workspace/wheels
# 配置 pip 源(避免代理问题,使用国内镜像)
export PIP_INDEX=${PIP_INDEX:-https://mirrors.aliyun.com/pypi/simple/}
export PIP_TRUSTED_HOST=${PIP_TRUSTED_HOST:-mirrors.aliyun.com}
# 先安装构建依赖(避免构建时下载失败)
pip install --no-cache-dir -i ${PIP_INDEX} --trusted-host ${PIP_TRUSTED_HOST} \
packaging wheel setuptools pyproject-metadata
# 克隆 apex 仓库
git clone https://github.com/NVIDIA/apex.git /workspace/apex
# 进入 apex 目录
cd /workspace/apex
# 设置环境变量(与 Dockerfile 中保持一致)
export TORCH_CUDA_ARCH_LIST="7.0;7.5;8.0;8.6;8.9;9.0"
export CUDA_HOME=/usr/local/cuda
export MAX_JOBS=${MAX_JOBS:-16}
# 使用 pip wheel 构建 whl 文件(不安装)
# -w 指定输出目录
# --no-build-isolation: 使用已安装的构建依赖,不创建隔离环境
# --no-deps: 不安装运行时依赖(只构建 wheel)
NVCC_APPEND_FLAGS="--threads 4" APEX_PARALLEL_BUILD=8 APEX_CPP_EXT=1 APEX_CUDA_EXT=1 \
pip wheel -v --no-build-isolation --no-deps -i ${PIP_INDEX} --trusted-host ${PIP_TRUSTED_HOST} \
-w /workspace/wheels .
echo "apex whl 文件已构建完成,保存在 /workspace/wheels 目录"
ls -lh /workspace/wheels/*.whl
重新安装:
bash展开代码pip uninstall -y apex || true && APEX_CPP_EXT=1 APEX_CUDA_EXT=1 pip install -v --no-build-isolation /workspace/apex-0.1-cp312-cp312-linux_x86_64.whl
https://docs.nvidia.com/deeplearning/frameworks/pytorch-release-notes/rel-25-11.html
nvcr.io/nvidia/pytorch:25.08-py3