esc

请输入并搜索

GRPO

9 文章 × 89026 字

优化GRPO——腾讯提出SPO

大语言模型策略优化grpo局限性single-stream policy optimization+2

【深度学习】EasyR1 GRPO 多机多卡训练（3）

easyr1qwen2.5vl 7b多机多卡训练+2

【知识点】GRPO 训练原理

grpo算法原理强化学习训练群组相对优化+4

【训练】VLM Qwen2.GRPO训练微调 EasyR1 多机多卡训练（2）

qwen2.5-vl-7b多机训练easyr1微调教程ray分布式训练配置+2

【训练】VLM GRPO训练微调using EasyR1 （1）

easyr1训练教程grpo微调方法多模态模型训练+2

GRPO配置参数文档

grpo配置参数深度学习模型训练vllm加速生成+2

【训练】InternVL2_8B VLM-R1GRPO微调

internvl2_8b 微调grpo 训练配置docker 环境搭建+2

【训练】VLM-R1GRPO微调，实战训练教程（2）

vlm-r1-grpo微调教程多图训练数据处理docker环境配置+2

【训练】VLM-R1GRPO微调，实战训练教程（1）

vlm-r1 grpo训练教程深度学习模型微调docker环境配置教程+2

Dong

个人博客|深度学习|编程开发|嵌入电子|自动控制|算法深耕|