Press
esc
to close
请输入并搜索
Dong
Dong
首页
标签
分类
时间线
友链
动态
工具
联系我
Press
Ctrl
+
and
K
to search
深度学习
Linux运维
单片机
Python
CPP
Android/Java
Docker
OpenCV
Matlab
售卖作品
深度学习ban
单片机ban
DL论文
建站教程
树莓派
算法刷题
提示词工程
数学之美
工具使用
课程学习
见闻录
备忘录
隐藏机密
自动控制
摄影技巧
Git
LLaMA-Factory
ROS
GRPO
Vanblog
Distill
usefulScripts
首页
标签
分类
时间线
友链
动态
工具
联系我
GRPO
9 文章 × 89033 字
2025-09-26
优化GRPO——腾讯提出SPO
大语言模型策略优化
grpo局限性
single-stream policy optimization
+2
2025-08-26
【深度学习】EasyR1 GRPO 多机多卡训练 (3)
easyr1
qwen2.5vl 7b
多机多卡训练
+2
2025-05-13
【知识点】GRPO 训练原理
grpo算法原理
强化学习训练
群组相对优化
+4
2025-05-02
【训练】VLM Qwen2.GRPO训练微调 EasyR1 多机多卡训练(2)
qwen2.5-vl-7b多机训练
easyr1微调教程
ray分布式训练配置
+2
2025-05-02
【训练】VLM GRPO训练微调using EasyR1 (1)
easyr1训练教程
grpo微调方法
多模态模型训练
+2
2025-05-01
GRPO配置参数文档
grpo配置参数
深度学习模型训练
vllm加速生成
+2
2025-04-23
【训练】InternVL2_8B VLM-R1GRPO微调
internvl2_8b 微调
grpo 训练配置
docker 环境搭建
+2
2025-03-27
【训练】VLM-R1GRPO微调, 实战训练教程(2)
vlm-r1-grpo微调教程
多图训练数据处理
docker环境配置
+2
2025-03-03
【训练】VLM-R1GRPO微调, 实战训练教程(1)
vlm-r1 grpo训练教程
深度学习模型微调
docker环境配置教程
+2
Dong
个人博客|深度学习|编程开发|嵌入电子|自动控制|算法深耕|
2256
日志
32
分类
5205
标签