2025-05-15
单片机ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2025-05-15
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2025-05-15
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2025-05-14
算法刷题
00
  1. 两数相加

https://leetcode.cn/problems/add-two-numbers

给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。

请你将两个数相加,并以相同形式返回一个表示和的链表。

你可以假设除了数字 0 之外,这两个数都不会以 0 开头。

输入:l1 = [2,4,3], l2 = [5,6,4]

输出:[7,0,8]

解释:342 + 465 = 807.

python
展开代码
# Definition for singly-linked list. # class ListNode: # def __init__(self, val=0, next=None): # self.val = val # self.next = next class Solution: def addTwoNumbers( self, l1: Optional[ListNode], l2: Optional[ListNode] ) -> Optional[ListNode]: dammy = ListNode() # 虚拟节点,最终返回这个节点的下一个节点 … head.next = ListNode( v_dig ) # 第一轮 比如7+6=13,那么这里就是3。第二轮,2+5+1=8,链表会是 dammy>>3>>8,从个位开始的 head = head.next if l1: l1 = l1.next if l2: l2 = l2.next return dammy.next
2025-05-13
深度学习
00

【训练】Qwen2.5VL 多机多卡 Grounding Box定位(1):http://101.126.150.28:7878/post/2067

【训练】Qwen2.5VL 多机多卡 Grounding Box定位(2):http://101.126.150.28:7878/post/2094

1. 本次更改了数据集

类似这样:

json
展开代码
{ "messages": [ { "content": "<image>点[56,259]所处位置(也即是图中绿色五角星中心所处位置)的信息是什么?需要优先匹配最近UI元素的box。", "role": "user" }, { "content": "<ref>文本-地址</ref><box>[[33, 241, 66, 264]]</box>", "role": "assistant" } ], "images": [ "/img_datasets/img_small_size_28_prompt/000001.jpg" ] }
2025-05-13
深度学习
00

Transformer中计算最复杂的模块

自注意力机制(Self-Attention) 是Transformer中最耗时的部分。


时间复杂度与哪些因素有关?

  • 序列长度 n
  • 隐藏层维度 d
2025-05-13
深度学习
00

解决训练模型时的内存不足问题

在没有额外显卡的情况下,当你遇到训练模型时出现"out of memory"错误,可以尝试以下几种解决方案:

2025-05-13
深度学习
00

训练模型时遇到loss为NaN的现象及解决方法

在深度学习模型训练过程中,遇到loss变成NaN(Not a Number)是一个常见的问题。这种情况通常表明训练过程中出现了数值不稳定性,需要及时处理以避免模型训练失败。以下是这种现象的原因分析和解决方法。

2025-05-13
深度学习
00

一篇很好的解读: https://zhuanlan.zhihu.com/p/20844750193

GRPO:基于群组相对优化的强化学习算法

1. GRPO概述

GRPO (Group Relative Policy Optimization) 是一种用于大型语言模型(LLM)和视觉语言模型(VLM)训练的强化学习算法。它是一种相对优势计算方法,通过对同一输入生成多个输出回答,然后计算相对优势进行优化。

相比于传统的PPO等算法,GRPO的主要特点是:

  • 不需要价值网络(Value Network),简化了训练过程
  • 通过相对评估减少了回报的高方差问题
  • 特别适合处理离散奖励信号,如问答场景中的正确/错误奖励
  • 对同样的问题采样多次,通过组内相对比较学习更好的策略
2025-05-12
深度学习
00

PPO和DPO强化学习方法比较

PPO (Proximal Policy Optimization)

PPO是一种传统的强化学习方法,在RLHF (Reinforcement Learning from Human Feedback)中应用广泛:

  1. 基本组成

    • 策略模型(Actor):生成文本响应
    • 奖励模型(Reward Model):评估响应质量
    • 参考模型(Reference Model):限制与初始模型的偏离
  2. 训练流程

    • 策略模型生成回答
    • 奖励模型对生成的回答打分
    • 通过奖励信号更新策略模型
    • 使用KL惩罚项防止过度偏离参考模型