2025-05-07
深度学习
00

基本推理

仓库:https://huggingface.co/google/siglip-so400m-patch14-384

下载仓库:

展开代码
./hfd.sh google/siglip-so400m-patch14-384 --local-dir ./google/siglip-so400m-patch14-384

懒得装环境,直接docker:

展开代码
docker run -it \ --gpus '"device=0"' \ -v ./google/siglip-so400m-patch14-384:/google/siglip-so400m-patch14-384 \ -p 8033:8033 \ --shm-size 32g \ kevinchina/deeplearning:llamafactory20250311-3 bash
2025-05-07
深度学习
00

【训练】Qwen2.5VL 多机多卡 Grounding Box定位(1):http://101.126.150.28:7878/post/2067

【训练】Qwen2.5VL 多机多卡 Grounding Box定位(2):http://101.126.150.28:7878/post/2094

之前的相关文章:

【深度学习】LLaMA-Factory微调sft Qwen2-VL进行印章识别

https://www.dong-blog.fun/post/1661

使用LLaMA-Factory微调sft Qwen2-VL-7B-Instruct

https://www.dong-blog.fun/post/1762

构建最新的LLaMA-Factory镜像

https://www.dong-blog.fun/post/1799

关于Grounding 如何不偏移的问题解决

看了一些帖子:

所以有一些关于 Qwen2.5VL Grounding 的结论:

  • 官方微调用的是这样的格式,所以在prompt中也无需特殊的格式/
json
展开代码
[ {"bbox_2d": [x1, y1, x2, y2], "label": "obj_name/description"}, {"bbox_2d": [x1, y1, x2, y2], "label": "obj_name/description"}, {"bbox_2d": [x1, y1, x2, y2], "label": "obj_name/description"}, ]
  • 官方还是这么做了,因为底层对28的切割性质,所以要这么做,不然真会偏一点: 在 Qwen2.5-VL 中,我们首先调整输入图像的大小,以确保其宽高为 28*n,然后使用调整后图像上的绝对坐标作为最终目标。

  • 使用 (左, 上), (右, 下) 坐标,不用归一化到0-1000.

  • 您好,根据您的描述,我怀疑问题出在 Qwen2-VL 和 Qwen2.5-VL 中 bbox 坐标的处理方式不同。具体来说,我们在 Qwen2.5-VL-7B 中现在使用的是绝对坐标,而不是 Qwen2-VL 中使用的相对坐标(后者被缩放到 [0,1000])。 例如,在 Qwen2-VL 中,640x640 图像中 [0, 0, 320, 320] 的边界框用 (0, 0), (500, 500) 表示。但在 Qwen2.5-VL 中,我们直接使用 [0, 0, 320, 320] 或 (0,0),(320,320)。此外,如果在图像增强过程中将图像尺寸调整为 1280x1280,则坐标现在应相应地扩展为 [0, 0, 640, 640]。

    由于 Qwen2.5-VL 使用绝对坐标进行训练,我建议在微调时也使用相同的绝对坐标系。如果您出于某种原因坚持使用相对坐标,可以延长训练时间,看看偏差问题是否会随着训练时间的延长而消失。

    供大家参考,详细坐标流程如下:

    调整图像大小,使高度和宽度为 28*n resized_w, resized_h = smart_resize(img_w, img_h) 相应地改变绝对坐标 new_bbox = bbox / np.array([img_w, img_h, img_w, img_h]) * np.array([resized_w, resized_h, resized_w, resized_h])) 如果使用绝对坐标后仍然观察到明显的 grounding 偏差,则另一个可能的问题在于图像的大小。如果图像非常大或非常小(例如,> 4k 4k 或 < 320 320),则模型很可能会输出有偏差的 bbox 结果。

  • 新版本的transformers才没有rope问题,安装: pip install git+https://github.com/huggingface/transformers

2025-05-07
工具使用
00

Python扩展包

在 VS Code 的扩展市场中,最核心的 Python 开发扩展是由 Microsoft 官方维护的 ms-python.python(名称直接叫 "Python")。以下是关键扩展的区分和推荐:

1. 必装的核心扩展 Python • 发布者: ms-python(Microsoft 官方)

• 功能:

• Python 语言基础支持(语法高亮、代码补全、调试等)。

• 集成 Python 解释器管理(切换虚拟环境、conda 等)。

• 提供 Jupyter Notebook 支持。

• 标识:扩展列表中直接显示为 "Python",且作者是 ms-python

2025-05-07
算法刷题
00

🚧 第一步:理解链表的结构

链表就像一列火车,每节车厢(节点)有两个部分:

  1. 值(val):比如存储的数字。
  2. 下一节的连接(next):指向下一节车厢的“钩子”(指针)。

在 Python 中,可以用类表示:

python
展开代码
class ListNode: def __init__(self, val=0, next=None): self.val = val # 值 self.next = next # 指向下一个节点的指针

例如,链表 1 -> 2 -> 3 就是三个节点,每个的“钩子”连向下一个。

2025-05-07
算法刷题
00

统计素数的常用方法详解

1. 什么是素数?

素数(质数) 是大于 1 的自然数,只能被 1 和它本身整除。

示例:

  • 素数:2, 3, 5, 7, 11, ...
  • 非素数:4, 6, 8, 9, ...

2025-05-06
Linux运维
00

在 VS Code 中连接虚拟机中的 Linux 终端,可以通过以下几种方法实现:

2025-05-03
自动控制
00

ADRC算法数学公式详解

{ESO:{e=z1yz˙1=z2β1ez˙2=z3β2e+b0uz˙3=β3eTD:{v˙1=v2v˙2=r0(v1v0)c0v2LSEF:{e1=z1v1e2=z2v2u0=k1e1k2e2u=u0z3b0\begin{cases} \text{ESO:} & \begin{cases} e = z_1 - y \\ \dot{z}_1 = z_2 - \beta_1 e \\ \dot{z}_2 = z_3 - \beta_2 e + b_0 u \\ \dot{z}_3 = -\beta_3 e \end{cases} \\ \text{TD:} & \begin{cases} \dot{v}_1 = v_2 \\ \dot{v}_2 = -r_0(v_1 - v_0) - c_0 v_2 \end{cases} \\ \text{LSEF:} & \begin{cases} e_1 = z_1 - v_1 \\ e_2 = z_2 - v_2 \\ u_0 = -k_1 e_1 - k_2 e_2 \\ u = \frac{u_0 - z_3}{b_0} \end{cases} \end{cases}

线性ADRC通常更容易调整参数,但在大扰动下可能性能不如非线性ADRC。

2025-05-02
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。

2025-05-02
深度学习
00

训练

项目地址:

https://github.com/hiyouga/EasyR1?tab=readme-ov-file#custom-dataset

拉取镜像:

展开代码
docker pull hiyouga/verl:ngc-th2.6.0-cu126-vllm0.8.4-flashinfer0.2.2-cxx11abi0

做一个镜像:

展开代码
FROM hiyouga/verl:ngc-th2.6.0-cu126-vllm0.8.4-flashinfer0.2.2-cxx11abi0 WORKDIR /workplace RUN git clone https://github.com/hiyouga/EasyR1.git WORKDIR /workplace/EasyR1 RUN pip install -e . -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple RUN pip install swanlab -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
2025-05-01
深度学习ban
00

该文章已加密,点击 阅读全文 并输入密码后方可查看。