【训练】Qwen2.5VL 多机多卡 Grounding Box定位（2）

【训练】Qwen2.5VL 多机多卡 Grounding Box定位（1）：http://101.126.150.28:7878/post/2067

【训练】Qwen2.5VL 多机多卡 Grounding Box定位（2）：http://101.126.150.28:7878/post/2094

1. 本次更改了数据集

类似这样：

json
展开代码
  {
    "messages": [
      {
        "content": "<image>点[56,259]所处位置（也即是图中绿色五角星中心所处位置）的信息是什么？需要优先匹配最近UI元素的box。",
        "role": "user"
      },
      {
        "content": "<ref>文本-地址</ref><box>[[33, 241, 66, 264]]</box>",
        "role": "assistant"
      }
    ],
    "images": [
      "/img_datasets/img_small_size_28_prompt/000001.jpg"
    ]
  }

2. 启动训练

bash
展开代码
cd LLaMA-Factory

docker run -it --gpus  '"device=0,2,3,4,5,6,7"' \
    -v /data/xiedong/train_qwenvl25_for_grounding/imgqwen28_34000sample:/app/data \
    -v ./output:/app/output \
    -v ./examples:/app/examples \
    -v /data/xiedong/qwenvl_train_ui_ground_datasets:/img_datasets \
    -v /data/xiedong/LLaMA-Factory/output/train2-28488:/Qwen2.5-VL-7B-Instruct \
    --shm-size 32G \
    -p 8034:7860 \
    -p 8035:8000 \
    kevinchina/deeplearning:llamafactory20250311-3-swanlab bash

数据这么写的：

bash
展开代码
mkdir /data/xiedong/train_qwenvl25_for_grounding/imgqwen28_34000sample
cat dataset_info.json

{
    "grounding1": {
      "file_name": "data.json",
      "formatting": "sharegpt",
      "columns": {
        "messages": "messages",
        "images": "images"
      },
      "tags": {
        "role_tag": "role",
        "content_tag": "content",
        "user_tag": "user",
        "assistant_tag": "assistant"
      }
    }
}

head -n 16 data.json

[
  {
    "messages": [
      {
        "content": "<image>点[33,95]所处位置（也即是图中绿色五角星中心所处位置）的信息是什么？需要优先匹配最近UI元素的box。",
        "role": "user"
      },
      {
        "content": "<ref>按钮-返回</ref><box>[[18, 63, 59, 106]]</box>",
        "role": "assistant"
      }
    ],
    "images": [
      "/img_datasets/img_qwen_28/goole ditu-20240919162825_1.jpg"
    ]
  },

bash
展开代码
export SWANLAB_API_KEY=pM7Xvs5OS2EeXPO5gKXfJ   # 设置在线跟踪模式API，这里我随便填的
export SWANLAB_LOG_DIR=/swanlab_log    # 设置本地日志存储路径
export SWANLAB_MODE=cloud     # 包含四种模式：cloud云端跟踪模式（默认）、cloud-only仅云端跟踪本地不保存文件、local本地跟踪模式、disabled完全不记录用于debug
export SWANLAB_NAME="sample34w"  # 设置实验名称

llamafactory-cli train \
    --stage sft \
    --do_train True \
    --model_name_or_path  /Qwen2.5-VL-7B-Instruct  \
    --preprocessing_num_workers 64 \
    --finetuning_type full \
    --template qwen2_vl \
    --flash_attn auto \
    --dataset_dir data \
    --dataset grounding1 \
    --cutoff_len 4096 \
    --learning_rate 5e-05 \
    --num_train_epochs 2.0 \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --max_grad_norm 1.0 \
    --logging_steps 5 \
    --save_steps 1000 \
    --warmup_steps 0 \
    --packing False \
    --report_to none \
    --output_dir output/train2_prompt \
    --bf16 True \
    --plot_loss True \
    --trust_remote_code True \
    --ddp_timeout 180000000 \
    --include_num_input_tokens_seen True \
    --optim adamw_torch \
    --deepspeed cache/ds_z2_config.json \
    --use_swanlab True \
    --swanlab_project llamafactory \
    --swanlab_mode cloud \
    --save_total_limit=1 \
    --load_best_model_at_end=False \
    --metric_for_best_model="eval_loss" \
    --greater_is_better=False \
    --freeze_vision_tower False \
    --image_max_pixels 1048576

3. 导出


展开代码
llamafactory-cli export \
    --model_name_or_path /app/output/new_no_freeze/checkpoint-56982 \
    --template qwen2_vl \
    --finetuning_type full \
    --export_dir output/56982 \
    --export_size 5 \
    --export_device cpu \
    --export_legacy_format false

目录

1. 本次更改了数据集

2. 启动训练

3. 导出