【训练】Qwen2.5VL 多机多卡 Grounding Box定位(1):http://101.126.150.28:7878/post/2067
【训练】Qwen2.5VL 多机多卡 Grounding Box定位(2):http://101.126.150.28:7878/post/2094
类似这样:
json展开代码  {
    "messages": [
      {
        "content": "<image>点[56,259]所处位置(也即是图中绿色五角星中心所处位置)的信息是什么?需要优先匹配最近UI元素的box。",
        "role": "user"
      },
      {
        "content": "<ref>文本-地址</ref><box>[[33, 241, 66, 264]]</box>",
        "role": "assistant"
      }
    ],
    "images": [
      "/img_datasets/img_small_size_28_prompt/000001.jpg"
    ]
  }
bash展开代码cd LLaMA-Factory
docker run -it --gpus  '"device=0,2,3,4,5,6,7"' \
    -v /data/xiedong/train_qwenvl25_for_grounding/imgqwen28_34000sample:/app/data \
    -v ./output:/app/output \
    -v ./examples:/app/examples \
    -v /data/xiedong/qwenvl_train_ui_ground_datasets:/img_datasets \
    -v /data/xiedong/LLaMA-Factory/output/train2-28488:/Qwen2.5-VL-7B-Instruct \
    --shm-size 32G \
    -p 8034:7860 \
    -p 8035:8000 \
    kevinchina/deeplearning:llamafactory20250311-3-swanlab bash
数据这么写的:
bash展开代码mkdir /data/xiedong/train_qwenvl25_for_grounding/imgqwen28_34000sample
cat dataset_info.json
{
    "grounding1": {
      "file_name": "data.json",
      "formatting": "sharegpt",
      "columns": {
        "messages": "messages",
        "images": "images"
      },
      "tags": {
        "role_tag": "role",
        "content_tag": "content",
        "user_tag": "user",
        "assistant_tag": "assistant"
      }
    }
}
head -n 16 data.json
[
  {
    "messages": [
      {
        "content": "<image>点[33,95]所处位置(也即是图中绿色五角星中心所处位置)的信息是什么?需要优先匹配最近UI元素的box。",
        "role": "user"
      },
      {
        "content": "<ref>按钮-返回</ref><box>[[18, 63, 59, 106]]</box>",
        "role": "assistant"
      }
    ],
    "images": [
      "/img_datasets/img_qwen_28/goole ditu-20240919162825_1.jpg"
    ]
  },
bash展开代码export SWANLAB_API_KEY=pM7Xvs5OS2EeXPO5gKXfJ   # 设置在线跟踪模式API,这里我随便填的
export SWANLAB_LOG_DIR=/swanlab_log    # 设置本地日志存储路径
export SWANLAB_MODE=cloud     # 包含四种模式:cloud云端跟踪模式(默认)、cloud-only仅云端跟踪本地不保存文件、local本地跟踪模式、disabled完全不记录用于debug
export SWANLAB_NAME="sample34w"  # 设置实验名称
llamafactory-cli train \
    --stage sft \
    --do_train True \
    --model_name_or_path  /Qwen2.5-VL-7B-Instruct  \
    --preprocessing_num_workers 64 \
    --finetuning_type full \
    --template qwen2_vl \
    --flash_attn auto \
    --dataset_dir data \
    --dataset grounding1 \
    --cutoff_len 4096 \
    --learning_rate 5e-05 \
    --num_train_epochs 2.0 \
    --per_device_train_batch_size 2 \
    --gradient_accumulation_steps 4 \
    --lr_scheduler_type cosine \
    --max_grad_norm 1.0 \
    --logging_steps 5 \
    --save_steps 1000 \
    --warmup_steps 0 \
    --packing False \
    --report_to none \
    --output_dir output/train2_prompt \
    --bf16 True \
    --plot_loss True \
    --trust_remote_code True \
    --ddp_timeout 180000000 \
    --include_num_input_tokens_seen True \
    --optim adamw_torch \
    --deepspeed cache/ds_z2_config.json \
    --use_swanlab True \
    --swanlab_project llamafactory \
    --swanlab_mode cloud \
    --save_total_limit=1 \
    --load_best_model_at_end=False \
    --metric_for_best_model="eval_loss" \
    --greater_is_better=False \
    --freeze_vision_tower False \
    --image_max_pixels 1048576
展开代码llamafactory-cli export \ --model_name_or_path /app/output/new_no_freeze/checkpoint-56982 \ --template qwen2_vl \ --finetuning_type full \ --export_dir output/56982 \ --export_size 5 \ --export_device cpu \ --export_legacy_format false


本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!