LLamaFactory数据预处理的速度
2025-07-29
LLaMA-Factory
00

--preprocessing_num_workers 96

  • 多进程并行处理:用于数据预处理阶段的多进程并行化
  • 控制并发度:决定同时有多少个进程进行数据预处理
  • 96个进程同时处理数据
  • 每个进程处理一部分数据样本
  • 适用于CPU密集型的数据预处理任务(如tokenization、图片Resize处理)

--preprocessing_batch_size 20000

  • 批处理大小:每次处理多少个样本
  • 内存控制:控制每个进程处理的数据量
  • 每个进程一次处理20000个样本
  • 96个进程 × 20000样本 = 1,920,000个样本同时处理
  • 问题:对于多模态数据,20000太大,容易导致内存溢出

--dataloader_num_workers 96 (训练阶段的数据加载器)

  • 训练时的数据加载:用于训练过程中的数据加载并行化
  • PyTorch DataLoader:控制PyTorch DataLoader的worker数量
  • 96个进程并行加载训练数据
  • 每个进程负责从预处理好的数据集中加载batch
  • 适用于训练阶段的数据加载优化
如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!