--preprocessing_num_workers 96
- 多进程并行处理:用于数据预处理阶段的多进程并行化
- 控制并发度:决定同时有多少个进程进行数据预处理
- 96个进程同时处理数据
- 每个进程处理一部分数据样本
- 适用于CPU密集型的数据预处理任务(如tokenization、图片Resize处理)
--preprocessing_batch_size 20000
- 批处理大小:每次处理多少个样本
- 内存控制:控制每个进程处理的数据量
- 每个进程一次处理20000个样本
- 96个进程 × 20000样本 = 1,920,000个样本同时处理
- 问题:对于多模态数据,20000太大,容易导致内存溢出
--dataloader_num_workers 96
(训练阶段的数据加载器)
- 训练时的数据加载:用于训练过程中的数据加载并行化
- PyTorch DataLoader:控制PyTorch DataLoader的worker数量
- 96个进程并行加载训练数据
- 每个进程负责从预处理好的数据集中加载batch
- 适用于训练阶段的数据加载优化
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。
许可协议。转载请注明出处!