`--preprocessing_num_workers 96`
- **多进程并行处理**：用于数据预处理阶段的多进程并行化
- **控制并发度**：决定同时有多少个进程进行数据预处理
- 96个进程同时处理数据
- 每个进程处理一部分数据样本
- 适用于CPU密集型的数据预处理任务（如tokenization、图片Resize处理）



 `--preprocessing_batch_size 20000`

- **批处理大小**：每次处理多少个样本
- **内存控制**：控制每个进程处理的数据量
- 每个进程一次处理20000个样本
- 96个进程 × 20000样本 = 1,920,000个样本同时处理
- **问题**：对于多模态数据，20000太大，容易导致内存溢出

`--dataloader_num_workers 96` （训练阶段的数据加载器）

- **训练时的数据加载**：用于训练过程中的数据加载并行化
- **PyTorch DataLoader**：控制PyTorch DataLoader的worker数量
- 96个进程并行加载训练数据
- 每个进程负责从预处理好的数据集中加载batch
- 适用于训练阶段的数据加载优化

LLamaFactory数据预处理的速度

首页

分类

时间线

友链

动态

工具

联系我

LLaMA-Factory  Streaming 模式

LLamaFactory的缓存