MS-SWIFT megatron pack 预导出使用

功能总结

作用：将预处理后的数据集保存为缓存格式，避免训练时重复 tokenize。

工作流程：


展开代码
原始数据集 → 预处理/Tokenize → 保存为缓存格式

详细逻辑：

路径识别
- 识别 S3/OSS 路径（s3://, oss://, s3:/, oss:/）
- 规范化路径格式（统一为 s3:// 或 oss://）
保存策略
- 本地路径：直接保存到 {output_dir}/train 和 {output_dir}/val
- S3/OSS 路径：
  - 在本地临时目录保存
  - 使用 megfile 递归复制到 S3/OSS
  - 复制完成后清理临时目录

目录结构


展开代码
{output_dir}/
├── train/          # 训练集缓存
└── val/            # 验证集缓存（可选）

作用：从缓存格式加载数据集，用于训练/推理。

工作流程：


展开代码
缓存路径 → 识别路径类型 → 构建加载路径 → 加载数据集

详细逻辑：

导出：

bash
展开代码
swift export --to_cached_dataset true \
    --output_dir s3://bucket/my_dataset \
    --dataset my_dataset

加载：

yaml
展开代码
cached_dataset:
  - s3://bucket/my_dataset  # 自动加载 train/ 子目录
cached_val_dataset:
  - s3://bucket/my_dataset  # 自动加载 val/ 子目录

或使用采样：

yaml
展开代码
cached_dataset:
  - s3://bucket/my_dataset#10000  # 只加载10000条样本

这两个实现配合使用，实现了数据集的预处理缓存和高效加载。