参数对比：cache_dir vs tokenized_path

定义与用途

cache_dir - 原始数据/模型下载缓存

定义位置：model_args.py:56

python
展开代码
cache_dir: str | None = field(
    metadata={"help": "Where to store the pre-trained models downloaded from huggingface.co or modelscope.cn."},
)

核心用途：

存储从 HuggingFace/ModelScope/OpenMind 下载的原始模型和数据集
这是 datasets.load_dataset() 的标准缓存目录
存储的是未处理的原始数据（JSON/Parquet 格式）

使用位置：data/loader.py:200,225 等处传给 load_dataset(cache_dir=...)

tokenized_path - 已处理数据集缓存

定义位置：data_args.py:126

python
展开代码
tokenized_path: str | None = field(
    metadata={"help": (
        "Path to save or load the tokenized datasets. "
        "If tokenized_path not exists, it will save the tokenized datasets. "
        "If tokenized_path exists, it will load the tokenized datasets."
    )},
)

核心用途：

保存/加载已经 tokenized 处理完成的数据集
如果路径不存在：处理完数据后保存到该路径
如果路径已存在：直接加载，跳过所有数据处理步骤

核心逻辑（loader.py:390-399）：

python
展开代码
if data_args.tokenized_path is not None:
    if has_tokenized_data(data_args.tokenized_path):
        logger.warning_rank0("Loading dataset from disk will ignore other data arguments.")
        tokenized_data = load_from_disk(data_args.tokenized_path)
        # 直接返回，跳过所有处理
        return dataset_module

tokenized_path 是 LlamaFactory 自己的 tokenized 数据缓存，overwrite_cache 不会影响它。

所以你不想用缓存，要么直接删除，要么改一下路径。

使用场景对比

场景	cache_dir	tokenized_path
加速目标	避免重复下载	避免重复 tokenize
存储内容	原始 JSON/Parquet	tokenized tensors
节省时间	下载时间	数据预处理时间
适用情况	远程数据集	大数据集/多次训练

配置分析

当前配置：

yaml
展开代码
cache_dir: /mnt/jfs6/g-xiedong/mmdu/cache_dir     # 下载原始数据的缓存
# tokenized_path: /data/xiedong/mmdu/tokenized_cache  # 已注释掉
overwrite_cache: true  # 强制重新处理

当前行为：

cache_dir 用于缓存从远程下载的原始数据
注释掉 tokenized_path + overwrite_cache: true = 每次都重新 tokenize

最佳实践

对于大型多模态数据集如 MMDU，建议：

首次运行设置 tokenized_path 保存处理结果
后续训练直接加载，节省大量预处理时间
需要更新数据时，删除或更换 tokenized_path 路径

目录

参数对比：cache_dir vs tokenized_path

定义与用途

cache_dir - 原始数据/模型下载缓存

tokenized_path - 已处理数据集缓存

使用场景对比

配置分析

推荐用法

场景1：首次运行，生成 tokenized 缓存

场景2：后续运行，直接加载

场景3：强制重新处理（调试用）

最佳实践