分析 tokenizer_config.json
文件的设计,以及如何添加特殊token。结合代码来详细讲解 tokenizer_config.json
的设计原理以及如何添加特殊token。
根据查看 Dockerfile 和 setup.py 文件,我可以为你解释 EXTRAS
参数的作用:
EXTRAS
参数的作用在 Docker 构建镜像时,EXTRAS
参数用于指定安装 LLaMA Factory 时需要包含的额外依赖项。它在 Dockerfile 的第 35 行被使用:
dockerfile展开代码RUN pip install --no-cache-dir -e ".[${EXTRAS}]" --no-build-isolation
这相当于执行:
bash展开代码pip install -e ".[metrics]"
最近用 LLaMA-Factory 训练大模型,数据都放在 AWS S3 上,发现其实不用自己写 boto3,直接用 S3 路径就能搞定。这里把我的踩坑和经验都写下来,帮你少走弯路。
LLaMA-Factory 支持直接从 S3 读取数据集,不用你自己写 boto3 脚本,也不用提前把数据下载到本地。你只要在配置里写上 S3 路径,比如 s3://my-bucket/data.jsonl
,剩下的都交给 LLaMA-Factory。
先执行git lfs install
是否可以,Ubuntu22 安装 git lfs 支持:
bash展开代码curl -s https://packagecloud.io/install/repositories/github/git-lfs/script.deb.sh | sudo bash sudo apt-get install git-lfs
比如我想clone这个数据集:https://huggingface.co/datasets/BAAI/SVIT
我应该huggingface登录后同意协议。
然后访问 https://huggingface.co/settings/tokens 创建 token 。
得到token hf_QtMqvBcwjKiYBQbHxCAbgazrSdCmPbf
我的用户名是 hugxd
那我在本地可以直接这样clone这个数据集仓库:
bash展开代码git clone https://hugxd:hf_QtMqvBcwjKiYBQbHxCAbgazrSdCmPbf@huggingface.co/datasets/BAAI/SVIT
Git恢复修改:快速回退到原始状态的简明指南
当你修改了 Git 仓库的代码,但想快速恢复到原始状态时,可以使用以下命令。
bash展开代码git status # 查看哪些文件被修改
名称 | 类型 | 主要用途 | 典型场景 |
---|---|---|---|
boto3 | Python SDK | 直接操作 S3/OSS 对象存储 | 代码里直接读写 s3:// 文件 |
JuiceFS | 文件系统/存储方案 | 把 S3/OSS 挂载成本地目录 | K8s/服务器挂载云存储 |
下载:
bash展开代码wget http://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/Miniconda3-latest-Linux-x86_64.sh
安装:
bash展开代码bash Miniconda3-latest-Linux-x86_64.sh
初始化:
bash展开代码/root/miniconda3/bin/conda init
重启终端即可。
下载:
https://repo.continuum.io/miniconda/Miniconda3-latest-Windows-x86_64.exe
安装填写路径:
bash展开代码D:\ProgramData\miniconda3
环境变量给入:
bash展开代码D:\ProgramData\miniconda3\condabin D:\ProgramData\miniconda3\Scripts
Python环境举例:
bash展开代码conda create -n py310 python=3.10 -y conda install scipy -y