binpacking
2026-02-05
ms-swift
00

https://arxiv.org/pdf/2404.10830

ms-swift 如果不想抛弃过长样本,可以设置:

  1. --truncation_strategy left:从左侧截断
  2. --truncation_strategy right:从右侧截断
  3. --truncation_strategy split:将超长样本切分成多个样本(仅支持预训练场景,且不兼容 cached_dataset)
如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!