Pre-training under infinite compu
目录
1. 问题背景
2. 核心方法 & 发现
a) 正则化(Regularization)是关键
b) 集成学习(Ensembling)优于单一模型
c) 联合扩展配方(Joint Scaling Recipe)
d) 知识蒸馏(Distillation)压缩模型
3. 实际应用验证
a) 下游任务性能提升
b) 持续预训练(Continued Pre-training, CPT)
4. 关键结论
5. 未来方向
一句话总结
https://arxiv.org/pdf/2509.14786
这篇论文《无限算力下的预训练》(Pre-training under infinite compute)由斯坦福大学的研究者撰写,核心探讨了在高质量训练数据有限但计算资源无限的未来场景下,如何通过算法改进来极大提升语言模型预训练的数据效率。以下是全文的核心总结:
1. 问题背景
- 算力增长(每年约4倍)远快于高质量网络文本数据的增长(每年约1.03倍)。
- 传统方法在数据受限时(如固定200M tokens),单纯增加训练轮次(epoch)或模型参数(parameters)会导致过拟合,性能下降。
2. 核心方法 & 发现
a) 正则化(Regularization)是关键
- 发现权重衰减(Weight Decay) 的最佳值比常规实践(如0.1)大30倍,能有效防止过拟合。
- 优化后的正则化方法使损失随参数增加遵循幂律下降,可外推其渐近线(asymptote)以估计无限算力下的最佳性能。
b) 集成学习(Ensembling)优于单一模型
- 训练多个独立模型并集成(平均输出),比单一大型模型达到更低的损失渐近线。
- 集成模型能更好地学习数据中的多种特征(“多视图”结构),避免单一模型的偏差。
c) 联合扩展配方(Joint Scaling Recipe)
- 结合轮次调整、正则化、参数扩展和集成扩展,在200M tokens上达到最佳渐近线。
- 相比基线方法,数据效率提升5.17倍(即用更少数据达到相同效果)。
d) 知识蒸馏(Distillation)压缩模型
- 将集成模型蒸馏为单个小模型(如参数量减少8倍),仍保留83%的集成收益。
- 自蒸馏(Self-Distillation):用同一架构的教师模型训练学生模型,性能反而提升,无需增加参数量。
3. 实际应用验证
a) 下游任务性能提升
- 在PIQA、SciQ、ARC等基准测试中,最佳集成模型比未正则化模型平均提升9%。
- 蒸馏模型在所有300M参数模型中表现最佳。
b) 持续预训练(Continued Pre-training, CPT)
- 在数学数据(MegaMath-Web-Pro)上应用集成方法,仅用4B tokens就超越默认方法使用73B tokens的性能,数据效率提升17.5倍。
4. 关键结论
- 算法改进 >> 单纯堆数据:在算力充裕的未来,通过正则化、集成、蒸馏等简单算法改进,可显著提升数据效率。
- 数据效率增益可迁移:在不同数据规模、模型大小和下游任务上均有效。
- 无需巨大参数量:通过蒸馏可将集成优势压缩到小模型中,实用性强。
5. 未来方向
- 呼吁重新审视经典数据受限下的深度学习技术(如动态评估、数据增强、模型平均等)。
- 强调应通过渐近线评估扩展规律,而非固定计算预算下的性能,以更好地应对数据受限的未来。
一句话总结
在数据稀缺但算力无限的未来,通过正则化、集成学习和蒸馏等算法优化,可大幅提升预训练数据效率,实现“少数据、高性能”的目标,且这些增益可迁移到下游任务和持续训练中。
本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。
许可协议。转载请注明出处!