Pre-training under infinite compu
2025-09-19
DL论文
000

目录

1. 问题背景
2. 核心方法 & 发现
a) 正则化(Regularization)是关键
b) 集成学习(Ensembling)优于单一模型
c) 联合扩展配方(Joint Scaling Recipe)
d) 知识蒸馏(Distillation)压缩模型
3. 实际应用验证
a) 下游任务性能提升
b) 持续预训练(Continued Pre-training, CPT)
4. 关键结论
5. 未来方向
一句话总结

https://arxiv.org/pdf/2509.14786

这篇论文《无限算力下的预训练》(Pre-training under infinite compute)由斯坦福大学的研究者撰写,核心探讨了在高质量训练数据有限但计算资源无限的未来场景下,如何通过算法改进来极大提升语言模型预训练的数据效率。以下是全文的核心总结:


1. 问题背景

  • 算力增长(每年约4倍)远快于高质量网络文本数据的增长(每年约1.03倍)。
  • 传统方法在数据受限时(如固定200M tokens),单纯增加训练轮次(epoch)或模型参数(parameters)会导致过拟合,性能下降。

2. 核心方法 & 发现

a) 正则化(Regularization)是关键

  • 发现权重衰减(Weight Decay) 的最佳值比常规实践(如0.1)大30倍,能有效防止过拟合。
  • 优化后的正则化方法使损失随参数增加遵循幂律下降,可外推其渐近线(asymptote)以估计无限算力下的最佳性能。

b) 集成学习(Ensembling)优于单一模型

  • 训练多个独立模型并集成(平均输出),比单一大型模型达到更低的损失渐近线
  • 集成模型能更好地学习数据中的多种特征(“多视图”结构),避免单一模型的偏差。

c) 联合扩展配方(Joint Scaling Recipe)

  • 结合轮次调整、正则化、参数扩展和集成扩展,在200M tokens上达到最佳渐近线。
  • 相比基线方法,数据效率提升5.17倍(即用更少数据达到相同效果)。

d) 知识蒸馏(Distillation)压缩模型

  • 将集成模型蒸馏为单个小模型(如参数量减少8倍),仍保留83%的集成收益
  • 自蒸馏(Self-Distillation):用同一架构的教师模型训练学生模型,性能反而提升,无需增加参数量。

3. 实际应用验证

a) 下游任务性能提升

  • 在PIQA、SciQ、ARC等基准测试中,最佳集成模型比未正则化模型平均提升9%
  • 蒸馏模型在所有300M参数模型中表现最佳。

b) 持续预训练(Continued Pre-training, CPT)

  • 在数学数据(MegaMath-Web-Pro)上应用集成方法,仅用4B tokens就超越默认方法使用73B tokens的性能,数据效率提升17.5倍

4. 关键结论

  • 算法改进 >> 单纯堆数据:在算力充裕的未来,通过正则化、集成、蒸馏等简单算法改进,可显著提升数据效率。
  • 数据效率增益可迁移:在不同数据规模、模型大小和下游任务上均有效。
  • 无需巨大参数量:通过蒸馏可将集成优势压缩到小模型中,实用性强。

5. 未来方向

  • 呼吁重新审视经典数据受限下的深度学习技术(如动态评估、数据增强、模型平均等)。
  • 强调应通过渐近线评估扩展规律,而非固定计算预算下的性能,以更好地应对数据受限的未来。

一句话总结

在数据稀缺但算力无限的未来,通过正则化、集成学习和蒸馏等算法优化,可大幅提升预训练数据效率,实现“少数据、高性能”的目标,且这些增益可迁移到下游任务和持续训练中。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!