Pre-training under infinite compu

esc

请输入并搜索

Pre-training under infinite compu

2025-09-19

00

高质量数据有限无限算力语言模型预训练算法改进数据效率提升

目录

https://arxiv.org/pdf/2509.14786

这篇论文《无限算力下的预训练》（Pre-training under infinite compute）由斯坦福大学的研究者撰写，核心探讨了在高质量训练数据有限但计算资源无限的未来场景下，如何通过算法改进来极大提升语言模型预训练的数据效率。以下是全文的核心总结：

1. 问题背景

算力增长（每年约4倍）远快于高质量网络文本数据的增长（每年约1.03倍）。
传统方法在数据受限时（如固定200M tokens），单纯增加训练轮次（epoch）或模型参数（parameters）会导致过拟合，性能下降。

2. 核心方法 & 发现

a) 正则化（Regularization）是关键

发现权重衰减（Weight Decay） 的最佳值比常规实践（如0.1）大30倍，能有效防止过拟合。
优化后的正则化方法使损失随参数增加遵循幂律下降，可外推其渐近线（asymptote）以估计无限算力下的最佳性能。

b) 集成学习（Ensembling）优于单一模型

训练多个独立模型并集成（平均输出），比单一大型模型达到更低的损失渐近线。
集成模型能更好地学习数据中的多种特征（“多视图”结构），避免单一模型的偏差。

c) 联合扩展配方（Joint Scaling Recipe）

结合轮次调整、正则化、参数扩展和集成扩展，在200M tokens上达到最佳渐近线。
相比基线方法，数据效率提升5.17倍（即用更少数据达到相同效果）。

d) 知识蒸馏（Distillation）压缩模型

将集成模型蒸馏为单个小模型（如参数量减少8倍），仍保留83%的集成收益。
自蒸馏（Self-Distillation）：用同一架构的教师模型训练学生模型，性能反而提升，无需增加参数量。

3. 实际应用验证

a) 下游任务性能提升

在PIQA、SciQ、ARC等基准测试中，最佳集成模型比未正则化模型平均提升9%。
蒸馏模型在所有300M参数模型中表现最佳。

b) 持续预训练（Continued Pre-training, CPT）

在数学数据（MegaMath-Web-Pro）上应用集成方法，仅用4B tokens就超越默认方法使用73B tokens的性能，数据效率提升17.5倍。

4. 关键结论

算法改进 >> 单纯堆数据：在算力充裕的未来，通过正则化、集成、蒸馏等简单算法改进，可显著提升数据效率。
数据效率增益可迁移：在不同数据规模、模型大小和下游任务上均有效。
无需巨大参数量：通过蒸馏可将集成优势压缩到小模型中，实用性强。

5. 未来方向

呼吁重新审视经典数据受限下的深度学习技术（如动态评估、数据增强、模型平均等）。
强调应通过渐近线评估扩展规律，而非固定计算预算下的性能，以更好地应对数据受限的未来。

一句话总结

在数据稀缺但算力无限的未来，通过正则化、集成学习和蒸馏等算法优化，可大幅提升预训练数据效率，实现“少数据、高性能”的目标，且这些增益可迁移到下游任务和持续训练中。

如果对你有用的话，可以打赏哦

打赏

ali pay

wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外，均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改，但必须注明出处并提供原作者链接。许可协议。转载请注明出处！

< Cursor 自动换行

Context engineering >

目录