https://huggingface.co/XiaomiMiMo/MiMo-V2-Flash
我们推出了 MiMo-V2-Flash 模型。这是一个混合专家(MoE)模型,总参数量 309B,实际运行参数量 15B,兼顾推理能力强、响应速度快,适合智能体任务。
模型采用了混合注意力结构,结合了滑动窗口注意力(SWA)和全局注意力,滑动窗口长度 128 token,混合比例为 5:1。我们通过多 token 预测(MTP)进行了 27 万亿 token 的预训练,上下文长度初始为 32K,后续扩展至 256K。
为了高效开展训练后优化,我们引入了创新的“多教师策略蒸馏”(MOPD)方法。这种方法让多个领域专家模型(例如通过大规模强化学习训练得到)提供密集的 token 级奖励信号,使学生模型能完整掌握教师模型的能力。
尽管总参数量分别仅为 DeepSeek-V3.2 和 Kimi-K2 的 1/2 和 1/3,MiMo-V2-Flash 的性能仍可媲美这些顶尖开源模型。在推理阶段,我们将 MTP 模块用作推测解码的草稿模型,配合三层 MTP 结构,实现了平均 3.6 的接受长度和 2.6 倍的解码加速。
我们将完整模型权重及三层 MTP 权重全部开源,以促进开放研究和社区协作。


本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!