
bash展开代码>> [2026-01-13 09:37:10] iteration 961/ 1637 | consumed samples: 123008 | elapsed time per iteration (ms): 52266.9 | memory(GiB): 43.51 | elapsed time: 13h 29m 14s | remaining time: 9h 29m 14s | learning rate: 4.583093E-06 | global batch size: 128 | lm loss: 7.373063E-05 | load_balancing_loss: 0.000000E+00 | loss scale: 1.0 | grad norm: 0.034 | number of skipped iterations: 0 | number of nan iterations: 0 |



本文作者:Dong
本文链接:
版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!