您的位置: 首页 > 新闻动态 > 金年会

金年会- 金年会体育- 官方网站FP8训练新范式:减少40%显存占用训练速度提高14倍

发布日期:2025-03-09 10:21:07 浏览次数:

  金年会- 金年会体育- 金年会官方网站

金年会- 金年会体育- 金年会官方网站FP8训练新范式:减少40%显存占用训练速度提高14倍

  近期,来自伯克利,英伟达,MIT 和清华的研究者们提出了显存高效的 FP8 训练方法:COAT(CompressingOptimizer states andActivation for Memory-Efficient FP8Training),致力于通过FP8 量化来压缩优化器状态和激活值,从而提高内存利用率和训练速度。COAT 实现了端到端内存占用减少 1.54 倍,端到端训练速度提高 1.43 倍,同时保持模型精度。它还可以使训练批次大小加倍,从而更好地利用 GPU 资源。通过利用 FP8 精度,COAT 使大型模型的高效全参数训练在更少的 GPU上成为可能,并有助于在分布式训练环境中加倍批次大小,为大规模模型训练的扩展提供了实用的解决方案。最重要的是,他们的训练代码完全开源。

  论文作者发现,当前的量化方法无法充分利用 FP8 的表示范围,因此在使用每组量化(per-group quantization)对优化器状态进行量化时会导致较大的量化误差。对于 FP8 的 E4M3 格式,我们希望量化组 X 的动态范围覆盖 E4M3 的最小可表示值(0.00195)和最大可表示值(448)之间的整个跨度,以充分利用其表示能力。然而,E4M3 的动态范围通常未被充分利用:E4M3 的动态范围约为 200000,但一阶动量的每个量化组的最大值最小值之比通常为 1000,二阶动量的该比值则通常为 10,远小于 E4M3 的动态范围。这使得用 FP8 来量化优化器状态的误差非常大。