FP16 | Answer

混合精度训练：为什么用一半精度反而能训练更好的模型

训练大模型时，显存总是第一个瓶颈。以一个拥有70亿参数的LLaMA 7B模型为例，仅存储FP32权重就需要约28GB显存。再加上梯度、优化器状态和中间激活值，即使是一张A100 80GB显卡也可能捉襟见肘。 ...

2017年，NVIDIA和百度研究院联合发表了一篇题为《Mixed Precision Training》的论文，展示了如何用16位浮点数训练深度神经网络。论文中有一个不起眼的细节：训练某些网络时，需要将损失值放大8到32768倍，否则梯度会变成零。 ...