混合精度 | Answer

2023年10月，一篇名为 FP8-LM 的论文在 arXiv 上发布，研究团队用8位浮点数完成了 GPT-175B 的训练——内存占用减少39%，训练速度提升75%。这并非孤例，QLoRA 更是将模型压缩到4位，却依然保持着与16位训练相当的微调效果。这些数字背后的数学原理，揭示了深度学习一个反直觉的特性：神经网络对数值精度的要求，远比我们想象的要低。 ...