数值稳定性 on Answer

数值稳定性 on Answer https://answer.freetools.me/tags/%E6%95%B0%E5%80%BC%E7%A8%B3%E5%AE%9A%E6%80%A7/ Recent content in 数值稳定性 on Answer Hugo -- 0.152.2 zh-cn Thu, 12 Mar 2026 18:53:52 +0800 Softmax的数值稳定性：为什么一行简单的代码能让训练崩溃 https://answer.freetools.me/softmax%E7%9A%84%E6%95%B0%E5%80%BC%E7%A8%B3%E5%AE%9A%E6%80%A7%E4%B8%BA%E4%BB%80%E4%B9%88%E4%B8%80%E8%A1%8C%E7%AE%80%E5%8D%95%E7%9A%84%E4%BB%A3%E7%A0%81%E8%83%BD%E8%AE%A9%E8%AE%AD%E7%BB%83%E5%B4%A9%E6%BA%83/ Thu, 12 Mar 2026 18:53:52 +0800 https://answer.freetools.me/softmax%E7%9A%84%E6%95%B0%E5%80%BC%E7%A8%B3%E5%AE%9A%E6%80%A7%E4%B8%BA%E4%BB%80%E4%B9%88%E4%B8%80%E8%A1%8C%E7%AE%80%E5%8D%95%E7%9A%84%E4%BB%A3%E7%A0%81%E8%83%BD%E8%AE%A9%E8%AE%AD%E7%BB%83%E5%B4%A9%E6%BA%83/ 从IEEE 754浮点数的物理限制，到溢出下溢的数学根源，再到Safe Softmax、Log-Sum-Exp和Flash Attention在线算法，深度解析深度学习中最被忽视的数值问题浮点数的深渊：深度学习数值稳定性的完整解析 https://answer.freetools.me/%E6%B5%AE%E7%82%B9%E6%95%B0%E7%9A%84%E6%B7%B1%E6%B8%8A%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%95%B0%E5%80%BC%E7%A8%B3%E5%AE%9A%E6%80%A7%E7%9A%84%E5%AE%8C%E6%95%B4%E8%A7%A3%E6%9E%90/ Thu, 12 Mar 2026 09:22:03 +0800 https://answer.freetools.me/%E6%B5%AE%E7%82%B9%E6%95%B0%E7%9A%84%E6%B7%B1%E6%B8%8A%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%95%B0%E5%80%BC%E7%A8%B3%E5%AE%9A%E6%80%A7%E7%9A%84%E5%AE%8C%E6%95%B4%E8%A7%A3%E6%9E%90/ 从IEEE 754浮点数标准到混合精度训练，从Softmax溢出到梯度消失，系统解析深度学习中数值稳定性问题的根源、表现与解决方案。涵盖FP16/BF16格式差异、Log-Sum-Exp技巧、损失缩放原理、Flash Attention数值优化等核心技术，以及PyTorch/TensorFlow中的最佳实践。为什么Transformer的注意力要除以√dₖ：从方差到梯度消失的完整数学解析 https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88transformer%E7%9A%84%E6%B3%A8%E6%84%8F%E5%8A%9B%E8%A6%81%E9%99%A4%E4%BB%A5d%E2%82%96%E4%BB%8E%E6%96%B9%E5%B7%AE%E5%88%B0%E6%A2%AF%E5%BA%A6%E6%B6%88%E5%A4%B1%E7%9A%84%E5%AE%8C%E6%95%B4%E6%95%B0%E5%AD%A6%E8%A7%A3%E6%9E%90/ Wed, 11 Mar 2026 19:16:29 +0800 https://answer.freetools.me/%E4%B8%BA%E4%BB%80%E4%B9%88transformer%E7%9A%84%E6%B3%A8%E6%84%8F%E5%8A%9B%E8%A6%81%E9%99%A4%E4%BB%A5d%E2%82%96%E4%BB%8E%E6%96%B9%E5%B7%AE%E5%88%B0%E6%A2%AF%E5%BA%A6%E6%B6%88%E5%A4%B1%E7%9A%84%E5%AE%8C%E6%95%B4%E6%95%B0%E5%AD%A6%E8%A7%A3%E6%9E%90/ 深入解析Transformer缩放点积注意力中√dₖ缩放因子的数学原理：从点积方差随维度增长、Softmax饱和导致的梯度消失，到与Xavier初始化的深层联系。涵盖完整数学推导、数值示例、与加性注意力的对比分析。 Softmax的数值稳定性问题：从溢出下溢到Log-Sum-Exp技巧的完整解析 https://answer.freetools.me/softmax%E7%9A%84%E6%95%B0%E5%80%BC%E7%A8%B3%E5%AE%9A%E6%80%A7%E9%97%AE%E9%A2%98%E4%BB%8E%E6%BA%A2%E5%87%BA%E4%B8%8B%E6%BA%A2%E5%88%B0log-sum-exp%E6%8A%80%E5%B7%A7%E7%9A%84%E5%AE%8C%E6%95%B4%E8%A7%A3%E6%9E%90/ Wed, 11 Mar 2026 18:33:11 +0800 https://answer.freetools.me/softmax%E7%9A%84%E6%95%B0%E5%80%BC%E7%A8%B3%E5%AE%9A%E6%80%A7%E9%97%AE%E9%A2%98%E4%BB%8E%E6%BA%A2%E5%87%BA%E4%B8%8B%E6%BA%A2%E5%88%B0log-sum-exp%E6%8A%80%E5%B7%A7%E7%9A%84%E5%AE%8C%E6%95%B4%E8%A7%A3%E6%9E%90/ 深入解析Softmax函数的数值稳定性问题，从IEEE 754浮点数表示的物理限制，到Log-Sum-Exp技巧的数学原理，再到混合精度训练中的Loss Scaling策略。涵盖Transformer注意力机制、Flash Attention在线Softmax算法，以及大模型训练中的数值问题诊断与解决方案。量化训练为何能用8位精度完成模型学习从数值稳定性到误差补偿的数学原理 https://answer.freetools.me/%E9%87%8F%E5%8C%96%E8%AE%AD%E7%BB%83%E4%B8%BA%E4%BD%95%E8%83%BD%E7%94%A88%E4%BD%8D%E7%B2%BE%E5%BA%A6%E5%AE%8C%E6%88%90%E6%A8%A1%E5%9E%8B%E5%AD%A6%E4%B9%A0%E4%BB%8E%E6%95%B0%E5%80%BC%E7%A8%B3%E5%AE%9A%E6%80%A7%E5%88%B0%E8%AF%AF%E5%B7%AE%E8%A1%A5%E5%81%BF%E7%9A%84%E6%95%B0%E5%AD%A6%E5%8E%9F%E7%90%86/ Mon, 09 Mar 2026 04:59:59 +0800 https://answer.freetools.me/%E9%87%8F%E5%8C%96%E8%AE%AD%E7%BB%83%E4%B8%BA%E4%BD%95%E8%83%BD%E7%94%A88%E4%BD%8D%E7%B2%BE%E5%BA%A6%E5%AE%8C%E6%88%90%E6%A8%A1%E5%9E%8B%E5%AD%A6%E4%B9%A0%E4%BB%8E%E6%95%B0%E5%80%BC%E7%A8%B3%E5%AE%9A%E6%80%A7%E5%88%B0%E8%AF%AF%E5%B7%AE%E8%A1%A5%E5%81%BF%E7%9A%84%E6%95%B0%E5%AD%A6%E5%8E%9F%E7%90%86/ 深入解析神经网络量化训练的数学原理：为何低精度训练能保持模型性能？从量化误差分析到FP8格式设计，从直通估计器到信息论最优的NF4，揭示深度学习对数值精度的真实需求。 BF16为何正在取代FP16成为大模型训练的标准格式从动态范围陷阱到损失缩放的技术突围 https://answer.freetools.me/bf16%E4%B8%BA%E4%BD%95%E6%AD%A3%E5%9C%A8%E5%8F%96%E4%BB%A3fp16%E6%88%90%E4%B8%BA%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%AE%AD%E7%BB%83%E7%9A%84%E6%A0%87%E5%87%86%E6%A0%BC%E5%BC%8F%E4%BB%8E%E5%8A%A8%E6%80%81%E8%8C%83%E5%9B%B4%E9%99%B7%E9%98%B1%E5%88%B0%E6%8D%9F%E5%A4%B1%E7%BC%A9%E6%94%BE%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ Mon, 09 Mar 2026 04:43:59 +0800 https://answer.freetools.me/bf16%E4%B8%BA%E4%BD%95%E6%AD%A3%E5%9C%A8%E5%8F%96%E4%BB%A3fp16%E6%88%90%E4%B8%BA%E5%A4%A7%E6%A8%A1%E5%9E%8B%E8%AE%AD%E7%BB%83%E7%9A%84%E6%A0%87%E5%87%86%E6%A0%BC%E5%BC%8F%E4%BB%8E%E5%8A%A8%E6%80%81%E8%8C%83%E5%9B%B4%E9%99%B7%E9%98%B1%E5%88%B0%E6%8D%9F%E5%A4%B1%E7%BC%A9%E6%94%BE%E7%9A%84%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ 深入解析混合精度训练中BF16与FP16的本质差异。从IEEE 754浮点数标准出发，系统阐述FP16的动态范围局限、梯度下溢问题、损失缩放机制的数学原理，以及BF16为何能成为大模型训练的"免调参"解决方案。涵盖NVIDIA Tensor Core硬件加速、Google Brain BF16论文核心发现、PyTorch AMP实现细节，以及从FP16到BF16的工程实践指南。