Post-Norm on Answer

Post-Norm on Answer https://answer.freetools.me/tags/post-norm/ Recent content in Post-Norm on Answer Hugo -- 0.152.2 zh-cn Wed, 11 Mar 2026 12:51:06 +0800 残差连接：为什么 Transformer 能堆叠到百层而不梯度消失？ https://answer.freetools.me/%E6%AE%8B%E5%B7%AE%E8%BF%9E%E6%8E%A5%E4%B8%BA%E4%BB%80%E4%B9%88-transformer-%E8%83%BD%E5%A0%86%E5%8F%A0%E5%88%B0%E7%99%BE%E5%B1%82%E8%80%8C%E4%B8%8D%E6%A2%AF%E5%BA%A6%E6%B6%88%E5%A4%B1/ Wed, 11 Mar 2026 12:51:06 +0800 https://answer.freetools.me/%E6%AE%8B%E5%B7%AE%E8%BF%9E%E6%8E%A5%E4%B8%BA%E4%BB%80%E4%B9%88-transformer-%E8%83%BD%E5%A0%86%E5%8F%A0%E5%88%B0%E7%99%BE%E5%B1%82%E8%80%8C%E4%B8%8D%E6%A2%AF%E5%BA%A6%E6%B6%88%E5%A4%B1/ 深入解析Transformer中残差连接的设计原理：从梯度消失问题到恒等映射的数学本质，从Pre-Norm与Post-Norm的权衡到DeepNet实现1000层训练，揭示这个让现代大模型成为可能的核心架构组件。