深度学习基础 on Answer

深度学习基础 on Answer https://answer.freetools.me/tags/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E5%9F%BA%E7%A1%80/ Recent content in 深度学习基础 on Answer Hugo -- 0.152.2 zh-cn Thu, 12 Mar 2026 23:08:50 +0800 RNN为什么无法记住超过二十步的信息：从梯度消失到现代序列模型的四十年技术突围 https://answer.freetools.me/rnn%E4%B8%BA%E4%BB%80%E4%B9%88%E6%97%A0%E6%B3%95%E8%AE%B0%E4%BD%8F%E8%B6%85%E8%BF%87%E4%BA%8C%E5%8D%81%E6%AD%A5%E7%9A%84%E4%BF%A1%E6%81%AF%E4%BB%8E%E6%A2%AF%E5%BA%A6%E6%B6%88%E5%A4%B1%E5%88%B0%E7%8E%B0%E4%BB%A3%E5%BA%8F%E5%88%97%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%9B%9B%E5%8D%81%E5%B9%B4%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ Thu, 12 Mar 2026 23:08:50 +0800 https://answer.freetools.me/rnn%E4%B8%BA%E4%BB%80%E4%B9%88%E6%97%A0%E6%B3%95%E8%AE%B0%E4%BD%8F%E8%B6%85%E8%BF%87%E4%BA%8C%E5%8D%81%E6%AD%A5%E7%9A%84%E4%BF%A1%E6%81%AF%E4%BB%8E%E6%A2%AF%E5%BA%A6%E6%B6%88%E5%A4%B1%E5%88%B0%E7%8E%B0%E4%BB%A3%E5%BA%8F%E5%88%97%E6%A8%A1%E5%9E%8B%E7%9A%84%E5%9B%9B%E5%8D%81%E5%B9%B4%E6%8A%80%E6%9C%AF%E7%AA%81%E5%9B%B4/ 深入解析循环神经网络梯度消失问题的数学本质，从Hochreiter 1991年的开创性发现到LSTM的常数误差转盘机制，揭示为什么这个困扰深度学习三十年的问题催生了从门控循环单元到Transformer的完整技术演进。万能逼近定理：为什么两层神经网络能逼近任意函数 https://answer.freetools.me/%E4%B8%87%E8%83%BD%E9%80%BC%E8%BF%91%E5%AE%9A%E7%90%86%E4%B8%BA%E4%BB%80%E4%B9%88%E4%B8%A4%E5%B1%82%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E8%83%BD%E9%80%BC%E8%BF%91%E4%BB%BB%E6%84%8F%E5%87%BD%E6%95%B0/ Thu, 12 Mar 2026 22:35:33 +0800 https://answer.freetools.me/%E4%B8%87%E8%83%BD%E9%80%BC%E8%BF%91%E5%AE%9A%E7%90%86%E4%B8%BA%E4%BB%80%E4%B9%88%E4%B8%A4%E5%B1%82%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E8%83%BD%E9%80%BC%E8%BF%91%E4%BB%BB%E6%84%8F%E5%87%BD%E6%95%B0/ 从Cybenko 1989的数学证明到Telgarsky的深度优势理论，深入解析万能逼近定理的内涵、证明思路、局限性以及对深度学习实践的指导意义 Logits：神经网络输出的原始真相，从概念到实践的完整解析 https://answer.freetools.me/logits%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E8%BE%93%E5%87%BA%E7%9A%84%E5%8E%9F%E5%A7%8B%E7%9C%9F%E7%9B%B8%E4%BB%8E%E6%A6%82%E5%BF%B5%E5%88%B0%E5%AE%9E%E8%B7%B5%E7%9A%84%E5%AE%8C%E6%95%B4%E8%A7%A3%E6%9E%90/ Thu, 12 Mar 2026 07:33:21 +0800 https://answer.freetools.me/logits%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E8%BE%93%E5%87%BA%E7%9A%84%E5%8E%9F%E5%A7%8B%E7%9C%9F%E7%9B%B8%E4%BB%8E%E6%A6%82%E5%BF%B5%E5%88%B0%E5%AE%9E%E8%B7%B5%E7%9A%84%E5%AE%8C%E6%95%B4%E8%A7%A3%E6%9E%90/ 深入解析神经网络中logits的本质：从统计学中的log-odds概念起源，到现代深度学习中作为模型"思考过程"的核心载体。涵盖logits与softmax的数学关系、温度参数的作用机制、logit bias等处理技术、以及在知识蒸馏、模型校准、不确定性量化等场景的实际应用。自动微分与反向传播为什么这个六十岁的算法是深度学习的基石 https://answer.freetools.me/%E8%87%AA%E5%8A%A8%E5%BE%AE%E5%88%86%E4%B8%8E%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD%E4%B8%BA%E4%BB%80%E4%B9%88%E8%BF%99%E4%B8%AA%E5%85%AD%E5%8D%81%E5%B2%81%E7%9A%84%E7%AE%97%E6%B3%95%E6%98%AF%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E7%9A%84%E5%9F%BA%E7%9F%B3/ Thu, 12 Mar 2026 06:24:59 +0800 https://answer.freetools.me/%E8%87%AA%E5%8A%A8%E5%BE%AE%E5%88%86%E4%B8%8E%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD%E4%B8%BA%E4%BB%80%E4%B9%88%E8%BF%99%E4%B8%AA%E5%85%AD%E5%8D%81%E5%B2%81%E7%9A%84%E7%AE%97%E6%B3%95%E6%98%AF%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E7%9A%84%E5%9F%BA%E7%9F%B3/ 深入解析自动微分的前向模式与反向模式、计算图的构建与遍历、PyTorch autograd引擎的实现细节，以及梯度消失、梯度爆炸等数值稳定性问题的解决方案。梯度消失与梯度爆炸：为什么深层神经网络曾经只能堆叠五层？ https://answer.freetools.me/%E6%A2%AF%E5%BA%A6%E6%B6%88%E5%A4%B1%E4%B8%8E%E6%A2%AF%E5%BA%A6%E7%88%86%E7%82%B8%E4%B8%BA%E4%BB%80%E4%B9%88%E6%B7%B1%E5%B1%82%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E6%9B%BE%E7%BB%8F%E5%8F%AA%E8%83%BD%E5%A0%86%E5%8F%A0%E4%BA%94%E5%B1%82/ Thu, 12 Mar 2026 00:23:55 +0800 https://answer.freetools.me/%E6%A2%AF%E5%BA%A6%E6%B6%88%E5%A4%B1%E4%B8%8E%E6%A2%AF%E5%BA%A6%E7%88%86%E7%82%B8%E4%B8%BA%E4%BB%80%E4%B9%88%E6%B7%B1%E5%B1%82%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E6%9B%BE%E7%BB%8F%E5%8F%AA%E8%83%BD%E5%A0%86%E5%8F%A0%E4%BA%94%E5%B1%82/ 从1991年Hochreiter发现梯度消失问题，到2015年ResNet突破1000层训练障碍，深度学习的"深度"困境经历了二十五年的技术突围。本文深入解析梯度问题的数学本质、历史演进与解决方案。 Softmax函数：为什么这个公式统治了神经网络的概率输出 https://answer.freetools.me/softmax%E5%87%BD%E6%95%B0%E4%B8%BA%E4%BB%80%E4%B9%88%E8%BF%99%E4%B8%AA%E5%85%AC%E5%BC%8F%E7%BB%9F%E6%B2%BB%E4%BA%86%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E7%9A%84%E6%A6%82%E7%8E%87%E8%BE%93%E5%87%BA/ Wed, 11 Mar 2026 20:47:14 +0800 https://answer.freetools.me/softmax%E5%87%BD%E6%95%B0%E4%B8%BA%E4%BB%80%E4%B9%88%E8%BF%99%E4%B8%AA%E5%85%AC%E5%BC%8F%E7%BB%9F%E6%B2%BB%E4%BA%86%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E7%9A%84%E6%A6%82%E7%8E%87%E8%BE%93%E5%87%BA/ 从指数函数的放大效应到温度参数的物理意义，从交叉熵损失的完美配合到Transformer注意力机制，深入解析Softmax函数的数学原理、工程实践与替代方案演进。 Transformer 的注意力机制究竟在计算什么？从 QKV 到多头的完整解析 https://answer.freetools.me/transformer-%E7%9A%84%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E7%A9%B6%E7%AB%9F%E5%9C%A8%E8%AE%A1%E7%AE%97%E4%BB%80%E4%B9%88%E4%BB%8E-qkv-%E5%88%B0%E5%A4%9A%E5%A4%B4%E7%9A%84%E5%AE%8C%E6%95%B4%E8%A7%A3%E6%9E%90/ Wed, 11 Mar 2026 12:31:47 +0800 https://answer.freetools.me/transformer-%E7%9A%84%E6%B3%A8%E6%84%8F%E5%8A%9B%E6%9C%BA%E5%88%B6%E7%A9%B6%E7%AB%9F%E5%9C%A8%E8%AE%A1%E7%AE%97%E4%BB%80%E4%B9%88%E4%BB%8E-qkv-%E5%88%B0%E5%A4%9A%E5%A4%B4%E7%9A%84%E5%AE%8C%E6%95%B4%E8%A7%A3%E6%9E%90/ 深入解析 Transformer 注意力机制的核心原理：从 Query、Key、Value 的直观含义到缩放点积注意力的数学推导，从多头注意力的设计哲学到自注意力与交叉注意力的本质区别。基于 2017 年原始论文与最新研究进展，系统梳理注意力机制如何让模型"理解"序列中词语之间的关系。