深度学习基础

张量：深度学习的数据容器

打开任何一个深度学习框架的代码，你几乎立刻会碰到张量这个词。PyTorch文档的第一行示例代码是创建张量，TensorFlow的名字本身就在暗示张量的核心地位。但当你试图理解"张量究竟是什么"时，可能会发现答案飘忽不定——有人说它是矩阵的推广，有人提到坐标变换下的不变性，还有人干脆说"就是多维数组"。 ...

为什么Transformer的注意力要除以√dₖ：从方差到梯度消失的完整数学解析

2017年，Vaswani等人在《Attention Is All You Need》论文中提出了Transformer架构。在缩放点积注意力的公式中，有一个看似不起眼的细节：点积结果要除以$\sqrt{d_k}$。这个操作在代码中只是一行，但它背后隐藏着深度学习中最核心的问题之一——梯度消失。 ...