张量:深度学习的数据容器

打开任何一个深度学习框架的代码,你几乎立刻会碰到张量这个词。PyTorch文档的第一行示例代码是创建张量,TensorFlow的名字本身就在暗示张量的核心地位。但当你试图理解"张量究竟是什么"时,可能会发现答案飘忽不定——有人说它是矩阵的推广,有人提到坐标变换下的不变性,还有人干脆说"就是多维数组"。 ...

15 min · 7196 words
Blog Cover

为什么Transformer的注意力要除以√dₖ:从方差到梯度消失的完整数学解析

2017年,Vaswani等人在《Attention Is All You Need》论文中提出了Transformer架构。在缩放点积注意力的公式中,有一个看似不起眼的细节:点积结果要除以$\sqrt{d_k}$。这个操作在代码中只是一行,但它背后隐藏着深度学习中最核心的问题之一——梯度消失。 ...

9 min · 4133 words