AI与大模型

2017年，Vaswani等人在《Attention Is All You Need》论文中提出了Transformer架构。在缩放点积注意力的公式中，有一个看似不起眼的细节：点积结果要除以$\sqrt{d_k}$。这个操作在代码中只是一行，但它背后隐藏着深度学习中最核心的问题之一——梯度消失。 ...