深度学习 | Answer

权重初始化：为什么一行代码能决定神经网络的生死

2010年，Xavier Glorot和Yoshua Bengio在AISTATS会议上发表了一篇论文，标题是《Understanding the difficulty of training deep feedforward neural networks》。这篇论文揭示了一个困扰深度学习社区多年的问题：为什么深层神经网络在随机初始化下难以训练？他们提出了一种新的初始化方案，后来被称为Xavier初始化。五年后，何恺明等人针对ReLU激活函数提出了He初始化。这两种初始化方法至今仍是现代神经网络训练的基础。 ...

Embedding层：从离散符号到语义空间的第一步

计算机无法直接理解文字。当一个语言模型接收到输入"苹果"时，它看到的不是水果的形象，而是一个冰冷的数字——Token ID。Embedding层的工作，就是把这个离散的整数转换成连续的高维向量，让模型能够开始"理解"语言的语义。 ...

Dropout机制：为什么随机丢弃神经元反而能提升泛化能力

2012年，多伦多大学的Hinton团队在论文《Improving neural networks by preventing co-adaptation of feature detectors》中提出了一个反直觉的想法：在训练神经网络时，随机丢弃一部分神经元，反而能让模型表现更好。这个被称为Dropout的技术，随后成为深度学习领域最广泛使用的正则化方法之一，几乎所有的现代神经网络都在使用它。 ...

为什么Transformer的注意力要除以√dₖ：从方差到梯度消失的完整数学解析

2017年，Vaswani等人在《Attention Is All You Need》论文中提出了Transformer架构。在缩放点积注意力的公式中，有一个看似不起眼的细节：点积结果要除以$\sqrt{d_k}$。这个操作在代码中只是一行，但它背后隐藏着深度学习中最核心的问题之一——梯度消失。 ...

大模型为何普遍选择AdamW而非SGD：从自适应学习率到解耦权重衰减的技术解析

打开任何一个大语言模型的训练代码——GPT-3、LLaMA、BERT、Mistral——你会发现一个惊人的共性：它们清一色使用AdamW优化器。不是经典的随机梯度下降（SGD），不是带动量的SGD，而是AdamW。 ...

AI生成内容的隐形身份证：大语言模型水印如何让机器文本无处遁形

2023年1月，马里兰大学的研究团队在arXiv上发表了一篇论文，标题很朴素：《A Watermark for Large Language Models》。但论文中的一个演示却引发了广泛关注：一段仅56个单词的文本，因为嵌入了水印，被算法以约 $6 \times 10^{-14}$ 的概率判定为机器生成——这个概率比连续中两次彩票头奖还要低。 ...

为什么一张显卡能干翻整个CPU集群：GPU并行计算如何成为深度学习的基石

2012年9月30日，ImageNet图像识别挑战赛的结果震惊了整个计算机视觉领域。一个名为AlexNet的卷积神经网络以15.3%的错误率夺冠，比第二名整整低了十个百分点。这个数字本身已经足够惊人，但更关键的是AlexNet的训练方式：它使用了两个GTX 580显卡并行训练，耗时仅五到六天。如果用当时的CPU完成同样的训练，需要数十年。 ...