Transformer为何选择LayerNorm而不是BatchNorm:从序列数据特性到梯度稳定性的深度解析

2015年,Sergey Ioffe和Christian Szegedy在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中提出了批归一化(Batch Normalization)。这项技术在ImageNet分类任务上将训练步数减少了14倍,迅速成为计算机视觉领域的标配。然而,当Transformer架构在2017年横空出世时,论文作者们却选择了另一种归一化方式——层归一化(Layer Normalization)。这个选择并非偶然,背后隐藏着NLP数据与CV数据的本质差异,以及深度网络训练稳定性的深刻洞见。 ...

11 min · 5118 words

梯度检查点如何让大模型训练突破显存瓶颈:从时间换空间到选择性重计算的技术进化

2020年,当OpenAI训练拥有1750亿参数的GPT-3模型时,他们面临一个令人绝望的现实:即使使用当时最先进的NVIDIA A100 GPU(80GB显存),单张显卡连模型都无法加载,更不用说训练了。 ...

12 min · 5878 words

位置编码的二十年演进:从Sinusoidal到RoPE,Transformer如何理解「位置」

把"我 爱 北 京"四个字打乱顺序,变成"北 京 我 爱",意思完全变了。但对Transformer的自注意力机制来说,这两个输入几乎没有区别——它会以完全相同的方式计算每个词与其他词的关联度。 ...

13 min · 6275 words

为什么修改大模型中的一个知识点会引发连锁崩溃

2022年,斯坦福大学的研究团队发表了一篇引人注目的论文。他们声称找到了一种方法,可以精准地修改大语言模型中的特定知识,而不影响其他能力。方法叫做ROME(Rank-One Model Editing),原理听起来很优雅:先用因果追踪定位知识存储的位置,然后像编辑数据库一样修改那个位置。 ...

12 min · 5655 words

为什么大模型记不住之前的对话——从无状态推理到长期记忆架构的技术突围

你有没有这样的经历:和一个AI助手聊了很久,详细告诉它你的饮食偏好、工作习惯、兴趣爱好,几周后再打开对话,它却像第一次认识你一样,问你是不是素食者——明明你上次已经说过不下三次。这不是AI"健忘",而是它从未真正"记住"过任何东西。 ...

12 min · 5655 words

为什么大模型能从几个例子中学会新任务:从隐式梯度下降到Induction Head的技术解密

2020年5月,OpenAI发布了GPT-3。论文中有一个让研究社区困惑不已的发现:这个拥有1750亿参数的模型,竟然能在没有任何参数更新的情况下,仅凭输入中提供的几个示例,就学会完成全新的任务。 ...

10 min · 4967 words

当注意力成为瓶颈:从O(n²)困境到线性复杂度的技术突围

2017年,Google Research发表了题为《Attention Is All You Need》的论文,Transformer架构从此横空出世。但论文标题中的"All You Need"隐含了一个不言自明的假设:你能够负担得起注意力的代价。 ...

14 min · 6779 words