Transformer

Transformer为何选择LayerNorm而不是BatchNorm：从序列数据特性到梯度稳定性的深度解析

2015年，Sergey Ioffe和Christian Szegedy在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中提出了批归一化（Batch Normalization）。这项技术在ImageNet分类任务上将训练步数减少了14倍，迅速成为计算机视觉领域的标配。然而，当Transformer架构在2017年横空出世时，论文作者们却选择了另一种归一化方式——层归一化（Layer Normalization）。这个选择并非偶然，背后隐藏着NLP数据与CV数据的本质差异，以及深度网络训练稳定性的深刻洞见。 ...

梯度检查点如何让大模型训练突破显存瓶颈：从时间换空间到选择性重计算的技术进化

2020年，当OpenAI训练拥有1750亿参数的GPT-3模型时，他们面临一个令人绝望的现实：即使使用当时最先进的NVIDIA A100 GPU（80GB显存），单张显卡连模型都无法加载，更不用说训练了。 ...

位置编码的二十年演进：从Sinusoidal到RoPE，Transformer如何理解「位置」

把"我爱北京"四个字打乱顺序，变成"北京我爱"，意思完全变了。但对Transformer的自注意力机制来说，这两个输入几乎没有区别——它会以完全相同的方式计算每个词与其他词的关联度。 ...

为什么修改大模型中的一个知识点会引发连锁崩溃

2022年，斯坦福大学的研究团队发表了一篇引人注目的论文。他们声称找到了一种方法，可以精准地修改大语言模型中的特定知识，而不影响其他能力。方法叫做ROME（Rank-One Model Editing），原理听起来很优雅：先用因果追踪定位知识存储的位置，然后像编辑数据库一样修改那个位置。 ...

为什么大模型记不住之前的对话——从无状态推理到长期记忆架构的技术突围

你有没有这样的经历：和一个AI助手聊了很久，详细告诉它你的饮食偏好、工作习惯、兴趣爱好，几周后再打开对话，它却像第一次认识你一样，问你是不是素食者——明明你上次已经说过不下三次。这不是AI"健忘"，而是它从未真正"记住"过任何东西。 ...

为什么大模型能从几个例子中学会新任务：从隐式梯度下降到Induction Head的技术解密

2020年5月，OpenAI发布了GPT-3。论文中有一个让研究社区困惑不已的发现：这个拥有1750亿参数的模型，竟然能在没有任何参数更新的情况下，仅凭输入中提供的几个示例，就学会完成全新的任务。 ...

当注意力成为瓶颈：从O(n²)困境到线性复杂度的技术突围

2017年，Google Research发表了题为《Attention Is All You Need》的论文，Transformer架构从此横空出世。但论文标题中的"All You Need"隐含了一个不言自明的假设：你能够负担得起注意力的代价。 ...