从Transformer的二次复杂度困境到Mamba的线性突围:状态空间模型如何重塑序列建模

2023年12月,卡内基梅隆大学的Albert Gu和普林斯顿大学的Tri Dao在arXiv上发表了一篇论文,声称首次实现了"线性时间的Transformer级别性能"。这篇论文的标题很朴素——《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》,但其展示的数据却引发了广泛关注:在百万级token长度上,Mamba的推理吞吐量达到同规模Transformer的5倍。 ...

11 min · 5104 words

AI生成内容的隐形身份证:大语言模型水印如何让机器文本无处遁形

2023年1月,马里兰大学的研究团队在arXiv上发表了一篇论文,标题很朴素:《A Watermark for Large Language Models》。但论文中的一个演示却引发了广泛关注:一段仅56个单词的文本,因为嵌入了水印,被算法以约 $6 \times 10^{-14}$ 的概率判定为机器生成——这个概率比连续中两次彩票头奖还要低。 ...

10 min · 4979 words

千亿参数模型如何塞进有限显卡ZeRO如何用分片消除数据并行的内存冗余

2020年2月,微软研究院发布了一个名为DeepSpeed的深度学习优化库,其中最引人注目的组件是ZeRO(Zero Redundancy Optimizer)。这项技术声称可以在1024块GPU上训练万亿参数模型。当时最大的语言模型GPT-2仅有15亿参数,Megatron-LM也不过83亿参数。ZeRO究竟做了什么,能让模型规模提升百倍以上? ...

13 min · 6183 words

第一个Token的隐形权力:Attention Sink如何拯救流式大模型

2023年,MIT韩松实验室的研究团队在测试一个看似简单的问题时,发现了一个令人困惑的现象。他们尝试用滑动窗口来限制大模型的KV Cache大小——这是控制显存占用的标准做法。然而,当窗口滑动、第一个Token被踢出缓存时,模型不是逐渐变差,而是瞬间崩溃。 ...

9 min · 4366 words

Transformer为何选择LayerNorm而不是BatchNorm:从序列数据特性到梯度稳定性的深度解析

2015年,Sergey Ioffe和Christian Szegedy在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中提出了批归一化(Batch Normalization)。这项技术在ImageNet分类任务上将训练步数减少了14倍,迅速成为计算机视觉领域的标配。然而,当Transformer架构在2017年横空出世时,论文作者们却选择了另一种归一化方式——层归一化(Layer Normalization)。这个选择并非偶然,背后隐藏着NLP数据与CV数据的本质差异,以及深度网络训练稳定性的深刻洞见。 ...

11 min · 5118 words

梯度检查点如何让大模型训练突破显存瓶颈:从时间换空间到选择性重计算的技术进化

2020年,当OpenAI训练拥有1750亿参数的GPT-3模型时,他们面临一个令人绝望的现实:即使使用当时最先进的NVIDIA A100 GPU(80GB显存),单张显卡连模型都无法加载,更不用说训练了。 ...

12 min · 5878 words

Ring Attention如何让大模型突破百万Token上下文从环形通信到计算重叠的技术突围

2023年10月,伯克利大学的研究团队提交了一篇论文,声称可以让Transformer处理"接近无限"长度的上下文。实验数据令人咋舌:在512块TPU v4上,7B模型可以训练超过800万Token的序列;在1024块TPU v4上,这个数字飙升到1600万。 ...

11 min · 5287 words