人工智能 | Answer

从Transformer的二次复杂度困境到Mamba的线性突围：状态空间模型如何重塑序列建模

2023年12月，卡内基梅隆大学的Albert Gu和普林斯顿大学的Tri Dao在arXiv上发表了一篇论文，声称首次实现了"线性时间的Transformer级别性能"。这篇论文的标题很朴素——《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》，但其展示的数据却引发了广泛关注：在百万级token长度上，Mamba的推理吞吐量达到同规模Transformer的5倍。 ...

AI生成内容的隐形身份证：大语言模型水印如何让机器文本无处遁形

2023年1月，马里兰大学的研究团队在arXiv上发表了一篇论文，标题很朴素：《A Watermark for Large Language Models》。但论文中的一个演示却引发了广泛关注：一段仅56个单词的文本，因为嵌入了水印，被算法以约 $6 \times 10^{-14}$ 的概率判定为机器生成——这个概率比连续中两次彩票头奖还要低。 ...

千亿参数模型如何塞进有限显卡ZeRO如何用分片消除数据并行的内存冗余

2020年2月，微软研究院发布了一个名为DeepSpeed的深度学习优化库，其中最引人注目的组件是ZeRO（Zero Redundancy Optimizer）。这项技术声称可以在1024块GPU上训练万亿参数模型。当时最大的语言模型GPT-2仅有15亿参数，Megatron-LM也不过83亿参数。ZeRO究竟做了什么，能让模型规模提升百倍以上？ ...

第一个Token的隐形权力：Attention Sink如何拯救流式大模型

2023年，MIT韩松实验室的研究团队在测试一个看似简单的问题时，发现了一个令人困惑的现象。他们尝试用滑动窗口来限制大模型的KV Cache大小——这是控制显存占用的标准做法。然而，当窗口滑动、第一个Token被踢出缓存时，模型不是逐渐变差，而是瞬间崩溃。 ...

Transformer为何选择LayerNorm而不是BatchNorm：从序列数据特性到梯度稳定性的深度解析

2015年，Sergey Ioffe和Christian Szegedy在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中提出了批归一化（Batch Normalization）。这项技术在ImageNet分类任务上将训练步数减少了14倍，迅速成为计算机视觉领域的标配。然而，当Transformer架构在2017年横空出世时，论文作者们却选择了另一种归一化方式——层归一化（Layer Normalization）。这个选择并非偶然，背后隐藏着NLP数据与CV数据的本质差异，以及深度网络训练稳定性的深刻洞见。 ...

梯度检查点如何让大模型训练突破显存瓶颈：从时间换空间到选择性重计算的技术进化

2020年，当OpenAI训练拥有1750亿参数的GPT-3模型时，他们面临一个令人绝望的现实：即使使用当时最先进的NVIDIA A100 GPU（80GB显存），单张显卡连模型都无法加载，更不用说训练了。 ...

Ring Attention如何让大模型突破百万Token上下文从环形通信到计算重叠的技术突围

2023年10月，伯克利大学的研究团队提交了一篇论文，声称可以让Transformer处理"接近无限"长度的上下文。实验数据令人咋舌：在512块TPU v4上，7B模型可以训练超过800万Token的序列；在1024块TPU v4上，这个数字飙升到1600万。 ...