状态空间模型

测试时训练：当模型在推理阶段继续学习会发生什么

2017年，Hinton和Plaut在论文中提出了"Fast Weights"的概念——一种在推理时快速更新的记忆机制。这个想法沉寂多年，直到2020年才被Sun等人重新挖掘，演变成Test-Time Training（TTT）——一种让模型在推理阶段继续学习的技术范式。如今，这项技术已经从视觉模型的域适应工具，发展为挑战Transformer霸主地位的新架构，甚至让语言模型在ARC抽象推理基准上达到人类水平。 ...

从Transformer的二次复杂度困境到Mamba的线性突围：状态空间模型如何重塑序列建模

2023年12月，卡内基梅隆大学的Albert Gu和普林斯顿大学的Tri Dao在arXiv上发表了一篇论文，声称首次实现了"线性时间的Transformer级别性能"。这篇论文的标题很朴素——《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》，但其展示的数据却引发了广泛关注：在百万级token长度上，Mamba的推理吞吐量达到同规模Transformer的5倍。 ...