测试时训练:当模型在推理阶段继续学习会发生什么

2017年,Hinton和Plaut在论文中提出了"Fast Weights"的概念——一种在推理时快速更新的记忆机制。这个想法沉寂多年,直到2020年才被Sun等人重新挖掘,演变成Test-Time Training(TTT)——一种让模型在推理阶段继续学习的技术范式。如今,这项技术已经从视觉模型的域适应工具,发展为挑战Transformer霸主地位的新架构,甚至让语言模型在ARC抽象推理基准上达到人类水平。 ...

9 min · 4412 words

从Transformer的二次复杂度困境到Mamba的线性突围:状态空间模型如何重塑序列建模

2023年12月,卡内基梅隆大学的Albert Gu和普林斯顿大学的Tri Dao在arXiv上发表了一篇论文,声称首次实现了"线性时间的Transformer级别性能"。这篇论文的标题很朴素——《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》,但其展示的数据却引发了广泛关注:在百万级token长度上,Mamba的推理吞吐量达到同规模Transformer的5倍。 ...

11 min · 5104 words