TTT层 | Answer

2017年，Hinton和Plaut在论文中提出了"Fast Weights"的概念——一种在推理时快速更新的记忆机制。这个想法沉寂多年，直到2020年才被Sun等人重新挖掘，演变成Test-Time Training（TTT）——一种让模型在推理阶段继续学习的技术范式。如今，这项技术已经从视觉模型的域适应工具，发展为挑战Transformer霸主地位的新架构，甚至让语言模型在ARC抽象推理基准上达到人类水平。 ...