测试时训练:当模型在推理阶段继续学习会发生什么

2017年,Hinton和Plaut在论文中提出了"Fast Weights"的概念——一种在推理时快速更新的记忆机制。这个想法沉寂多年,直到2020年才被Sun等人重新挖掘,演变成Test-Time Training(TTT)——一种让模型在推理阶段继续学习的技术范式。如今,这项技术已经从视觉模型的域适应工具,发展为挑战Transformer霸主地位的新架构,甚至让语言模型在ARC抽象推理基准上达到人类水平。 ...

9 min · 4412 words