测试时训练:当模型在推理阶段继续学习会发生什么

2017年,Hinton和Plaut在论文中提出了"Fast Weights"的概念——一种在推理时快速更新的记忆机制。这个想法沉寂多年,直到2020年才被Sun等人重新挖掘,演变成Test-Time Training(TTT)——一种让模型在推理阶段继续学习的技术范式。如今,这项技术已经从视觉模型的域适应工具,发展为挑战Transformer霸主地位的新架构,甚至让语言模型在ARC抽象推理基准上达到人类水平。 ...

9 min · 4412 words

为什么大模型越思考越聪明:从o1到DeepSeek-R1的推理时计算革命

2024年9月,OpenAI发布了一款名为o1的新模型。在GPQA Diamond测试——一项涵盖物理、化学、生物的博士级科学问题评估中,o1取得了77.3%的准确率,而招募的博士级专家平均得分仅为69.7%。这是AI首次在这一基准测试中超越人类专家。 ...

11 min · 5124 words