Answer
Search
Categories
Home
»
Tags
Attention Sinks
大模型为何会陷入无限循环:从自注意力机制到训练数据的重复诅咒
一个训练了数千亿参数、在海量文本上学习了数十万小时的模型,面对"请列出以A开头的名字"这样一个简单问题,却陷入了这样的怪圈: ...