当参数突破临界点:AI模型为什么会突然"开窍"
2022年,Google Research的研究者在分析GPT-3系列模型的算术能力时,发现了一个令人费解的现象:在三位数加法任务上,60亿参数的模型准确率仅为1%,130亿参数的模型提升到8%,但当模型扩展到1750亿参数时,准确率突然跳跃到80%。这不是渐进式的提升,而是近乎垂直的跃迁。 ...
2022年,Google Research的研究者在分析GPT-3系列模型的算术能力时,发现了一个令人费解的现象:在三位数加法任务上,60亿参数的模型准确率仅为1%,130亿参数的模型提升到8%,但当模型扩展到1750亿参数时,准确率突然跳跃到80%。这不是渐进式的提升,而是近乎垂直的跃迁。 ...