为什么让大模型一步步思考就能提升推理能力——从思维链到涌现能力的认知科学解释
2022年1月,Google Research的Jason Wei团队发表了一篇论文,展示了一组令人困惑的数据:在GSM8K数学推理基准测试上,一个540B参数的语言模型,仅仅通过在提示词中加入8个带推理步骤的示例,准确率就从约18%飙升至超过55%——这个结果甚至超过了经过微调的GPT-3。 ...
2022年1月,Google Research的Jason Wei团队发表了一篇论文,展示了一组令人困惑的数据:在GSM8K数学推理基准测试上,一个540B参数的语言模型,仅仅通过在提示词中加入8个带推理步骤的示例,准确率就从约18%飙升至超过55%——这个结果甚至超过了经过微调的GPT-3。 ...
2022年,Google Research的研究者们做了一个看似简单的实验:让不同规模的语言模型做三位数加法。结果令人困惑——参数量从100万到100亿的模型,准确率几乎为零;但当参数量突破某个临界点后,准确率突然飙升到80%以上。 ...
2022年,Google Research的研究者在分析GPT-3系列模型的算术能力时,发现了一个令人费解的现象:在三位数加法任务上,60亿参数的模型准确率仅为1%,130亿参数的模型提升到8%,但当模型扩展到1750亿参数时,准确率突然跳跃到80%。这不是渐进式的提升,而是近乎垂直的跃迁。 ...