为什么大模型能从几个例子中学会新任务:从隐式梯度下降到Induction Head的技术解密

2020年5月,OpenAI发布了GPT-3。论文中有一个让研究社区困惑不已的发现:这个拥有1750亿参数的模型,竟然能在没有任何参数更新的情况下,仅凭输入中提供的几个示例,就学会完成全新的任务。 ...

10 min · 4967 words

为什么大模型不需要训练就能学会新任务:从贝叶斯推断到隐式权重更新的技术解密

2020年5月,OpenAI发布了一篇题为《Language Models are Few-Shot Learners》的论文。论文的核心发现令研究社区震惊:一个拥有1750亿参数的语言模型,竟然可以在不更新任何参数的情况下,仅凭提示中的几个示例就学会全新的任务。 ...

10 min · 4922 words