为什么大模型能从几个例子中学会新任务:从隐式梯度下降到Induction Head的技术解密

2020年5月,OpenAI发布了GPT-3。论文中有一个让研究社区困惑不已的发现:这个拥有1750亿参数的模型,竟然能在没有任何参数更新的情况下,仅凭输入中提供的几个示例,就学会完成全新的任务。 ...

10 min · 4967 words