Blog Cover

提示词工程的技术原理:为什么同样的意思不同的问法,大模型的回答天差地别

一个困惑的起点 你问 GPT-4:“告诉我关于量子纠缠的事情”,它给你一段教科书式的定义。你换个说法:“量子纠缠到底有多诡异?能用通俗的方式解释吗?“回答变得生动有趣,甚至还用了比喻。 ...

18 min · 8950 words

为什么大模型能从几个例子中学会新任务:从隐式梯度下降到Induction Head的技术解密

2020年5月,OpenAI发布了GPT-3。论文中有一个让研究社区困惑不已的发现:这个拥有1750亿参数的模型,竟然能在没有任何参数更新的情况下,仅凭输入中提供的几个示例,就学会完成全新的任务。 ...

10 min · 4967 words

为什么大模型不需要训练就能学会新任务:从贝叶斯推断到隐式权重更新的技术解密

2020年5月,OpenAI发布了一篇题为《Language Models are Few-Shot Learners》的论文。论文的核心发现令研究社区震惊:一个拥有1750亿参数的语言模型,竟然可以在不更新任何参数的情况下,仅凭提示中的几个示例就学会全新的任务。 ...

10 min · 4922 words