Blog Cover

提示词工程的技术原理:为什么同样的意思不同的问法,大模型的回答天差地别

一个困惑的起点 你问 GPT-4:“告诉我关于量子纠缠的事情”,它给你一段教科书式的定义。你换个说法:“量子纠缠到底有多诡异?能用通俗的方式解释吗?“回答变得生动有趣,甚至还用了比喻。 ...

18 min · 8950 words

为什么让大模型一步步思考就能提升推理能力——从思维链到涌现能力的认知科学解释

2022年1月,Google Research的Jason Wei团队发表了一篇论文,展示了一组令人困惑的数据:在GSM8K数学推理基准测试上,一个540B参数的语言模型,仅仅通过在提示词中加入8个带推理步骤的示例,准确率就从约18%飙升至超过55%——这个结果甚至超过了经过微调的GPT-3。 ...

11 min · 5182 words

为什么大模型连简单的加法都会算错?从分词陷阱到算术推理的技术困境

2024年7月,一个看似荒谬的问题在社交媒体上疯传:「9.11和9.9哪个更大?」 当用户把这个问题抛给ChatGPT时,答案令人瞠目——AI一本正经地回答「9.11更大」。这不是个案。同样的测试在不同时间、不同用户那里重复了上千次,错误率高达50%。 ...

8 min · 4007 words