思维链 | Answer

提示词工程的技术原理：为什么同样的意思不同的问法，大模型的回答天差地别

一个困惑的起点你问 GPT-4：“告诉我关于量子纠缠的事情”，它给你一段教科书式的定义。你换个说法：“量子纠缠到底有多诡异？能用通俗的方式解释吗？“回答变得生动有趣，甚至还用了比喻。 ...

为什么让大模型一步步思考就能提升推理能力——从思维链到涌现能力的认知科学解释

2022年1月，Google Research的Jason Wei团队发表了一篇论文，展示了一组令人困惑的数据：在GSM8K数学推理基准测试上，一个540B参数的语言模型，仅仅通过在提示词中加入8个带推理步骤的示例，准确率就从约18%飙升至超过55%——这个结果甚至超过了经过微调的GPT-3。 ...

为什么大模型连简单的加法都会算错？从分词陷阱到算术推理的技术困境

2024年7月，一个看似荒谬的问题在社交媒体上疯传：「9.11和9.9哪个更大？」当用户把这个问题抛给ChatGPT时，答案令人瞠目——AI一本正经地回答「9.11更大」。这不是个案。同样的测试在不同时间、不同用户那里重复了上千次，错误率高达50%。 ...