大模型为什么会编造事实:从统计本质到检测缓解的技术全景
2023年,一位美国律师使用ChatGPT查找法律判例,结果在法庭上提交了六个完全不存在的案例。法官在裁决书中写道:“这些案例是’幻觉’的产物。“这不是一个孤立的案例。从医疗诊断到金融分析,从学术研究到法律咨询,大模型的幻觉问题正在成为AI落地应用的最大障碍。 ...
2023年,一位美国律师使用ChatGPT查找法律判例,结果在法庭上提交了六个完全不存在的案例。法官在裁决书中写道:“这些案例是’幻觉’的产物。“这不是一个孤立的案例。从医疗诊断到金融分析,从学术研究到法律咨询,大模型的幻觉问题正在成为AI落地应用的最大障碍。 ...
2022年,Google Research的研究者们做了一个看似简单的实验:让不同规模的语言模型做三位数加法。结果令人困惑——参数量从100万到100亿的模型,准确率几乎为零;但当参数量突破某个临界点后,准确率突然飙升到80%以上。 ...
2017年,Google Research发表了题为《Attention Is All You Need》的论文,Transformer架构从此横空出世。但论文标题中的"All You Need"隐含了一个不言自明的假设:你能够负担得起注意力的代价。 ...
2024年,一个奇怪的现象在社交媒体上引发热议:当用户问ChatGPT"strawberry这个词里有几个r"时,模型自信地回答"两个"。这个错误如此基础,以至于有人质疑:连小学生都能数对的事,为什么拥有数千亿参数的大模型做不到? ...
2022年,Google Research的研究者在分析GPT-3系列模型的算术能力时,发现了一个令人费解的现象:在三位数加法任务上,60亿参数的模型准确率仅为1%,130亿参数的模型提升到8%,但当模型扩展到1750亿参数时,准确率突然跳跃到80%。这不是渐进式的提升,而是近乎垂直的跃迁。 ...
2020年5月,OpenAI发布了一篇题为《Language Models are Few-Shot Learners》的论文。论文的核心发现令研究社区震惊:一个拥有1750亿参数的语言模型,竟然可以在不更新任何参数的情况下,仅凭提示中的几个示例就学会全新的任务。 ...
2023年5月,纽约联邦法院审理一起看似普通的航空伤害赔偿案。原告Roberto Mata的代理律师提交了一份详尽的法律简报,引用了Zicherman v. Korean Air Lines Co.、Varghese v. China Southern Airlines Co.等多个先例。问题在于——这些案例在现实中根本不存在。 ...