AI安全 | Answer

置信度校准：当大模型说"我有80%把握"时，它真的知道自己在说什么吗？

引言：当AI说出"我有80%把握"时，它真的知道自己在说什么吗？ 2017年，斯坦福大学的研究生Chuan Guo发表了一篇论文，揭示了一个令人不安的现象：现代深度神经网络在预测准确率上远超早期模型，但它们对自己预测的置信度估计却变得更不可靠。一个可能达到99%分类准确率的模型，当它声称有99%的置信度时，实际正确率可能只有80%。 ...

对话模板：大模型应用中最容易被忽视的隐形语言

当你调用一个大语言模型的API时，通常会传入类似这样的结构： messages = [ {"role": "system", "content": "你是一个有帮助的助手。"}, {"role": "user", "content": "你好！"}, {"role": "assistant", "content": "你好！有什么可以帮助你的吗？"}, {"role": "user", "content": "2+2等于多少？"}, ] 这个整洁的消息列表，在送入模型之前，会被转换成一段连续的文本。问题是：这段文本长什么样？ ...

AI生成内容的隐形身份证：大语言模型水印如何让机器文本无处遁形

2023年1月，马里兰大学的研究团队在arXiv上发表了一篇论文，标题很朴素：《A Watermark for Large Language Models》。但论文中的一个演示却引发了广泛关注：一段仅56个单词的文本，因为嵌入了水印，被算法以约 $6 \times 10^{-14}$ 的概率判定为机器生成——这个概率比连续中两次彩票头奖还要低。 ...

当参数突破临界点：AI模型为什么会突然"开窍"

2022年，Google Research的研究者在分析GPT-3系列模型的算术能力时，发现了一个令人费解的现象：在三位数加法任务上，60亿参数的模型准确率仅为1%，130亿参数的模型提升到8%，但当模型扩展到1750亿参数时，准确率突然跳跃到80%。这不是渐进式的提升，而是近乎垂直的跃迁。 ...

验证码为何越来越难？从图灵测试到AI博弈的二十年死局

2024年9月，一篇题为《Breaking reCAPTCHAv2》的论文在arXiv上发表，结论令人震惊：使用公开的YOLO模型，研究者能够100%破解Google的reCAPTCHA v2图像验证码。 ...