大模型为何读不懂"不"字:从注意力机制到训练数据的否定词困境
当你告诉大模型"不要在代码中使用eval函数",它偏偏生成了包含eval的代码;当你问"哪些水果不是红色的",它列出了红苹果和草莓。这不是个例,而是一个困扰了自然语言处理领域十年的顽疾。 ...
当你告诉大模型"不要在代码中使用eval函数",它偏偏生成了包含eval的代码;当你问"哪些水果不是红色的",它列出了红苹果和草莓。这不是个例,而是一个困扰了自然语言处理领域十年的顽疾。 ...
把一篇2000字的文章喂给大模型,它能在毫秒级返回摘要。但当你把一篇20000字的长文档扔进去,等待第一个输出的时间可能从几百毫秒延长到几秒甚至更久。更诡异的是,生成后续内容的速度却没有明显下降。 ...
大模型的上下文窗口:从Token限制到有效上下文管理的完整解析 当你向一个语言模型发送请求时,你有没有想过:为什么有些模型只能处理几千字,而有些却能吞下整本书?为什么即便模型声称支持128K上下文,你的长文档问答效果却时好时坏?为什么同样的提示词放在文档开头和中间,模型的回答准确率会相差几十个百分点? ...
2019年11月,Noam Shazeer在arXiv上发表了一篇标题颇为大胆的论文——《Fast Transformer Decoding: One Write-Head is All You Need》。这篇仅6页的论文提出了一个看似简单的问题:Transformer解码时,我们真的需要那么多Key和Value头吗? ...
2023年9月,Mistral AI发布了一款仅有73亿参数的模型,却在几乎所有基准测试上超越了拥有130亿参数的LLaMA 2。这个令人意外的结果背后,一个关键技术就是滑动窗口注意力(Sliding Window Attention,SWA)。 ...
2017年,Vaswani等人在《Attention Is All You Need》中提出了Transformer架构,用纯粹的注意力机制取代了循环神经网络。然而,这个革命性的架构有一个致命缺陷:自注意力机制天生不知道顺序。 ...
当你向一个大语言模型输入"今天天气怎么样",它在毫秒级别内就能返回一段流畅的回答。这个过程看似简单,背后却隐藏着一套精密的计算流程。输入的文本经历了分词、嵌入、多层Transformer处理、概率计算、采样选择等多个阶段,最终才能生成你所看到的每一个字符。 ...