为何大模型总忽略中间内容:从Lost in the Middle到注意力盆地的技术解密

一个检索增强生成(RAG)系统为回答用户问题,从知识库中检索了10篇相关文档。其中第6篇文档包含了正确答案的关键信息。然而,模型最终输出的答案却是错的——它"看到"了放在第1篇和第10篇的干扰信息,却完全忽略了中间那篇真正有用的文档。 ...

10 min · 4662 words

Prefix Caching 如何让重复提示词在大模型推理中"零成本"通过

一个客服机器人在处理多轮对话时,每次都需要重新"阅读"完整的对话历史。当对话进行到第 10 轮,模型需要处理的上下文已经膨胀到数千 token——这意味着每一轮对话都要重复计算这些相同的文本。在大规模生产环境中,这种冗余计算吞噬着昂贵的 GPU 资源,导致响应延迟累积攀升。 ...

9 min · 4333 words

大模型为何会陷入无限循环:从自注意力机制到训练数据的重复诅咒

一个训练了数千亿参数、在海量文本上学习了数十万小时的模型,面对"请列出以A开头的名字"这样一个简单问题,却陷入了这样的怪圈: ...

7 min · 3175 words

为何4位量化能让70B模型塞进单张显卡:从数值表示到异常值处理的技术全解

一个70B参数的大语言模型,如果以FP16格式存储,需要140GB显存。NVIDIA A100只有80GB,H200也才141GB——这意味着推理一个70B模型,要么用多卡分布式,要么接受频繁的CPU-GPU数据交换。但2022年底开始,一种技术让同样大小的模型可以塞进消费级显卡:4位量化。 ...

11 min · 5204 words

让大模型忘记有多难?从GDPR被遗忘权到量化恢复的技术困境

2018年5月,欧盟《通用数据保护条例》(GDPR)正式生效。条例第17条赋予个人一项特殊权利——“被遗忘权”(Right to be Forgotten):当个人数据不再必要时,数据主体有权要求删除这些数据。对于传统数据库系统,这是一个简单的SQL DELETE语句就能解决的问题。但当这项权利遇上千亿参数的大语言模型,事情变得复杂得多。 ...

13 min · 6061 words

测试时训练:当模型在推理阶段继续学习会发生什么

2017年,Hinton和Plaut在论文中提出了"Fast Weights"的概念——一种在推理时快速更新的记忆机制。这个想法沉寂多年,直到2020年才被Sun等人重新挖掘,演变成Test-Time Training(TTT)——一种让模型在推理阶段继续学习的技术范式。如今,这项技术已经从视觉模型的域适应工具,发展为挑战Transformer霸主地位的新架构,甚至让语言模型在ARC抽象推理基准上达到人类水平。 ...

9 min · 4412 words

多模态大模型架构的五年演进:从CLIP的对齐革命到视觉语言融合的范式突破

2021年1月5日,OpenAI发布了一篇看似普通的论文。论文标题很长——《Learning Transferable Visual Models From Natural Language Supervision》,但核心贡献可以用一句话概括:用4亿对网络图片和描述文本,训练出了一个能"看懂"图像的模型。这个模型叫CLIP,它没有在当时引起轰动,却在随后的五年里重塑了整个人工智能领域的技术路线。 ...

13 min · 6414 words