人工智能 | Answer

Prefix Caching 如何让重复提示词在大模型推理中"零成本"通过

一个客服机器人在处理多轮对话时，每次都需要重新"阅读"完整的对话历史。当对话进行到第 10 轮，模型需要处理的上下文已经膨胀到数千 token——这意味着每一轮对话都要重复计算这些相同的文本。在大规模生产环境中，这种冗余计算吞噬着昂贵的 GPU 资源，导致响应延迟累积攀升。 ...

大模型为何会陷入无限循环：从自注意力机制到训练数据的重复诅咒

一个训练了数千亿参数、在海量文本上学习了数十万小时的模型，面对"请列出以A开头的名字"这样一个简单问题，却陷入了这样的怪圈： ...

为何4位量化能让70B模型塞进单张显卡：从数值表示到异常值处理的技术全解

一个70B参数的大语言模型，如果以FP16格式存储，需要140GB显存。NVIDIA A100只有80GB，H200也才141GB——这意味着推理一个70B模型，要么用多卡分布式，要么接受频繁的CPU-GPU数据交换。但2022年底开始，一种技术让同样大小的模型可以塞进消费级显卡：4位量化。 ...

零训练成本的多任务融合：从Task Arithmetic到TIES-Merging的模型合并革命

Hugging Face 上托管着超过50万个预训练模型，每天都有新的微调版本被上传。一个团队可能为文本分类训练了BERT，另一个团队为命名实体识别微调了T5，第三个团队为情感分析优化了RoBERTa。当需要构建一个同时具备这三种能力的系统时，传统做法是部署三个独立模型——但这意味着三倍的存储成本、三倍的GPU显存占用和三倍的推理延迟。 ...

让大模型忘记有多难？从GDPR被遗忘权到量化恢复的技术困境

2018年5月，欧盟《通用数据保护条例》（GDPR）正式生效。条例第17条赋予个人一项特殊权利——“被遗忘权”（Right to be Forgotten）：当个人数据不再必要时，数据主体有权要求删除这些数据。对于传统数据库系统，这是一个简单的SQL DELETE语句就能解决的问题。但当这项权利遇上千亿参数的大语言模型，事情变得复杂得多。 ...

测试时训练：当模型在推理阶段继续学习会发生什么

2017年，Hinton和Plaut在论文中提出了"Fast Weights"的概念——一种在推理时快速更新的记忆机制。这个想法沉寂多年，直到2020年才被Sun等人重新挖掘，演变成Test-Time Training（TTT）——一种让模型在推理阶段继续学习的技术范式。如今，这项技术已经从视觉模型的域适应工具，发展为挑战Transformer霸主地位的新架构，甚至让语言模型在ARC抽象推理基准上达到人类水平。 ...

多模态大模型架构的五年演进：从CLIP的对齐革命到视觉语言融合的范式突破

2021年1月5日，OpenAI发布了一篇看似普通的论文。论文标题很长——《Learning Transferable Visual Models From Natural Language Supervision》，但核心贡献可以用一句话概括：用4亿对网络图片和描述文本，训练出了一个能"看懂"图像的模型。这个模型叫CLIP，它没有在当时引起轰动，却在随后的五年里重塑了整个人工智能领域的技术路线。 ...