人工智能 | Answer

扩散模型如何从噪声中还原图像：从DDPM到Stable Diffusion的技术演进

2022年8月，一个名为Stable Diffusion的图像生成模型悄然开源发布。短短几个月内，它席卷了整个互联网——从设计师的工作流到普通用户的社交媒体，AI绘画不再是科技公司的专利，而是人人触手可及的工具。这场革命的核心，是一项被称为"扩散模型"的技术。 ...

合成数据训练大模型：从Phi的成功到模型崩溃的十五年博弈

2023年6月，微软研究院发布了一篇标题充满争议性的论文：《Textbooks Are All You Need》。论文介绍了phi-1模型——一个仅有13亿参数的语言模型，在HumanEval代码基准测试上达到了50.6%的pass@1准确率，超越了拥有超过100倍参数的模型。秘密在于它的训练数据：70亿token的网页数据和10亿token由GPT-3.5生成的合成教科书数据。 ...

RAG重排序：为什么多花几毫秒能让检索准确率提升40%

2023年，一篇来自斯坦福大学的研究揭示了一个令人深思的现象：当大语言模型的上下文窗口被大量文档填充时，模型从中间位置检索信息的能力反而不如不提供任何上下文时——这就是著名的"Lost in the Middle"效应。这个发现直接击中了RAG系统的软肋：如果我们为了提高召回率而返回更多文档，却反而降低了LLM的推理质量，那这个权衡还有什么意义？ ...

大模型为何总被一句话越狱：从角色扮演到梯度优化的攻防技术演进

2023年2月，Reddit上一位用户发现，只需让ChatGPT扮演一个名为"DAN"（Do Anything Now）的角色，就能绕过模型的安全限制，让它回答本应拒绝的问题。这个看似简单的角色扮演提示，揭示了深度学习模型安全对齐的深层脆弱性。 ...

KV Cache压缩如何让大模型突破百万token上下文——从Attention Sink到Heavy Hitter的技术突围

一个70亿参数的语言模型，在处理128K上下文时，光是KV Cache就要占用约40GB显存——这还没有算上模型权重本身。当大模型的上下文窗口从4K扩展到128K甚至更长时，一个看似不可逾越的障碍横亘在研究者和工程师面前：KV Cache的内存占用随序列长度线性增长，迅速吞噬有限的GPU显存。 ...

为什么神经网络学会了新知识就会忘记旧知识：从灾难性遗忘到持续学习的技术突围

1989年，心理学家Michael McCloskey和Neal Cohen做了一个看似简单的实验：让一个三层神经网络先学会做一组加减法题目，再学习另一组。结果令人震惊——当网络掌握了第二组题目后，对第一组的正确率从接近100%暴跌到10%以下。他们给这种现象起了一个名字：灾难性干扰（Catastrophic Interference），后来更常被称为灾难性遗忘。 ...

为何大模型总忽略中间内容：从Lost in the Middle到注意力盆地的技术解密

一个检索增强生成(RAG)系统为回答用户问题，从知识库中检索了10篇相关文档。其中第6篇文档包含了正确答案的关键信息。然而，模型最终输出的答案却是错的——它"看到"了放在第1篇和第10篇的干扰信息，却完全忽略了中间那篇真正有用的文档。 ...