扩散模型如何从噪声中还原图像:从DDPM到Stable Diffusion的技术演进
2022年8月,一个名为Stable Diffusion的图像生成模型悄然开源发布。短短几个月内,它席卷了整个互联网——从设计师的工作流到普通用户的社交媒体,AI绘画不再是科技公司的专利,而是人人触手可及的工具。这场革命的核心,是一项被称为"扩散模型"的技术。 ...
2022年8月,一个名为Stable Diffusion的图像生成模型悄然开源发布。短短几个月内,它席卷了整个互联网——从设计师的工作流到普通用户的社交媒体,AI绘画不再是科技公司的专利,而是人人触手可及的工具。这场革命的核心,是一项被称为"扩散模型"的技术。 ...
2023年6月,微软研究院发布了一篇标题充满争议性的论文:《Textbooks Are All You Need》。论文介绍了phi-1模型——一个仅有13亿参数的语言模型,在HumanEval代码基准测试上达到了50.6%的pass@1准确率,超越了拥有超过100倍参数的模型。秘密在于它的训练数据:70亿token的网页数据和10亿token由GPT-3.5生成的合成教科书数据。 ...
2023年,一篇来自斯坦福大学的研究揭示了一个令人深思的现象:当大语言模型的上下文窗口被大量文档填充时,模型从中间位置检索信息的能力反而不如不提供任何上下文时——这就是著名的"Lost in the Middle"效应。这个发现直接击中了RAG系统的软肋:如果我们为了提高召回率而返回更多文档,却反而降低了LLM的推理质量,那这个权衡还有什么意义? ...
2023年2月,Reddit上一位用户发现,只需让ChatGPT扮演一个名为"DAN"(Do Anything Now)的角色,就能绕过模型的安全限制,让它回答本应拒绝的问题。这个看似简单的角色扮演提示,揭示了深度学习模型安全对齐的深层脆弱性。 ...
一个70亿参数的语言模型,在处理128K上下文时,光是KV Cache就要占用约40GB显存——这还没有算上模型权重本身。当大模型的上下文窗口从4K扩展到128K甚至更长时,一个看似不可逾越的障碍横亘在研究者和工程师面前:KV Cache的内存占用随序列长度线性增长,迅速吞噬有限的GPU显存。 ...
1989年,心理学家Michael McCloskey和Neal Cohen做了一个看似简单的实验:让一个三层神经网络先学会做一组加减法题目,再学习另一组。结果令人震惊——当网络掌握了第二组题目后,对第一组的正确率从接近100%暴跌到10%以下。他们给这种现象起了一个名字:灾难性干扰(Catastrophic Interference),后来更常被称为灾难性遗忘。 ...
一个检索增强生成(RAG)系统为回答用户问题,从知识库中检索了10篇相关文档。其中第6篇文档包含了正确答案的关键信息。然而,模型最终输出的答案却是错的——它"看到"了放在第1篇和第10篇的干扰信息,却完全忽略了中间那篇真正有用的文档。 ...