扩散模型如何从噪声中还原图像:从DDPM到Stable Diffusion的技术演进

2022年8月,一个名为Stable Diffusion的图像生成模型悄然开源发布。短短几个月内,它席卷了整个互联网——从设计师的工作流到普通用户的社交媒体,AI绘画不再是科技公司的专利,而是人人触手可及的工具。这场革命的核心,是一项被称为"扩散模型"的技术。 ...

15 min · 7252 words

不是所有 Token 都值得被同等对待:Mixture-of-Depths 如何重塑 Transformer 的计算范式

传统 Transformer 有一个很少有人质疑的设计假设:序列中的每一个 token,无论其重要性如何,都必须经过完全相同数量的层进行处理。一个简单的"的"字和一个承载核心语义的动词,在计算资源上被一视同仁。这种"计算平均主义"在大模型时代显得尤为奢侈——当参数量飙升至千亿级别,每一个不必要的 FLOP 都在消耗真金白银。 ...

11 min · 5443 words

为什么神经网络学会了新知识就会忘记旧知识:从灾难性遗忘到持续学习的技术突围

1989年,心理学家Michael McCloskey和Neal Cohen做了一个看似简单的实验:让一个三层神经网络先学会做一组加减法题目,再学习另一组。结果令人震惊——当网络掌握了第二组题目后,对第一组的正确率从接近100%暴跌到10%以下。他们给这种现象起了一个名字:灾难性干扰(Catastrophic Interference),后来更常被称为灾难性遗忘。 ...

13 min · 6479 words

零训练成本的多任务融合:从Task Arithmetic到TIES-Merging的模型合并革命

Hugging Face 上托管着超过50万个预训练模型,每天都有新的微调版本被上传。一个团队可能为文本分类训练了BERT,另一个团队为命名实体识别微调了T5,第三个团队为情感分析优化了RoBERTa。当需要构建一个同时具备这三种能力的系统时,传统做法是部署三个独立模型——但这意味着三倍的存储成本、三倍的GPU显存占用和三倍的推理延迟。 ...

7 min · 3356 words

测试时训练:当模型在推理阶段继续学习会发生什么

2017年,Hinton和Plaut在论文中提出了"Fast Weights"的概念——一种在推理时快速更新的记忆机制。这个想法沉寂多年,直到2020年才被Sun等人重新挖掘,演变成Test-Time Training(TTT)——一种让模型在推理阶段继续学习的技术范式。如今,这项技术已经从视觉模型的域适应工具,发展为挑战Transformer霸主地位的新架构,甚至让语言模型在ARC抽象推理基准上达到人类水平。 ...

9 min · 4412 words

从Transformer的二次复杂度困境到Mamba的线性突围:状态空间模型如何重塑序列建模

2023年12月,卡内基梅隆大学的Albert Gu和普林斯顿大学的Tri Dao在arXiv上发表了一篇论文,声称首次实现了"线性时间的Transformer级别性能"。这篇论文的标题很朴素——《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》,但其展示的数据却引发了广泛关注:在百万级token长度上,Mamba的推理吞吐量达到同规模Transformer的5倍。 ...

11 min · 5104 words

Transformer为何选择LayerNorm而不是BatchNorm:从序列数据特性到梯度稳定性的深度解析

2015年,Sergey Ioffe和Christian Szegedy在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中提出了批归一化(Batch Normalization)。这项技术在ImageNet分类任务上将训练步数减少了14倍,迅速成为计算机视觉领域的标配。然而,当Transformer架构在2017年横空出世时,论文作者们却选择了另一种归一化方式——层归一化(Layer Normalization)。这个选择并非偶然,背后隐藏着NLP数据与CV数据的本质差异,以及深度网络训练稳定性的深刻洞见。 ...

11 min · 5118 words