深度学习 | Answer

扩散模型如何从噪声中还原图像：从DDPM到Stable Diffusion的技术演进

2022年8月，一个名为Stable Diffusion的图像生成模型悄然开源发布。短短几个月内，它席卷了整个互联网——从设计师的工作流到普通用户的社交媒体，AI绘画不再是科技公司的专利，而是人人触手可及的工具。这场革命的核心，是一项被称为"扩散模型"的技术。 ...

不是所有 Token 都值得被同等对待：Mixture-of-Depths 如何重塑 Transformer 的计算范式

传统 Transformer 有一个很少有人质疑的设计假设：序列中的每一个 token，无论其重要性如何，都必须经过完全相同数量的层进行处理。一个简单的"的"字和一个承载核心语义的动词，在计算资源上被一视同仁。这种"计算平均主义"在大模型时代显得尤为奢侈——当参数量飙升至千亿级别，每一个不必要的 FLOP 都在消耗真金白银。 ...

为什么神经网络学会了新知识就会忘记旧知识：从灾难性遗忘到持续学习的技术突围

1989年，心理学家Michael McCloskey和Neal Cohen做了一个看似简单的实验：让一个三层神经网络先学会做一组加减法题目，再学习另一组。结果令人震惊——当网络掌握了第二组题目后，对第一组的正确率从接近100%暴跌到10%以下。他们给这种现象起了一个名字：灾难性干扰（Catastrophic Interference），后来更常被称为灾难性遗忘。 ...

零训练成本的多任务融合：从Task Arithmetic到TIES-Merging的模型合并革命

Hugging Face 上托管着超过50万个预训练模型，每天都有新的微调版本被上传。一个团队可能为文本分类训练了BERT，另一个团队为命名实体识别微调了T5，第三个团队为情感分析优化了RoBERTa。当需要构建一个同时具备这三种能力的系统时，传统做法是部署三个独立模型——但这意味着三倍的存储成本、三倍的GPU显存占用和三倍的推理延迟。 ...

测试时训练：当模型在推理阶段继续学习会发生什么

2017年，Hinton和Plaut在论文中提出了"Fast Weights"的概念——一种在推理时快速更新的记忆机制。这个想法沉寂多年，直到2020年才被Sun等人重新挖掘，演变成Test-Time Training（TTT）——一种让模型在推理阶段继续学习的技术范式。如今，这项技术已经从视觉模型的域适应工具，发展为挑战Transformer霸主地位的新架构，甚至让语言模型在ARC抽象推理基准上达到人类水平。 ...

从Transformer的二次复杂度困境到Mamba的线性突围：状态空间模型如何重塑序列建模

2023年12月，卡内基梅隆大学的Albert Gu和普林斯顿大学的Tri Dao在arXiv上发表了一篇论文，声称首次实现了"线性时间的Transformer级别性能"。这篇论文的标题很朴素——《Mamba: Linear-Time Sequence Modeling with Selective State Spaces》，但其展示的数据却引发了广泛关注：在百万级token长度上，Mamba的推理吞吐量达到同规模Transformer的5倍。 ...

Transformer为何选择LayerNorm而不是BatchNorm：从序列数据特性到梯度稳定性的深度解析

2015年，Sergey Ioffe和Christian Szegedy在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》中提出了批归一化（Batch Normalization）。这项技术在ImageNet分类任务上将训练步数减少了14倍，迅速成为计算机视觉领域的标配。然而，当Transformer架构在2017年横空出世时，论文作者们却选择了另一种归一化方式——层归一化（Layer Normalization）。这个选择并非偶然，背后隐藏着NLP数据与CV数据的本质差异，以及深度网络训练稳定性的深刻洞见。 ...