Transformer

目标检测技术的二十年演进：从滑动窗口到端到端的范式革命

当计算机第一次"看见"人脸 2001年，Paul Viola和Michael Jones在CVPR上发表了一篇题为《Rapid Object Detection using a Boosted Cascade of Simple Features》的论文。这篇论文解决了一个困扰计算机视觉领域数十年的问题：如何让计算机实时地检测图像中的人脸。 ...

图像超分辨率：为什么AI能把模糊照片变清晰？从插值到扩散模型的技术突围

一张低分辨率照片放大后变得模糊，这是再正常不过的事情。但近年来，AI似乎能够"凭空"创造出照片放大后本不存在的细节——毛孔纹理、发丝走向、织物纤维。这种近乎魔法的能力背后，是一个困扰计算机视觉领域数十年的数学难题，以及三代技术范式的迭代演进。 ...

Logit Lens：Transformer的每一层都在"想"什么

当一个大语言模型输出"巴黎是法国的首都"时，这句话并非在最后一层突然涌现。在Transformer的数十层神经网络中，每一层都在逐步构建、修正、精炼这个预测。但如何窥视这个"黑箱"内部的思考过程？ ...

张量：深度学习的数据容器

打开任何一个深度学习框架的代码，你几乎立刻会碰到张量这个词。PyTorch文档的第一行示例代码是创建张量，TensorFlow的名字本身就在暗示张量的核心地位。但当你试图理解"张量究竟是什么"时，可能会发现答案飘忽不定——有人说它是矩阵的推广，有人提到坐标变换下的不变性，还有人干脆说"就是多维数组"。 ...

变长序列处理：大模型如何应对长短不一的输入

把三句话塞进一个batch里，会发生什么？ “我是一只猫"有4个token，“今天天气真好"也是4个，而"人工智能正在改变世界，从医疗到教育，从交通到金融"则有18个。GPU需要把它们打包成一个规整的tensor——而tensor必须是矩形的。 ...

Layer Normalization的可学习参数：为什么gamma和beta正在从大模型中消失

Layer Normalization的可学习参数：为什么gamma和beta正在从大模型中消失 2016年，Jimmy Lei Ba、Jamie Ryan Kiros和Geoffrey Hinton在论文《Layer Normalization》中提出了一个看似简单的设计：在归一化操作后添加两个可学习参数gamma和beta。九年后的今天，LLaMA、Mistral、Gemma等主流大模型都在悄悄移除这些参数——或者至少移除其中一部分。这个趋势背后隐藏着怎样的技术逻辑？ ...

大模型为何读不懂"不"字：从注意力机制到训练数据的否定词困境

当你告诉大模型"不要在代码中使用eval函数"，它偏偏生成了包含eval的代码；当你问"哪些水果不是红色的"，它列出了红苹果和草莓。这不是个例，而是一个困扰了自然语言处理领域十年的顽疾。 ...