目标检测技术的二十年演进:从滑动窗口到端到端的范式革命

当计算机第一次"看见"人脸 2001年,Paul Viola和Michael Jones在CVPR上发表了一篇题为《Rapid Object Detection using a Boosted Cascade of Simple Features》的论文。这篇论文解决了一个困扰计算机视觉领域数十年的问题:如何让计算机实时地检测图像中的人脸。 ...

17 min · 8450 words

图像超分辨率:为什么AI能把模糊照片变清晰?从插值到扩散模型的技术突围

一张低分辨率照片放大后变得模糊,这是再正常不过的事情。但近年来,AI似乎能够"凭空"创造出照片放大后本不存在的细节——毛孔纹理、发丝走向、织物纤维。这种近乎魔法的能力背后,是一个困扰计算机视觉领域数十年的数学难题,以及三代技术范式的迭代演进。 ...

20 min · 10011 words

Logit Lens:Transformer的每一层都在"想"什么

当一个大语言模型输出"巴黎是法国的首都"时,这句话并非在最后一层突然涌现。在Transformer的数十层神经网络中,每一层都在逐步构建、修正、精炼这个预测。但如何窥视这个"黑箱"内部的思考过程? ...

18 min · 8815 words

张量:深度学习的数据容器

打开任何一个深度学习框架的代码,你几乎立刻会碰到张量这个词。PyTorch文档的第一行示例代码是创建张量,TensorFlow的名字本身就在暗示张量的核心地位。但当你试图理解"张量究竟是什么"时,可能会发现答案飘忽不定——有人说它是矩阵的推广,有人提到坐标变换下的不变性,还有人干脆说"就是多维数组"。 ...

15 min · 7196 words

变长序列处理:大模型如何应对长短不一的输入

把三句话塞进一个batch里,会发生什么? “我是一只猫"有4个token,“今天天气真好"也是4个,而"人工智能正在改变世界,从医疗到教育,从交通到金融"则有18个。GPU需要把它们打包成一个规整的tensor——而tensor必须是矩形的。 ...

16 min · 7676 words

Layer Normalization的可学习参数:为什么gamma和beta正在从大模型中消失

Layer Normalization的可学习参数:为什么gamma和beta正在从大模型中消失 2016年,Jimmy Lei Ba、Jamie Ryan Kiros和Geoffrey Hinton在论文《Layer Normalization》中提出了一个看似简单的设计:在归一化操作后添加两个可学习参数gamma和beta。九年后的今天,LLaMA、Mistral、Gemma等主流大模型都在悄悄移除这些参数——或者至少移除其中一部分。这个趋势背后隐藏着怎样的技术逻辑? ...

13 min · 6440 words

大模型为何读不懂"不"字:从注意力机制到训练数据的否定词困境

当你告诉大模型"不要在代码中使用eval函数",它偏偏生成了包含eval的代码;当你问"哪些水果不是红色的",它列出了红苹果和草莓。这不是个例,而是一个困扰了自然语言处理领域十年的顽疾。 ...

17 min · 8331 words