为什么视频通话总有回声——从卫星通信到深度学习的六十年技术突围

1962年7月10日,一颗名为Telstar的卫星从佛罗里达州卡纳维拉尔角升空。这是人类历史上第一颗通信卫星,它让跨大西洋电视直播成为现实。但当工程师们首次测试卫星电话时,一个奇怪的现象出现了:说话者听到自己的声音在半秒后返回,像是幽灵般的回响。 ...

26 min · 12602 words

目标检测技术的二十年演进:从滑动窗口到端到端的范式革命

当计算机第一次"看见"人脸 2001年,Paul Viola和Michael Jones在CVPR上发表了一篇题为《Rapid Object Detection using a Boosted Cascade of Simple Features》的论文。这篇论文解决了一个困扰计算机视觉领域数十年的问题:如何让计算机实时地检测图像中的人脸。 ...

17 min · 8450 words

语音识别是如何工作的:从声波到文字的七十年技术演进

当语音助手听不懂你在说什么 2016年,一段视频在YouTube上疯传:一位苏格兰口音的用户尝试让Siri设置一个闹钟,然而无论他重复多少遍"set an alarm for seven",Siri始终坚持理解为"sending a lamb for Kevin"。这个看似滑稽的场景,实际上揭示了语音识别技术面临的一个根本性挑战:在声学信号与语义理解之间,存在着一条充满歧义的鸿沟。 ...

25 min · 12376 words

从物理隔绝到智能分离:噪声消除技术的七十年演进

1978年,在一架从苏黎世飞往波士顿的跨大西洋航班上,一位工程师戴着耳机试图欣赏音乐,却发现引擎的轰鸣声几乎淹没了所有细节。这位工程师叫Amar Bose,麻省理工学院教授。他后来花费了十一年时间和超过五千万美元,最终在1989年推出了世界上第一款商用主动降噪耳机。 ...

18 min · 8993 words

图像超分辨率:为什么AI能把模糊照片变清晰?从插值到扩散模型的技术突围

一张低分辨率照片放大后变得模糊,这是再正常不过的事情。但近年来,AI似乎能够"凭空"创造出照片放大后本不存在的细节——毛孔纹理、发丝走向、织物纤维。这种近乎魔法的能力背后,是一个困扰计算机视觉领域数十年的数学难题,以及三代技术范式的迭代演进。 ...

20 min · 10011 words

张量:深度学习的数据容器

打开任何一个深度学习框架的代码,你几乎立刻会碰到张量这个词。PyTorch文档的第一行示例代码是创建张量,TensorFlow的名字本身就在暗示张量的核心地位。但当你试图理解"张量究竟是什么"时,可能会发现答案飘忽不定——有人说它是矩阵的推广,有人提到坐标变换下的不变性,还有人干脆说"就是多维数组"。 ...

15 min · 7196 words

归一化层的双重身份:为什么BatchNorm在训练和推理时判若两人

2017年,一个深度学习团队在部署图像分类模型时遇到了诡异的现象:模型在验证集上的准确率比训练时低了近5个百分点。他们检查了数据预处理、超参数设置、模型架构,一切看起来都正常。最后,一位细心的工程师发现了一个被忽视的细节——在验证循环中,他们忘记了调用model.eval()。 ...

16 min · 7741 words