深度学习 | Answer

为什么视频通话总有回声——从卫星通信到深度学习的六十年技术突围

1962年7月10日，一颗名为Telstar的卫星从佛罗里达州卡纳维拉尔角升空。这是人类历史上第一颗通信卫星，它让跨大西洋电视直播成为现实。但当工程师们首次测试卫星电话时，一个奇怪的现象出现了：说话者听到自己的声音在半秒后返回，像是幽灵般的回响。 ...

目标检测技术的二十年演进：从滑动窗口到端到端的范式革命

当计算机第一次"看见"人脸 2001年，Paul Viola和Michael Jones在CVPR上发表了一篇题为《Rapid Object Detection using a Boosted Cascade of Simple Features》的论文。这篇论文解决了一个困扰计算机视觉领域数十年的问题：如何让计算机实时地检测图像中的人脸。 ...

语音识别是如何工作的：从声波到文字的七十年技术演进

当语音助手听不懂你在说什么 2016年，一段视频在YouTube上疯传：一位苏格兰口音的用户尝试让Siri设置一个闹钟，然而无论他重复多少遍"set an alarm for seven"，Siri始终坚持理解为"sending a lamb for Kevin"。这个看似滑稽的场景，实际上揭示了语音识别技术面临的一个根本性挑战：在声学信号与语义理解之间，存在着一条充满歧义的鸿沟。 ...

从物理隔绝到智能分离：噪声消除技术的七十年演进

1978年，在一架从苏黎世飞往波士顿的跨大西洋航班上，一位工程师戴着耳机试图欣赏音乐，却发现引擎的轰鸣声几乎淹没了所有细节。这位工程师叫Amar Bose，麻省理工学院教授。他后来花费了十一年时间和超过五千万美元，最终在1989年推出了世界上第一款商用主动降噪耳机。 ...

图像超分辨率：为什么AI能把模糊照片变清晰？从插值到扩散模型的技术突围

一张低分辨率照片放大后变得模糊，这是再正常不过的事情。但近年来，AI似乎能够"凭空"创造出照片放大后本不存在的细节——毛孔纹理、发丝走向、织物纤维。这种近乎魔法的能力背后，是一个困扰计算机视觉领域数十年的数学难题，以及三代技术范式的迭代演进。 ...

张量：深度学习的数据容器

打开任何一个深度学习框架的代码，你几乎立刻会碰到张量这个词。PyTorch文档的第一行示例代码是创建张量，TensorFlow的名字本身就在暗示张量的核心地位。但当你试图理解"张量究竟是什么"时，可能会发现答案飘忽不定——有人说它是矩阵的推广，有人提到坐标变换下的不变性，还有人干脆说"就是多维数组"。 ...

归一化层的双重身份：为什么BatchNorm在训练和推理时判若两人

2017年，一个深度学习团队在部署图像分类模型时遇到了诡异的现象：模型在验证集上的准确率比训练时低了近5个百分点。他们检查了数据预处理、超参数设置、模型架构，一切看起来都正常。最后，一位细心的工程师发现了一个被忽视的细节——在验证循环中，他们忘记了调用model.eval()。 ...