为什么AI绘画的手总是画错:从解剖学约束到注意力机制的技术困境

2022年夏天,一幅AI生成的图像在互联网上疯传:画面中央是一位女性,她的右手有七根手指,左手的手指像融化的蜡烛一样缠绕在一起。这不是某个先锋艺术家的刻意创作,而是当时最先进的图像生成模型DALL-E 2的"杰作"。 ...

11 min · 5482 words

推荐系统如何从海量数据中读懂你的心思:从协同过滤到深度学习的三十年技术突围

2006年10月,Netflix做了一件在当时看起来疯狂的事:公开发布了1亿条匿名用户评分数据,悬赏100万美元征集能把推荐准确率提升10%的算法。这个看似简单的数字背后,是一场持续三年的算法马拉松,吸引了来自186个国家的超过4万支队伍参赛。最终获胜的方案融合了超过100个子模型,技术报告长达92页。 ...

15 min · 7463 words

语音助手为何总是听不懂你说的话从声学模型到语言模型的技术困境

你在嘈杂的咖啡馆里对着手机说"导航回家",屏幕上却显示"导航加回"。你清晰地念出同事的名字"李明",语音助手却把它听成了"黎明"。你在会议中想用语音转文字记录重要内容,结果输出的文本里出现了完全不存在的句子。 ...

13 min · 6158 words

OCR识别为何有时准确有时离谱从图像预处理到深度学习的六十年技术博弈

一份清晰的打印文档,OCR(光学字符识别)软件能以超过99%的准确率提取文本。但换一张手机拍摄的名片,同样的软件可能把"张三"识别成"张王",把电话号码中的"8"读成"3"。更令人困惑的是,同一张图片用不同的OCR引擎处理,结果可能天差地别。 ...

13 min · 6390 words

一个字符的救赎:拼写检查如何在毫秒间从编辑距离走到深度学习

1961年,MIT的计算机科学家Lester Earnest面临一个看似琐碎的问题:如何让计算机识别打字错误的单词?当时的计算机还是房间大小的庞然大物,输入依靠打孔纸带,一个拼写错误可能意味着重新穿孔整段程序。Earnest开发了一个简单的程序,它能将文档中的每个单词与预定义的词典进行比对——这便是人类历史上第一个拼写检查器的雏形。 ...

13 min · 6449 words