语音识别是如何工作的:从声波到文字的七十年技术演进
当语音助手听不懂你在说什么 2016年,一段视频在YouTube上疯传:一位苏格兰口音的用户尝试让Siri设置一个闹钟,然而无论他重复多少遍"set an alarm for seven",Siri始终坚持理解为"sending a lamb for Kevin"。这个看似滑稽的场景,实际上揭示了语音识别技术面临的一个根本性挑战:在声学信号与语义理解之间,存在着一条充满歧义的鸿沟。 ...
当语音助手听不懂你在说什么 2016年,一段视频在YouTube上疯传:一位苏格兰口音的用户尝试让Siri设置一个闹钟,然而无论他重复多少遍"set an alarm for seven",Siri始终坚持理解为"sending a lamb for Kevin"。这个看似滑稽的场景,实际上揭示了语音识别技术面临的一个根本性挑战:在声学信号与语义理解之间,存在着一条充满歧义的鸿沟。 ...
当一个新的大模型发布时,我们如何判断它到底有多强? 模型技术报告上那些眼花缭乱的数字——MMLU 92%、GSM8K 95%、HumanEval 88%——究竟意味着什么?为什么一个在基准测试中表现优异的模型,实际使用时却常常令人失望? ...
你在嘈杂的咖啡馆里对着手机说"导航回家",屏幕上却显示"导航加回"。你清晰地念出同事的名字"李明",语音助手却把它听成了"黎明"。你在会议中想用语音转文字记录重要内容,结果输出的文本里出现了完全不存在的句子。 ...