1978年,在一架从苏黎世飞往波士顿的跨大西洋航班上,一位工程师戴着耳机试图欣赏音乐,却发现引擎的轰鸣声几乎淹没了所有细节。这位工程师叫Amar Bose,麻省理工学院教授。他后来花费了十一年时间和超过五千万美元,最终在1989年推出了世界上第一款商用主动降噪耳机。

这个看似简单的"让声音消失"的问题,实际上困扰了人类近一个世纪。从1933年Paul Lueg在德国提交的第一份主动噪声控制专利,到2024年华盛顿大学用神经网络创造"声音气泡",噪声消除技术的演进揭示了一个深刻的技术规律:每一次突破都在重新定义"消除"这个概念的边界。

质量定律:被动隔音的物理铁律

在谈论"消除"噪声之前,首先要理解声音是如何传播的。声波本质上是空气分子的振动,当这种振动撞击到障碍物时,会发生反射、透射和吸收三种现象。

被动噪声控制的核心原理异常简单:用足够厚实的材料把声音挡在外面。这背后的数学基础是质量定律(Mass Law)。对于一个单层隔墙,其传声损失与频率和质量的对数成正比:

$$TL = 20 \log_{10}(f \cdot m) - 47$$

其中 $TL$ 是传声损失(单位dB),$f$ 是频率(Hz),$m$ 是面密度(kg/m²)。

这个公式揭示了一个残酷的现实:频率每降低一半,要达到同样的隔音效果,材料质量必须翻倍。这就是为什么低频噪声如此难以隔绝——100Hz的低频声波要达到与1000Hz中频相同的隔音量,需要十倍质量的隔墙材料。

graph TD
    A[声波入射] --> B{撞击障碍物}
    B --> C[反射]
    B --> D[透射]
    B --> E[吸收]
    C --> F[回声]
    D --> G[声能传递]
    E --> H[转化为热能]
    
    style A fill:#e1f5fe
    style B fill:#fff3e0
    style C fill:#f3e5f5
    style D fill:#e8f5e9
    style E fill:#fff8e1

多孔吸声材料(如泡沫、玻璃棉)的工作原理则完全不同。声波进入材料内部后,空气分子在孔隙中振动产生粘滞摩擦,将声能转化为热能。但这种方法同样受限于物理规律:吸声材料的厚度至少要达到声波波长的四分之一才能有效吸收。对于100Hz的低频声波,波长约为3.4米,这意味着需要接近1米厚的吸声材料才能起效。

graph LR
    subgraph 频率与隔音需求
        A1[100Hz 低频] --> B1[需要10倍质量]
        A2[1000Hz 中频] --> B2[标准质量]
        A3[10000Hz 高频] --> B3[轻松隔绝]
    end
    
    style A1 fill:#ffcdd2
    style A2 fill:#fff9c4
    style A3 fill:#c8e6c9

被动降噪的局限性在20世纪30年代就已被充分认识。当工程师们面对飞机、船舶、工业设备的低频噪声问题时,传统的"加厚墙壁"方案在重量、体积和成本上都变得不可接受。这正是主动噪声控制诞生的历史背景。

声波干涉:用声波对抗声波

1933年,德国发明家Paul Lueg提交了一份名为"Process of Silencing Sound Oscillations"的专利申请。这份专利首次系统描述了主动噪声控制的基本原理:产生一个与原始噪声振幅相等、相位相反的声波,让两者相互抵消

从物理角度看,这是一个优雅而简洁的方案。当两个声波在空间中相遇时,其叠加遵循线性叠加原理。如果两个波恰好相位相差180度(即反相),它们的叠加结果在理想情况下为零——声能"消失"了。

但Lueg的专利在当时只能停留在纸面上。实现主动降噪需要三个关键条件:精确测量原始噪声、实时计算反相声波、在最短时间内播放出来。这三个环节中的任何一个出现延迟或误差,整个系统就会失效——甚至可能反而增强噪声。

直到1960年代,自适应滤波理论的成熟才让主动噪声控制成为可能。1975年,Bernard Widrow等人提出了最小均方(LMS)算法,为实时自适应噪声控制奠定了理论基础。随后发展出的滤波-x最小均方算法(Filtered-x LMS, FXLMS)成为主动噪声控制的核心算法,至今仍在广泛应用。

FXLMS算法的核心思想是通过自适应滤波器实时学习噪声的特性,并产生相应的反相信号。其权重更新公式为:

$$w(n+1) = w(n) + \mu \cdot e(n) \cdot x'(n)$$

其中 $w(n)$ 是滤波器权重向量,$\mu$ 是步长参数,$e(n)$ 是误差信号,$x'(n)$ 是经过次级路径滤波后的参考信号。

graph LR
    A[噪声源] --> B[参考麦克风]
    B --> C[自适应滤波器]
    C --> D[反相声波生成]
    D --> E[误差麦克风]
    E --> F[LMS算法更新]
    F --> C
    A --> G[声波叠加]
    D --> G
    
    style A fill:#ffcdd2
    style C fill:#bbdefb
    style F fill:#c8e6c9

然而,主动噪声控制面临着根本性的物理限制。问题的核心在于延迟。从噪声到达参考麦克风,到系统计算出反相信号并通过扬声器播放,这中间存在不可避免的时间延迟。而在这段时间内,噪声已经传播了一定距离。

graph TD
    subgraph ANC延迟链
        A[噪声到达] -->|t0| B[麦克风采集]
        B -->|t1| C[ADC转换]
        C -->|t2| D[算法计算]
        D -->|t3| E[DAC输出]
        E -->|t4| F[扬声器播放]
        F -->|t5| G[声波叠加]
    end
    
    H[总延迟 = t1+t2+t3+t4+t5]
    
    style A fill:#ffcdd2
    style G fill:#c8e6c9
    style H fill:#fff9c4

假设系统总延迟为 $t$ 毫秒,声速约为340米/秒,那么噪声在这段时间内已经传播了 $0.34t$ 米。对于1000Hz的中频声波(波长约0.34米),仅仅1毫秒的延迟就对应一个波长的相位漂移——这意味着反相信号可能已经从"精确抵消"变成了"精确增强"。

这就是为什么主动降噪对低频特别有效,而对高频几乎无能为力。低频声波波长长(100Hz波长约3.4米),几毫秒的延迟只对应很小的相位误差;而高频声波波长短(4000Hz波长约8.5厘米),同样的延迟就可能导致灾难性的相位失配。

graph LR
    subgraph 频率vs降噪效果
        A1[低频 20-500Hz] --> B1[高效降噪]
        A2[中频 500-2000Hz] --> B2[中等效果]
        A3[高频 2000Hz以上] --> B3[几乎无效]
    end
    
    style A1 fill:#c8e6c9
    style A2 fill:#fff9c4
    style A3 fill:#ffcdd2

1989年,Bose推出的首款航空降噪耳机正是基于这一原理设计。它针对飞机引擎的低频轰鸣(主要能量集中在100-500Hz)进行优化,而对语音频段的高频成分几乎不产生作用。这个设计决策至今仍是降噪耳机的标准做法。

数字革命:从模拟到计算的范式转变

1990年代,数字信号处理技术的成熟开启了噪声消除的新纪元。与主动噪声控制的"实时反相"思路不同,数字降噪采用了一套完全不同的方法论:先分析,后处理,再重建

短时傅里叶变换(Short-Time Fourier Transform, STFT)是这一范式的数学基础。它将时域信号分割成短片段,对每个片段进行傅里叶变换,从而获得信号的时频表示:

$$X(t, f) = \int_{-\infty}^{\infty} x(\tau) w(\tau - t) e^{-j2\pi f\tau} d\tau$$

其中 $w(\tau - t)$ 是窗函数,通常选用汉明窗或汉宁窗来减少频谱泄漏。

有了时频表示,就可以应用谱减法(Spectral Subtraction)进行降噪。这一方法由Steven Boll于1979年提出,其核心假设是:噪声的频谱在无语音段是相对稳定的。通过估计噪声的频谱功率,然后从含噪信号的频谱中减去它,就可以得到"干净"的语音频谱。

$$|S(t, f)|^2 = |X(t, f)|^2 - \alpha \cdot |N(f)|^2$$

其中 $|S(t, f)|^2$ 是估计的语音功率谱,$|X(t, f)|^2$ 是含噪信号功率谱,$|N(f)|^2$ 是估计的噪声功率谱,$\alpha$ 是过减因子。

graph LR
    A[含噪语音] --> B[STFT变换]
    B --> C[时频表示]
    C --> D[噪声估计]
    D --> E[谱减操作]
    E --> F[增益计算]
    F --> G[ISTFT重建]
    G --> H[增强语音]
    
    style A fill:#ffcdd2
    style H fill:#c8e6c9

谱减法的局限性很快显现出来。当谱减结果为负值时(这种情况在低信噪比时频繁出现),必须将其截断为零,这会导致所谓的"音乐噪声"——一种听起来像随机音符的伪影。更重要的是,谱减法假设噪声是平稳的,但现实中的噪声——键盘敲击、关门声、突然的喇叭声——几乎从来不是平稳的。

心理声学(Psychoacoustics)的引入为数字降噪提供了新的思路。人类听觉系统并非对声音的所有成分都同样敏感。一个强音可以"掩盖"其附近频率的弱音,这种现象称为掩蔽效应(Masking Effect)。

掩蔽效应的数学描述相当复杂,但其核心可以简化为:在强音附近的一个临界频带内,低于掩蔽阈值的频率成分可以被安全地移除,而人耳不会察觉任何差异。这一原理不仅用于降噪,也是MP3等有损音频压缩算法的基础。

WebRTC的音频处理模块代表了数字降噪技术的工程巅峰。它集成了声学回声消除(AEC)、噪声抑制(NS)、自动增益控制(AGC)和语音活动检测(VAD)等多种功能,形成了一个完整的实时语音处理流水线。

graph TD
    subgraph WebRTC音频处理流水线
        A[原始音频] --> B[声学回声消除 AEC]
        B --> C[噪声抑制 NS]
        C --> D[自动增益控制 AGC]
        D --> E[语音活动检测 VAD]
        E --> F[处理后音频]
    end
    
    style A fill:#ffcdd2
    style F fill:#c8e6c9

其中的噪声抑制模块采用了基于统计模型的谱减方法,结合了最小均方误差短时谱幅度估计(MMSE-STSA)等先进技术。WebRTC的AEC模块则使用了频域自适应滤波器,能够处理长达数百毫秒的回声路径——这对于视频会议这种典型应用场景至关重要。

但数字降噪同样面临着根本性的限制。所有基于频域处理的方法都需要对信号进行分帧和加窗,这引入了不可消除的算法延迟。对于实时通信应用,这个延迟通常被控制在20-40毫秒之间——刚好处于人类感知的临界点。

更重要的是,传统数字降噪方法本质上是在做"减法":识别噪声成分并予以移除。这种方法在噪声特性相对固定时表现良好,但面对瞬态噪声、多人交谈等复杂场景时,往往会顾此失彼——要么噪声残留,要么语音受损。

神经网络的逆袭:从不可能到现实

2017年,Mozilla的Jean-Marc Valin发布了一个名为RNNoise的项目,开启了一个新时代。RNNoise的核心创新在于:将传统信号处理与深度学习相结合,用神经网络替代频谱增益估计

RNNoise并非第一个尝试用神经网络降噪的项目,但它解决了一个关键问题:计算效率。传统的深度学习语音增强模型动辄需要数十亿次浮点运算,在GPU上运行尚可,但要在嵌入式设备上实现实时处理几乎不可能。

RNNoise的解决方案极为精巧。它没有让神经网络处理原始音频波形,而是先通过传统信号处理将音频分解为22个频带的能量包络,然后用一个轻量级的循环神经网络(GRU)估计每个频带的增益。最后,通过传统的频域滤波器应用这些增益。

这种方法将计算复杂度降低了三个数量级。在普通CPU上,RNNoise每秒处理的音频只需要约2%的CPU时间——这意味着在笔记本上实时降噪不再需要专用硬件。

graph LR
    A[音频输入] --> B[频带分解]
    B --> C[特征提取]
    C --> D[GRU网络]
    D --> E[增益估计]
    E --> F[滤波应用]
    F --> G[增强输出]
    
    style D fill:#bbdefb
    style G fill:#c8e6c9

RNNoise的成功揭示了一个深刻的技术洞见:深度学习最擅长的是"决策",而非"变换"。让神经网络判断"这是噪声还是语音"比让它直接"生成干净语音"高效得多。

随后的研究沿着这一思路快速发展。2019年,Luo和Mesgarani提出的Conv-TasNet采用全卷积架构,在时域直接进行语音分离,避免了STFT的相位重建问题。其核心创新是用一维卷积编码器学习信号的表示,然后通过时域掩蔽实现源分离。

Conv-TasNet的分离网络使用堆叠的一维空洞卷积块,能够捕捉长程依赖关系而不需要循环层的高计算开销。在WSJ0-2mix基准测试上,它的性能首次超过了理想的时频掩蔽——这是一个里程碑式的突破。

目标语音提取(Target Speech Extraction)是另一个重要方向。与传统的"去除噪声"思路不同,这种方法旨在从混合信号中"提取特定说话人"的声音。这需要系统同时具备语音分离和说话人识别能力。

2024年,华盛顿大学的研究团队提出了"声音气泡"(Sound Bubble)概念。他们在普通降噪耳机上增加了六个额外的麦克风,配合双神经网络模型,能够根据声源距离选择性地保留或抑制声音。距离佩戴者2米以外的声音被自动过滤,而近处的对话则被清晰保留。

graph TD
    subgraph 声音气泡系统
        A[6个麦克风阵列] --> B[声源定位网络]
        B --> C[距离估计]
        C --> D{距离判断}
        D -->|小于2米| E[语音增强]
        D -->|大于2米| F[噪声抑制]
        E --> G[输出]
        F --> G
    end
    
    style A fill:#bbdefb
    style G fill:#c8e6c9

这一系统的技术核心在于声源定位与语音分离的联合建模。第一个神经网络负责检测声源方向和距离,第二个网络则在频域对目标方向的语音进行增强。两个网络共享编码器,在端到端训练中协同优化。

声音气泡的意义在于:它第一次在消费级设备上实现了空间选择性听觉——不是简单地"消除噪声",而是根据空间位置决定听什么。这标志着噪声消除技术从"消除"向"选择"的范式转变。

计算音频:当硬件为AI服务

“计算音频”(Computational Audio)这一概念在2020年随着特定厂商的产品发布而进入公众视野,但其技术内涵早已酝酿多年。其核心思想是:用强大的计算能力和智能算法,弥补物理声学器件的不足

传统音频系统的设计哲学是:选用最好的扬声器、最好的麦克风、最好的声学腔体,让硬件本身尽可能"正确"地工作。计算音频则采用完全不同的策略:硬件只负责"足够好"的信号采集和播放,剩下的交给算法处理。

以智能音箱为例,传统设计需要在有限的体积内塞入高品质的扬声器单元,同时解决低频响应不足、腔体谐振等问题。计算音频方案则允许使用较小、较便宜的扬声器,但配备高性能处理器和复杂的DSP算法,实时分析房间声学特性并动态调整均衡。

汽车座舱的主动噪声控制系统是计算音频的另一个典型应用。本田早在2000年代就开始在高端车型上部署主动噪声控制,通过多个麦克风监测发动机噪声和路面噪声,然后通过音响系统播放反相信号。这套系统需要处理从30Hz到500Hz的低频噪声,FXLMS算法的滤波器长度达到数百个抽头,对计算能力要求极高。

graph TD
    subgraph 汽车ANC系统
        A[发动机噪声] --> C[控制器]
        B[路面噪声] --> C
        D[麦克风监测] --> C
        C --> E[反相信号生成]
        E --> F[音响系统播放]
        F --> G[噪声抵消]
    end
    
    style C fill:#bbdefb
    style G fill:#c8e6c9

2024年,多家半导体厂商推出了集成AI加速器的汽车音频DSP芯片。这些芯片将传统的音频处理功能(均衡、动态范围压缩、声学回声消除)与神经网络推理能力集成在同一封装内,能够在毫秒级延迟下完成复杂的音频增强任务。

边缘计算(Edge Computing)为计算音频提供了另一个重要维度。传统方案通常需要将音频数据上传到云端进行处理,这对于实时应用来说是不可接受的——网络延迟本身就可能超过100毫秒。边缘方案则将神经网络推理放在本地设备上执行,端到端延迟可以控制在10毫秒以内。

但边缘计算面临严格的资源约束。一个典型的语音增强模型可能包含数百万参数,每秒需要数十亿次运算。在手机或耳机这种电池供电设备上,这意味着必须在模型复杂度和运行效率之间做出艰难权衡。

模型压缩技术为此提供了解决方案。知识蒸馏(Knowledge Distillation)将大型教师模型的知识迁移到小型学生模型;量化(Quantization)将32位浮点参数压缩为8位整数;剪枝(Pruning)移除对输出贡献较小的神经元。综合应用这些技术,可以将模型大小压缩一个数量级,同时保持可接受的性能。

graph LR
    subgraph 模型压缩技术
        A[原始模型] --> B[知识蒸馏]
        A --> C[量化]
        A --> D[剪枝]
        B --> E[压缩模型]
        C --> E
        D --> E
    end
    
    F[参数量: 数百万] --> G[参数量: 数十万]
    
    style A fill:#ffcdd2
    style E fill:#c8e6c9

延迟的诅咒:实时处理的硬约束

无论采用何种技术路线,音频处理都面临一个共同的硬约束:延迟

人类听觉系统对延迟极为敏感。研究显示,正常听力者能够检测到低至0.5毫秒的声波延迟差异。这种精确的时序感知能力是人类空间听觉定位的基础——双耳之间的微小时间差被大脑用来判断声源方向。

对于实时音频处理,延迟的容忍阈值取决于应用场景。音乐制作要求延迟控制在10毫秒以内;语音通信的容忍上限约为40毫秒;而对实时交互场景(如在线游戏),超过20毫秒的延迟就会开始影响用户体验。

graph LR
    subgraph 延迟容忍阈值
        A[音乐制作: <10ms] --> D[严格]
        B[实时交互: <20ms] --> E[中等]
        C[语音通信: <40ms] --> F[宽松]
    end
    
    style A fill:#ffcdd2
    style B fill:#fff9c4
    style C fill:#c8e6c9

延迟的来源是多方面的。模数转换(ADC)需要采样和量化时间;数字信号处理需要计算时间;数模转换(DAC)需要重建滤波时间;更不用说操作系统调度、内存访问等软件层面的开销。

神经网络的引入使延迟问题更加复杂。传统信号处理算法(如FIR滤波)的延迟通常等于滤波器长度;而循环神经网络需要完整的序列才能处理,这意味着要么接受更高延迟,要么采用因果模型牺牲性能。

RNNoise采用的策略是将神经网络限制在增益估计环节,而将滤波操作留给传统DSP。这种混合架构将神经网络延迟降低到帧级别(通常10-20毫秒),同时保持了深度学习的建模优势。

流式处理是另一个重要的技术方向。传统神经网络需要完整的输入序列才能处理,这在实时场景中不可行。流式神经网络采用因果设计,每个时间步只依赖当前和历史输入,而不需要"看到"未来的数据。当然,这会带来性能损失——未来信息对于语音增强是有价值的。

最新的研究方向包括使用状态空间模型(State Space Models)替代循环网络。这类模型能够以线性复杂度处理长序列,同时保持类似RNN的建模能力。2025年的研究表明,状态空间模型在实时语音增强任务上能够达到接近非因果模型的性能,同时保持极低的延迟。

评价的困境:指标与感知的鸿沟

如何评判一个语音增强系统的效果?这个问题远比看起来复杂。

传统评价指标如信噪比(SNR)和信号失真比(SDR)提供了客观的定量度量,但它们与人类主观感受的相关性有限。一段SNR很高的语音可能听起来非常不自然——典型的例子就是谱减法产生的"音乐噪声"。

感知评价语音质量(Perceptual Evaluation of Speech Quality, PESQ)试图弥合这一鸿沟。PESQ基于人类听觉感知模型,考虑了频率掩蔽、响度感知等因素,给出一个与主观评分高度相关的客观分数。PESQ分数范围从-0.5到4.5,通常认为3.5分以上代表良好的语音质量。

短时客观可懂度(Short-Time Objective Intelligibility, STOI)则专注于语音的可懂度——听者能够正确识别多少词语。STOI分数范围从0到1,与人工听力测试的结果有很高的相关性。

深度学习时代引入了新的挑战。神经网络倾向于在提升PESQ和STOI分数的同时,引入一些难以量化的伪影。这些伪影在客观指标上表现良好,但在主观听感上可能显得"机械"或"不自然"。

graph TD
    subgraph 评价指标体系
        A[客观指标] --> B[SNR/SDR]
        A --> C[PESQ]
        A --> D[STOI]
        E[主观评价] --> F[MOS听力测试]
        E --> G[ABX偏好测试]
    end
    
    style A fill:#bbdefb
    style E fill:#c8e6c9

更根本的问题在于训练目标与评价目标的不一致。大多数语音增强模型使用均方误差(MSE)或谱收敛损失进行训练,这些损失函数关注的是重建精度,而非感知质量。用这样的目标训练出的模型,往往会优先考虑减少噪声而非保持语音自然度。

生成对抗网络(GAN)提供了另一种训练范式。判别器网络学习区分真实语音和增强语音,迫使生成器产生更自然的输出。HiFi-GAN等模型证明了这种方法在语音合成上的有效性,但在语音增强领域,GAN训练的不稳定性仍然是一个挑战。

感知损失(Perceptual Loss)是另一个有前景的方向。预训练的语音识别网络或声学特征提取器被用作"感知评价器",其隐藏层的激活被用来计算损失。这种方法使模型能够学习到与人类感知相关的特征,而非仅仅是波形重建。

未尽的征途:当AI遇见声音

噪声消除技术的七十年演进,是从"物理隔绝"到"智能分离"的漫长旅程。每一代技术都在解决前一代的核心局限,同时也暴露出新的问题。

主动噪声控制解决了低频隔音的重量问题,但受限于物理延迟只能处理特定频段。数字信号处理实现了更灵活的噪声抑制,但难以处理非平稳噪声和复杂声学场景。深度学习带来了革命性的建模能力,但计算开销和延迟成为新的瓶颈。计算音频将计算能力转化为声学性能,却引发了关于隐私、功耗和可靠性的新问题。

graph LR
    subgraph 技术演进代际
        A[被动隔音] --> B[主动噪声控制]
        B --> C[数字信号处理]
        C --> D[深度学习]
        D --> E[计算音频]
    end
    
    A1[物理隔绝] --> B1[声波抵消]
    B1 --> C1[频域分析]
    C1 --> D1[智能分离]
    D1 --> E1[空间选择]
    
    style A fill:#ffcdd2
    style E fill:#c8e6c9

华盛顿大学的"声音气泡"研究暗示了未来方向:噪声消除不再仅仅是"消除",而是"选择"。在嘈杂的咖啡馆中,你可能只想听到面前同伴的声音;在开放式办公室里,你可能需要屏蔽所有背景声但保持对警报的响应。这种空间和语义层面的听觉控制,需要声源定位、说话人识别、语义理解等多种能力的深度融合。

实现这一愿景需要解决若干技术挑战。多模态融合是关键之一:音频、视觉、甚至文本信息需要被联合建模,才能理解"我想听什么"。个性化是另一个方向:每个人对声音的偏好不同,理想的系统应该能够学习用户的需求。边缘-云协同则涉及计算资源的分配:哪些处理必须在本地完成,哪些可以卸载到云端。

或许更深层的问题是:在技术赋予我们控制声音的能力之后,我们是否真的需要"消除"所有噪声?城市的声音本身就是文明的脉搏,完全的寂静可能并不比喧嚣更令人愉悦。技术最终服务于人,而人的需求从来不是简单的"安静",而是在纷繁的声音世界中找到属于自己的节奏。

从Paul Lueg 1933年的专利草图,到2024年神经网络的实时推理,七十年的技术演进始终围绕着一个核心问题:如何让机器理解人类对声音的需求。这个问题远未结束,答案仍在书写之中。


参考资料

  1. Lueg, P. (1936). Process of Silencing Sound Oscillations. U.S. Patent No. 2,043,416.

  2. Widrow, B., et al. (1975). Stationary and nonstationary learning characteristics of the LMS adaptive filter. Proceedings of the IEEE.

  3. Boll, S. F. (1979). Suppression of acoustic noise in speech using spectral subtraction. IEEE Transactions on Acoustics, Speech, and Signal Processing.

  4. Valin, J. M. (2018). A hybrid DSP/deep learning approach to real-time full-band speech enhancement. arXiv preprint arXiv:1709.08243.

  5. Luo, Y., & Mesgarani, N. (2019). Conv-TasNet: Surpassing ideal time-frequency magnitude masking for speech separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing.

  6. Wilson, K., et al. (2024). Sound Bubble: Target Sound Extraction with Distance-Based Selective Hearing. University of Washington Technical Report.

  7. Rix, A. W., et al. (2001). Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs. IEEE International Conference on Acoustics, Speech, and Signal Processing.

  8. Taal, C. H., et al. (2011). An algorithm for intelligibility prediction of time-frequency weighted noisy speech. IEEE Transactions on Audio, Speech, and Language Processing.

  9. Elliott, S. J., & Nelson, P. A. (1993). Active noise control. IEEE Signal Processing Magazine.

  10. Kuo, S. M., & Morgan, D. R. (1999). Active noise control: A tutorial review. Proceedings of the IEEE.