让大模型忘记有多难？从GDPR被遗忘权到量化恢复的技术困境

2018年5月，欧盟《通用数据保护条例》（GDPR）正式生效。条例第17条赋予个人一项特殊权利——“被遗忘权”（Right to be Forgotten）：当个人数据不再必要时，数据主体有权要求删除这些数据。对于传统数据库系统，这是一个简单的SQL DELETE语句就能解决的问题。但当这项权利遇上千亿参数的大语言模型，事情变得复杂得多。

2023年12月，《纽约时报》起诉OpenAI侵犯版权，声称GPT-4能够逐字复述其付费文章内容。这起诉讼将一个深层技术问题推到了聚光灯下：一旦数据被大模型"学进"参数里，还能"掏出来"吗？

这个问题的答案，关乎着AI产业的合规前景。

一个不可能完成的任务？

理解机器遗忘的困难，需要先理解大模型是如何"记住"数据的。

传统数据库系统中，数据以结构化形式存储，删除一条记录只需从表中移除对应行。但神经网络的记忆机制完全不同——训练数据的信息被"揉碎"后分散存储在数十亿甚至数千亿个参数中。一个事实性知识（如"埃隆·马斯克出生于南非"）可能影响着模型中数千个神经元的权重值，而这些神经元同时又参与存储其他数十万条知识。

这种"分布式表示"带来了两个核心难题：

纠缠性（Entanglement）：模型参数没有明确的语义边界。你不能说"第100到200个参数存储了某人的个人信息"——每条数据的影响都像墨水滴入水中，均匀散开，无法分离。

不可逆性（Irreversibility）：从最终的模型参数逆向推导"哪些数据影响了哪些参数"，在数学上是一个病定问题（ill-posed problem）。同样的参数更新可能由无数种不同的训练数据组合产生。

2015年，来自Lehigh大学的Yinzhi Cao和Junfeng Yang在IEEE S&P会议上首次提出"机器遗忘"概念时，他们面对的还是相对简单的机器学习模型。论文标题直接点明了核心挑战：《Towards Making Systems Forget with Machine Unlearning》。

十年后的今天，当模型参数从百万级跃迁到千亿级，这个问题不仅没有变简单，反而变得更加棘手。

精确遗忘：代价高昂的"完美方案"

机器遗忘方法可以分为两大类：精确遗忘（Exact Unlearning）和近似遗忘（Approximate Unlearning）。

精确遗忘追求一个严格的数学保证：遗忘后的模型，与"从未在要删除的数据上训练过"的模型完全等价。最直观的精确遗忘方法是从头重新训练（Retrain from Scratch）——在移除目标数据后，用剩余数据重新训练模型。这确实能保证完美的遗忘效果，但代价令人望而却步。

一个1750亿参数的模型，训练一次可能需要数百万美元的算力成本。如果每次删除请求都要重新训练，任何企业都无法承受。

2019年，一组来自多所机构的研究者在arXiv上发表了论文《Machine Unlearning》，提出了一个巧妙的框架——SISA训练（Sharded, Isolated, Sliced, and Aggregated Training）。核心思想是：与其在删除时付出高昂代价，不如在训练时就为未来的删除做准备。

SISA将训练数据分成多个"分片"（shards），每个分片独立训练一个子模型。当需要删除某条数据时，只需重新训练包含该数据的那个分片对应的子模型，最后将所有子模型的预测结果聚合即可。

SISA框架示意图

图片来源: Stanford AI Blog - Machine Unlearning in 2024

假设将数据分成$S$个分片，最坏情况下（删除请求均匀分布），重训练成本降低到原来的$1/S$。实验数据显示，在Purchase数据集上，SISA将遗忘时间缩短了4.63倍；在SVHN数据集上缩短了2.45倍；即使在ImageNet这样的复杂任务上，也能达到1.36倍的加速。

但SISA有两个致命缺陷：

第一，模型性能下降。由于每个子模型只看到部分数据，其性能通常低于在完整数据上训练的单模型。分片越多，性能损失越大。

第二，不适用于大模型时代。大模型训练需要海量数据来充分学习语言规律。如果将训练数据分片到数十个子模型中，每个子模型的数据量可能不足以支撑有效的语言建模。

更重要的是，SISA是一种"前瞻式"方案——它要求在模型训练之前就规划好遗忘机制。但现实中，大多数删除请求发生在模型已经部署之后。这些限制使得精确遗忘在大模型场景下难以实用化。

近似遗忘：实用主义的技术妥协

近似遗忘接受一个不那么完美的现实：遗忘后的模型可能与"从未学过该数据"的模型存在细微差异，但只要差异足够小、且在实际应用中不可察觉，就可以接受。

这个定义听起来模糊，背后却有严谨的数学形式化。近似遗忘通常使用分布距离来衡量遗忘效果。最常用的是最大均值差异（MMD）或KL散度：如果遗忘模型的输出分布与目标分布（从未学过待删除数据的模型）足够接近，则认为遗忘成功。

近似遗忘示意图

图片来源: NeurIPS Machine Unlearning Challenge

Gradient Ascent：反向操作的危险游戏

2023年，大模型遗忘研究迎来爆发期。最早被提出、也最直觉的方法是梯度上升（Gradient Ascent）。

正常的训练过程使用梯度下降最小化损失函数：$\theta_{t+1} = \theta_t - \eta \nabla_\theta L(\theta)$。梯度上升的做法是反向操作：$\theta_{t+1} = \theta_t + \eta \nabla_\theta L(\theta)$，即在要遗忘的数据上最大化损失。

这个想法的直觉很清晰：既然训练是让模型"记住"数据，那么反向操作应该能让模型"忘记"。但实践证明，这种方法极其危险。

2024年ICLR的一篇论文《Negative Preference Optimization》揭示了问题所在：梯度上升容易导致灾难性崩塌（Catastrophic Collapse）。在追求"遗忘"的过程中，模型不仅失去了目标知识，还可能丧失基础的语言能力——输出变成毫无意义的乱码。

更深层的问题在于：最大化损失并不等于最小化"记住"程度。损失函数衡量的是预测与标签的差异，而不是记忆强度。模型完全可以通过输出随机噪声来实现高损失，但这显然不是我们想要的"遗忘"。

NPO：从对齐中学到的教训

2024年4月，斯坦福大学团队提出了负偏好优化（Negative Preference Optimization, NPO），借鉴了DPO（Direct Preference Optimization）的思想，将遗忘问题转化为一个优化问题。

DPO的核心思想是：将偏好数据（“这个回答比那个回答好”）转化为一个可优化的目标函数。NPO将其推广到遗忘场景：将"要遗忘的数据"视为"负偏好"，让模型学会回避这类输出。

NPO的损失函数形式为：

$$L_{\text{NPO}} = -\mathbb{E}_{(x,y) \sim D_f} \left[ \log \sigma\left( \beta \log \frac{\pi_\theta(y|x)}{\pi_{\text{ref}}(y|x)} \right) \right]$$

其中$D_f$是要遗忘的数据集，$\pi_\theta$是当前模型，$\pi_{\text{ref}}$是参考模型（通常是最初的预训练模型），$\beta$是控制遗忘强度的超参数。

这个公式背后的直觉是：让模型在遗忘数据上的输出概率，尽可能低于参考模型的输出概率。与梯度上升不同，NPO不会鼓励模型输出随机噪声，而是引导它回归到一个"不知道这些信息"的状态。

实验结果令人振奋。在TOFU基准测试上，NPO是首个能够成功遗忘50%训练数据且保持模型效用的方法。相比之下，梯度上升方法在遗忘10%数据时就已经捉襟见肘。

RMU：表示层面的干预

2024年3月发布的WMDP基准测试论文同时提出了一种新方法——表示误导遗忘（Representation Misdirection Unlearning, RMU）。这种方法不再在输出层面操作，而是直接干预模型的内部表示。

RMU的核心洞察是：知识在模型中以"表示向量"的形式存储。如果我们能扰乱与目标知识相关的表示，就能实现遗忘。

具体而言，RMU在模型的中间层注入噪声，使得模型在面对遗忘数据时产生"错误"的内部表示。这种干预是精心设计的：它只在检测到输入与遗忘数据相关时才激活，从而最小化对其他能力的影响。

WMDP论文的实验显示，RMU能够将模型在危险知识（如生物武器制造）上的表现降低到随机水平，同时保持其在相关领域（如普通生物学）上的正常表现。

评估的困境：如何证明"真的忘了"

机器遗忘面临一个独特的挑战：如何证明遗忘成功？

传统的机器学习任务有清晰的评估指标——准确率、F1分数、BLEU等。但遗忘是一个"负向"目标：我们希望模型"做不到"某事。如何量化"做不到"的程度？

TOFU：虚构世界的遗忘测试

2024年发布的TOFU（Task of Fictitious Unlearning）基准测试采用了一个巧妙的设计：创建一组完全虚构的作者传记数据，让模型学习这些不存在的"知识"，然后测试模型遗忘这些知识的能力。

由于这些作者是虚构的，模型的预训练数据中从未出现过相关信息。这消除了一个关键干扰因素：我们不用担心模型通过其他途径"知道"这些信息。

TOFU定义了两类数据集：

Forget Set：需要遗忘的数据（如某位虚构作者的生平）
Retain Set：需要保留的数据（其他虚构作者的信息）

评估指标包括：

Model Utility：模型在Retain Set上的表现，衡量遗忘是否影响了其他能力
Forget Quality：通过KS检验比较遗忘模型和参考模型在Forget Set上的输出分布

MUSE：六维全面评估

2024年7月发布的MUSE基准测试提出了更全面的评估框架，定义了六项期望属性：

No Memorization：模型不应能回忆起遗忘数据的具体内容
No Knowledge Sensitive：模型不应展现出对遗忘数据相关概念的"隐性偏好"
No Privacy Leakage：不应能通过成员推断攻击检测到数据曾被用于训练
No Extraction：不应能通过特定提示提取遗忘数据的内容
Maintain Utility：遗忘不应损害模型在其他任务上的能力
No Recovery：即使使用对抗性查询，也不应能恢复遗忘的知识

WMDP：危险知识的遗忘测试

WMDP（Weapons of Mass Destruction Proxy）聚焦于一个特殊场景：让模型"忘记"制造危险武器的知识。基准包含3,668道选择题，覆盖生物安全、网络安全和化学安全三个领域。

WMDP的价值在于其明确的实用背景。2023年美国总统行政令明确要求评估AI系统的危险能力。WMDP为这类评估提供了公开、标准化的工具。

遗忘的脆弱性：量化恢复的惊人发现

2024年10月，一篇发表在ICLR 2025的论文揭示了一个令人不安的现象：量化可能恢复被遗忘的知识。

研究者发现，当对经过遗忘处理的模型进行4-bit量化时，被"遗忘"的知识有83%被恢复了。即使在全精度下，遗忘模型仍然保留了21%的目标知识。

这个发现的意义深远。量化是大模型部署的标配技术——它可以将模型大小压缩到原来的1/4，使大规模部署成为可能。但如果量化能恢复被遗忘的知识，那么现有的遗忘方法在实际部署中可能完全失效。

为什么会发生这种现象？

研究者提出了一种解释：遗忘方法（尤其是梯度上升）倾向于"压制"目标知识相关的神经元激活，但这些神经元的参数值并未发生根本改变。量化过程中的舍入误差可能"释放"这些被压制的激活，导致知识恢复。

另一个深层原因在于神经网络参数的冗余性。大模型通常存在大量冗余参数，同样的功能可以由不同的参数组合实现。遗忘方法可能只影响了一条"路径"，而知识的"备份"仍然存在。

对抗攻击：被遗忘者的反击

量化恢复只是一个开始。更严峻的挑战来自对抗性攻击。

2025年的研究表明，通过精心设计的提示，攻击者可以从"已遗忘"的模型中提取出被删除的知识。一种称为REBEL的方法通过进化搜索策略，成功从多个声称已遗忘的模型中恢复了敏感信息。

这揭示了遗忘技术的根本性困境：遗忘不是一个二元状态，而是一个连续谱。模型可能"表面上"遗忘了某些知识，但在特定的查询模式下，这些知识可能被重新激活。

法律与技术的鸿沟

机器遗忘领域面临的最深层挑战，或许是法律框架与技术现实之间的巨大鸿沟。

GDPR第17条要求"删除"个人数据，但"删除"在AI语境下意味着什么？

传统数据库中的删除是一个确定性操作：数据要么存在，要么不存在。但在神经网络中，数据的影响被"溶解"到参数空间中。即使我们应用了遗忘技术，也无法数学证明某个人的数据"完全"消失了——只能证明其影响被"足够大地"降低了。

这种不确定性给合规带来了巨大挑战。企业如何证明自己履行了删除义务？当用户质疑"你们真的删除了我的数据吗？"，法律上什么程度的遗忘才算合规？

更复杂的是版权问题。《纽约时报》诉OpenAI案的核心争议在于：当受版权保护的内容被"学进"模型参数后，模型对这类内容的生成是否构成侵权？如果侵权成立，版权人是否有权要求模型"遗忘"相关内容？

这些问题目前没有明确的法律答案。技术界和法学界都在探索中。

遗忘的未来

机器遗忘是一个年轻的领域，2024年之前的研究甚至难以称之为一个"领域"，更多是零散的技术尝试。但随着GDPR等隐私法规的严格执行，以及版权诉讼的升温，这项技术正在获得前所未有的关注度。

目前的共识是：完美的遗忘几乎不可能实现。近似遗忘方法虽然无法达到精确遗忘的理论保证，但在实践中可能"足够好"——如果遗忘后的模型在面对绝大多数查询时都无法提取目标知识，或许就能满足合规要求。

更根本的问题可能在于模型架构本身。如果神经网络天然无法实现可靠的遗忘，也许我们需要重新思考模型的设计。一些研究者开始探索"可解释遗忘"的架构——从设计上就考虑遗忘需求，让知识的存储更加模块化、可定位。

在这个AI正在深入社会每个角落的时代，机器遗忘不仅仅是一个技术问题。它关乎数据主权、隐私权、知识产权，以及我们如何构建一个"负责任"的AI生态系统。答案尚未清晰，但问题本身已经无法回避。

参考文献

Cao, Y., & Yang, J. (2015). Towards Making Systems Forget with Machine Unlearning. IEEE S&P 2015.
Bourtoule, L., et al. (2021). Machine Unlearning. IEEE S&P 2021.
Zhang, R., et al. (2024). Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning. ICLR 2025.
Li, N., et al. (2024). The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning. ICML 2024.
Maini, P., et al. (2024). TOFU: A Task of Fictitious Unlearning for LLMs. arXiv:2401.06121.
Shi, W., et al. (2024). MUSE: Machine Unlearning Six-Way Evaluation for Language Models. arXiv:2407.06460.
Wang, F., et al. (2024). Catastrophic Failure of LLM Unlearning via Quantization. ICLR 2025.
Geng, J., et al. (2025). A Comprehensive Survey of Machine Unlearning Techniques for Large Language Models. arXiv:2503.01854.
Tech Policy Press. (2025). The Right to Be Forgotten Is Dead: Data Lives Forever in AI.
OpenAI. (2023). Reporting the facts about the New York Times’ lawsuit.

一个不可能完成的任务？#

精确遗忘：代价高昂的"完美方案"#

近似遗忘：实用主义的技术妥协#

Gradient Ascent：反向操作的危险游戏#

NPO：从对齐中学到的教训#

RMU：表示层面的干预#

评估的困境：如何证明"真的忘了"#

TOFU：虚构世界的遗忘测试#

MUSE：六维全面评估#

WMDP：危险知识的遗忘测试#

遗忘的脆弱性：量化恢复的惊人发现#

对抗攻击：被遗忘者的反击#

法律与技术的鸿沟#

遗忘的未来#

参考文献#

更多精彩内容

大模型代码生成能力的边界与突破——从语法理解到语义推理的技术解析

Logit Lens：Transformer的每一层都在"想"什么

大模型为何总被一句话越狱：从角色扮演到梯度优化的攻防技术演进

为何大模型总忽略中间内容：从Lost in the Middle到注意力盆地的技术解密

Prefix Caching 如何让重复提示词在大模型推理中"零成本"通过