修改一个知识为何让千亿参数模型崩溃

2022年,Kevin Meng等人在NeurIPS发表了题为"Locating and Editing Factual Associations in GPT"的论文,提出了ROME(Rank-One Model Editing)方法。研究者们声称,他们可以精确定位模型中存储特定事实的位置,并通过数学手段直接修改权重来更新知识。这篇论文引起了巨大轰动——人们第一次看到了不重新训练就能更新模型知识的希望。 ...

20 min · 9890 words

为什么修改大模型中的一个知识点会引发连锁崩溃

2022年,斯坦福大学的研究团队发表了一篇引人注目的论文。他们声称找到了一种方法,可以精准地修改大语言模型中的特定知识,而不影响其他能力。方法叫做ROME(Rank-One Model Editing),原理听起来很优雅:先用因果追踪定位知识存储的位置,然后像编辑数据库一样修改那个位置。 ...

12 min · 5655 words