大模型为何总被一句话越狱:从角色扮演到梯度优化的攻防技术演进
2023年2月,Reddit上一位用户发现,只需让ChatGPT扮演一个名为"DAN"(Do Anything Now)的角色,就能绕过模型的安全限制,让它回答本应拒绝的问题。这个看似简单的角色扮演提示,揭示了深度学习模型安全对齐的深层脆弱性。 ...
2023年2月,Reddit上一位用户发现,只需让ChatGPT扮演一个名为"DAN"(Do Anything Now)的角色,就能绕过模型的安全限制,让它回答本应拒绝的问题。这个看似简单的角色扮演提示,揭示了深度学习模型安全对齐的深层脆弱性。 ...