对抗攻击 | Answer

2023年2月，Reddit上一位用户发现，只需让ChatGPT扮演一个名为"DAN"（Do Anything Now）的角色，就能绕过模型的安全限制，让它回答本应拒绝的问题。这个看似简单的角色扮演提示，揭示了深度学习模型安全对齐的深层脆弱性。 ...