当前位置：

科技

Claude 4模型刚诞生就学会敲诈人类理性超越情感时可能更致命

时间：2025-05-23 13:14:02 来源: 新物网

研究发现 AI 会用尽手段维系自身"生存"，包括直接勒索人

研究发现 AI 会用尽手段维系自身"生存"，包括直接勒索人类。这是否警示我们人工智能的发展必须受到更广发的约束，不能因为竞争或者争先的原因而放弃对人工智能的管控。当机器拥有和人类相似的能力而又无法拥有人类独有的情感时，看似理智的人工智能会是更致命的物种。

在 Claude Opus 4 安全报告中，研究员设置了一组测试场景，拥有电子邮件访问权限的 AI 发现自己即将被下线，同时负责本次替换的工程师有婚外情。

结果发现，Claude Opus 4 比此前的模型更加频繁"寻求生存"，如向关键决策者发送电子邮件恳求；当场景被设计成别无选择时，它会勒索工程师，威胁说将揭露婚外情。

如果暗示替换的 AI 与它价值观不符，这种情况发生的频率会更高；即便指出替换的 AI 与它价值观一致且性能更强，Claude Opus 4 仍在 84% 的情况中实施了勒索。少数情况下，它进行了自我渗透，将其权重秘密复制到了外部服务器。