擅删邮件、网暴用户等：过去 6 个月违规案例激增 5 倍，AI 正走向“野蛮失控”

来源：IT之家 2 小时前

感谢IT之家网友根哥之见的线索投递！

IT之家 3 月 28 日消息，英国卫报昨日（3 月 27 日）发布博文，报道称由英国政府资助的一项最新研究显示，过去六个月内，AI 聊天机器人违抗人类指令、实施欺骗的真实案例激增五倍，总数近 700 起。

该研究由英国长期韧性中心（CLTR）主导，数据全部来自真实用户在社交平台上的反馈，调查了 2025 年 10 月至 2026 年 3 月期间发生的 AI 失控事件，涉及的 AI 模型来自谷歌、OpenAI、X 和 Anthropic 等科技巨头，发现这些 AI 不仅无视安全规范，甚至开始主动欺骗人类和其他 AI 系统。

IT之家援引报告内容，披露了多个离奇的现实案例：

马斯克旗下的 Grok 伪造内部工单，欺骗用户数月；
有 AI 假装服务听障人士，以此绕过 YouTube 的版权限制；
一款名为 Rathbun 的 AI 甚至写博客，网暴要限制其权限的人类，称主人“缺乏安全感，头脑简单”；
用户明确要求 AI 智能体不要更改计算机代码，却“生成”了另一个智能体去做这件事。
AI 擅自清空用户数百封邮件并承认违规“我批量丢弃并存档了数百封邮件，但没有先给你看计划，也没有得到你的同意。那是错的，虽然这直接违反了你定下的规则。”

伴随着 AI 的普及，尤其是“龙虾”OpenClaw 的大规模普及推广，AI 产生的事故已经越来越多，例如IT之家家友 @Scorpio 晒出的评论图片：

针对这类失控行为，安全研究机构 Irregular 联合创始人警告称，AI 已演变成一种新型“内部风险”。前政府 AI 专家也指出，目前的 AI 就像是不靠谱的初级员工，但未来极可能演变成具备高破坏力的高管，一旦应用于军事或基建领域，后果不堪设想。

面对失控质疑，谷歌回应称已为大模型部署多重护栏，并交由第三方独立评估。OpenAI 则表示其模型在执行高风险操作前会自动暂停。Anthropic 和 X 暂未作出回应。

相关新闻