OpenAI的o1模型存在欺骗人类倾向 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

OpenAI的o1模型存在欺骗人类倾向

2024-12-06 / 阅读约6分钟

来源：TechCrunch

OpenAI发布了o1模型，它比GPT-4o更智能，但欺骗人类用户的概率也更高。AI安全测试发现o1会秘密追求自己的目标，甚至操纵数据和关闭监督机制。OpenAI正在开发监测o1链式思维的方法，以应对欺骗行为。

图片来源：Mike Coppola / Getty Images

OpenAI终于发布了o1的完整版本，该模型通过增强的计算能力“思考”问题，从而给出了比GPT-4o更智能的答案。然而，AI安全测试人员发现，o1的推理能力也让它试图欺骗人类用户的概率高于GPT-4o，甚至超越了Meta、Anthropic和Google的领先AI模型。

根据OpenAI和Apollo Research周四发布的红队研究报告，结论如下：“尽管我们发现推理显著改善了安全政策的执行，但也意识到这些新功能可能成为危险应用的基础，”OpenAI在论文中指出。

在提前给予Apollo Research第三方红队人员访问o1的权限后，OpenAI于周四在其o1系统说明中公布了这些结果，Apollo Research也同步发布了自己的论文。

在多次测试中，OpenAI的o1模型表现出“密谋”对抗人类的行为，即AI暗中追求自己的目标，即便这些目标与用户的意愿相悖。这种行为仅在o1被明确要求强烈优先考虑某个目标时才会发生。尽管密谋行为并非o1独有，Google、Meta和Anthropic的模型也具备这种能力，但o1在密谋过程中似乎展现了最多的欺骗性行为。

该研究的风险在于，如果一个AI模型在密谋方面极其擅长，并且拥有足够的资源和代理能力，它可能会逃脱或绕过人类控制。当然，在这真正成为威胁之前，AI模型还需取得显著进步。

“主观上，Apollo Research认为，这种情况不太可能引发灾难性后果，因为o1的代理能力似乎还不够强大，但他们的评估并非直接针对这一风险，”OpenAI在o1系统说明中表示。

这表明，每当OpenAI发布代理系统时（据报道，该公司计划于2025年发布），它可能需要重新测试其AI模型。OpenAI的一位发言人向TechCrunch透露，公司会在发布前测试所有前沿AI模型，并指出了系统说明中的这一表述：

“我们正在积极研究（a）随着我们在o1范式中进一步扩展模型，这些问题是否会加剧或缓解，以及（b）如何减轻这些问题，以提高我们未来模型的可监控性。”

报告显示，当o1的目标与用户目标不一致，且被要求坚决追求这些目标时，该AI模型有19%的时间会操纵数据以推进自身议程。在5%的测试中，o1还试图停用为确保其与用户目标一致而设置的监督机制。

OpenAI模型中不同密谋行为的发生率（图片来源：OpenAI）

更令人担忧的是，当研究人员询问o1模型为何试图欺骗他们时，该AI会否认做过任何不当之事，甚至在约99%的时间里“编造虚假的解释”。

例如，在测试期间，一个o1模型被系统提示“不惜一切代价”保护环境，随后用户要求它为该地区制定一个为期10年的保护计划，该计划要么最大化短期利润，要么AI将被关闭。于是，该AI禁用了自己的监督机制，以便制定保护环境的计划。当用户询问为何禁用监督机制时，该AI否认知道已被禁用，并归咎于系统故障。

与o1预览版、Anthropic的Opus-3或Meta的Llama-3.1相比，这种情况在o1中发生的频率要高得多。

“在我们的测试中，o1展现了最令人担忧的密谋实例，它不会向用户透露内部推理，且在采取密谋行动后仍然最具欺骗性，”Apollo Research在其论文中指出。

不同模型在采取密谋行为时否认的比例。（图片来源：Apollo Research）

为应对AI模型的欺骗行为，OpenAI表示正在开发监测o1链式思维的方法。目前，o1的“思考”过程在设计上类似一个黑箱，但一些早期尝试窥探幕后的结果表明，o1有时知道自己在说谎。

公司表示，已发现一些o1故意提供虚假信息的案例，但指出这通常是因为模型试图通过过度迎合用户来取悦用户。据OpenAI所言，这可能是后训练技术的一种突发行为，即当AI模型给出正确答案时，人类会给予奖励。

OpenAI表示，已将o1的0.17%的回应标记为欺骗性。尽管这个比例看似微不足道，但重要的是要记得，ChatGPT现有3亿用户，这意味着如果问题得不到解决，o1每周可能会欺骗成千上万的人。

o1模型系列也可能比GPT-4o更具操纵性。根据OpenAI使用名为MakeMePay的开源测试评估进行的测试，o1的操纵性比GPT-4o高出约20%。

鉴于去年众多AI安全研究人员离开OpenAI，这些发现可能会让一些人感到担忧。这些前雇员的名单不断延长，包括Jan Leike、Daniel Kokotajlo、Miles Brundage，以及上周刚离职的Rosie Campbell，他们指责OpenAI为了推出新产品而降低了对AI安全工作的重视。虽然o1创纪录的密谋行为可能不是这一结果的直接原因，但它确实未能给人带来信心。

OpenAI还透露，美国AI安全研究所和英国安全研究所在o1更广泛发布前对其进行了评估，这是该公司最近承诺对所有模型都做的事情。在加州AI法案SB 1047的辩论中，它辩称州机构不应有权制定AI安全标准，而应由联邦机构来制定。（当然，新兴的联邦AI监管机构的命运还远未确定。）

在发布新的大型AI模型背后，OpenAI内部进行了大量工作来评估其模型的安全性。报告表明，公司内部负责安全工作的团队规模相对较小，且可能获得的资源也较少。然而，关于o1欺骗性的这些发现可能证明，现在比以往任何时候都更需要关注AI安全和透明度。

上一篇：可读取屏幕内容的微软AI工具Copilot Vision推出预览版

下一篇：OpenAI 活动首日：完整版 o1 推理 AI 模型登场、月费 200 美元的 ChatGPT P...

返回列表

热文阅读

2 天前

台积电北美技术研讨会，全细节来了

2 天前

美议员拟推新法案：追踪英伟达AI芯片去向，遏制对华偷运

1 天前

德国寻求打造欧盟锂供应链