近日,AI 安全领域迎来了一则颇具意味的人事变动。
Anthropic,这家以“安全 AI”为核心定位的明星公司,其高级人工智能安全负责人 Mrinank Sharma 在 X 上宣布自己已于 2 月 9 日正式离职。

这一决定并非简单的职业转向。
在公开信中,他直言离开的原因与更深层的忧虑有关:对 AI 发展方向的反思、对全球风险的警觉,以及对“价值观是否真正主导行动”的持续拷问。他提到,公司内部所承受的多重压力,正在与那些被反复强调的核心理念发生冲突。
一位 AI 高级安全负责人写的辞职信
在致同事的公开信中,Mrinank 首先回顾了自己在 Anthropic 的两年历程。他坦言:“我已经完成了自己当初来到这里想做的事情。”
两年前,他刚结束博士学业,来到旧金山,希望把精力投入到 AI 安全这个当时仍相对前沿、但已暗流涌动的方向。
这两年,他的工作并不抽象:
他深入研究了 AI 的“谄媚”(sycophancy)现象,即为什么模型会倾向于迎合用户的偏好,甚至在明知错误的情况下给出“讨好式”回答。
此外,他主导开发了针对 AI 辅助生物恐怖主义风险的防御机制,并将其真正落地到产品与生产环境中。
他还参与建立了内部透明度机制,推动“价值观”从口号走向制度,尝试让组织在面对现实压力时,仍然能够有据可依。
而他最后的一项研究,触及了一个更根本的问题:
AI 助手是否可能让我们变得“不那么人类”?
它会不会在不知不觉中扭曲我们的判断、依赖方式,甚至价值感?
然而,这些成就并未让他选择留下。
他在信中明确表示:
“我清楚地意识到,是时候继续向前了。”
“多重危机”之下的冲突
谈及离开的原因,Mrinank 并没有指向某一项具体分歧,而是将视角拉得更远。
他写道,「自己不断反思我们所处的处境。世界正面临危险,这不仅仅是 AI 或生物武器的问题,而是一系列彼此交织的危机同时展开。有人称之为“多重危机”(poly-crisis),而其背后或许还存在更深层的“元危机”(meta-crisis)。」
在他看来,人类影响世界的能力正以前所未有的速度扩张。问题在于,我们的智慧与成熟度,是否跟得上这种力量的增长。
如果能力持续上升,而判断力、伦理自觉与集体理性却停滞甚至退化,后果难以估量。
在公司工作的这些年,他反复体会到一件事:让价值观真正主导行动,并不容易。
这种张力存在于个人内心,也存在于组织层面。现实压力、竞争节奏、资本期待、舆论环境……都会在某些时刻,把真正重要的事情挤到边缘。
他没有用激烈的语言批评谁,而是承认这种拉扯本身就是时代的一部分。这种现象不仅存在于一家 AI 公司,也存在于更广阔的社会结构中。
最终,他选择回应自己内在的声音:
“在不断面对并倾听这种内在与外在的现实之后,我逐渐看清自己必须做什么。我希望以一种完全符合自己内心与原则的方式去贡献力量。”
他引用了诗人 David Whyte 的一句话——那些“无权被忽视的问题”;也提到里尔克的提醒——有些问题不是被回答,而是被“活出来”。
对他而言,这意味着离开。
从代码到诗行:一场关于“认知方式”的转向
更令人意外的是,他并未公布自己的下一步具体去向,也没有投身另一家 AI 公司。
他选择拥抱不确定性。
信中有一句禅宗名言:“不知,最为亲近。”
这似乎是他此刻的状态,他想要主动腾出空间,暂时放下这些年来支撑自己的结构与身份标签,看看在它们退去之后,会浮现什么。
他的下一步计划带着浓厚的人文色彩。
他表示,希望攻读诗歌学位,认真学习诗歌写作。其认为,在技术不断改造世界的时代,“诗意的真相”与“科学的真相”同样重要。前者帮助我们理解意义、关系与感受,后者帮助我们构建工具与系统。如果两者失衡,技术就可能失去方向。
与此同时,他打算将更多精力投入到引导、教练、社区建设与团队实践中。从一名技术安全的守护者,转向促进人与人之间更深层连接的实践者。
这并不是对技术的否定,而是对认知方式的拓展。
在信的结尾,他附上了 William Stafford 的诗《The Way It Is》。诗中有一句话:
“有一条你追随的线,在变化的事物中穿行,但它本身不变。”
或许,这条“线”正是他真正想守护的东西。
当安全专家选择离开
Anthropic 一直被视为强调安全与对齐的代表性公司。如今,一位高级安全负责人主动离开,难免引发外界猜测。
与此同时,Mrinank 也并不是近期离职的唯一一人。
正如《Business Insider》报道的那样,包括 Harsh Mehta 和 Behnam Neyshabur 在内的多位研究人员,最近也离开了 Anthropic,去“开启新的事业”。
但如果仅把 Mrinank 这件事解读为“内部矛盾”或“路线分歧”,可能过于简单。
这封信更像是 Mrinank 想要站在外部的视角,探清 AI 的发展。

