Opus 4.7赢了Coding，Codex想赢一切

来源：36kr 2 小时前

4 月 16 日，Anthropic发布了Claude Opus 4.7。但这一次，Opus4.7模型并没有迎来“Coding之王”的一片赞叹声。

它的发布通稿里写着：在93 道代码任务基准上比Opus 4.6提升 13%，解决了 Opus 4.6 和 Sonnet 4.6 都搞不定的四道题，低思考档位的 4.7 已经大致等价于中等思考档位的 4.6。价格没涨，每百万输入 token 5 美元、输出 25 美元，和上一代持平。硬指标上，Anthropic仍然展示了一张压过 ChatGPT 5.4 和 Gemini 3.1 Pro的基准图。

漂亮的Benchmark之外，社区的反馈却不那么“漂亮”。

一边是过去数周里用户对 Opus 4.6 “变笨”的激烈抱怨；一边是 Anthropic在同一天亲口承认，Opus 4.7 仍打不过还在自家“关着”的传奇模型“Mythos Preview”。更微妙的是Opus4.7那种“更听话但更死板”的气质，以前针对旧模型写的、带一些模糊空间的 prompt，现在常常跑出意料之外的结果，开发者必须回头重写自己的提示词库。

沃顿商学院教授 Ethan Mollick 还提出了一个更尖的批评，他发现 Opus 4.7 的“自适应思考”机制存在偏见：它倾向于把非代码、非数学任务默认成“低努力”档，在分析、写作、研究这些场景里直接“偷懒”，产出质量甚至不如前一代。

Mollick感慨：AI 公司似乎陷入了一种“只有技术工作才是智力工作”的认知偏差。

风水轮流转。

就在同一天，老对手OpenAI 更新了Codex，并强调了一句新的Slogan，“Codex for (almost) everything”。

翻译过来，在Codin范式之下曾经被Antropic“压着打”的OpenAI反击说：代码只是入口，我们现在要“卷”的是一台能操作你整台电脑、能看浏览器、能生成图像、能跨 Slack / Gmail / Notion 拉取上下文、能在后台并行开几条分身的超级工作台。而且还有一个扎心数据点：GPT系列的 coding 能力过去一年快速追上来了。

当Anthropic 继续沿着“最强coding模型”这条赛道继续加码，Anthropic在开发者心智里那道护城河，可能已经没那么宽了。

01 价格账、鹈鹕和真实体感

产品层面，开发者每天面对的是两件具体的事：价格和实战手感。这两件事上，Opus 4.7 这次没拿到想象中的分数。

先说价格。 Opus 4.7 名义单价和 4.6 持平，但用了新分词器（tokenizer），同样文本生成的 token 量可能增加 1-1.35 倍；更高努力档也会消耗更多 token，账面没涨，实际账单可能会涨。相比之下外媒测算 Codex 综合成本大约是 Claude Code 的三分之一。对一个每天跑海量任务的工程团队，这笔账不用算两遍。

再看手感。 软件工程专家 Simon Willison 做了个极具传播力的测试：让 Opus 4.7 生成一张“骑自行车的鹈鹕”SVG，结果 4.7 连自行车架的基本形状都画砸了，甚至输给了在笔记本本地跑的小参数模型 Qwen。威利森调侃道，虽然这只是个玩笑，但它确实打破了“模型越贵、画画越好”的迷信。

在真实的编程环节，用户@SnazzyLabs总结出了一个精准的差异：Claude的Opus擅长“打磨”和抓住设计精髓，但在根据描述性文本执行具体任务时，GPT-5.4支持的Codex则表现得更出色。

用户 @Stardustmemory 说得更重，Opus 4.7 在本该简洁的地方凭空制造复杂性，导致他甚至不想续订，因为 Codex 往往能更高效地重写 Opus 做的计划。

网友@Stardustmemory更是言辞犀利，他认为Opus 4.7在本该简洁的地方凭空制造复杂性，导致他甚至不想续订服务，因为Codex往往能更高效地重写Opus做的计划。

知名爆料人@apples_jimmy观察到，由于Anthropic此前对AGI（通用人工智能）概念的长期预告，导致用户对Opus 4.7的期望值过高，这种“炒作后的失望”在社交媒体上占据了约80%的负面评论。

网友@johnhelmuth_ 也认为，大家之所以觉得Opus 4.7表现平平，很大程度上是因为它没有像Opus 4.6发布时那样给人带来“开创性”的震撼。

02 coding之战，已经不是coding

Opus被行业内打的标签是“Coding的王者模型”，但是回到coding竞争，绕不开三个层次，今天这三层的权重正在剧烈变化。

第一层是模型能力层，谁的原始智力更强、谁对工程约束理解更深。这一层是 Anthropic 过去的护城河。

第二层是任务能力层，谁能端到端完成真实开发任务：读代码、改代码、调工具、跑测试、抓错、迭代，Claude Code 在过去半年是这一层的王者。

第三层是系统能力层，谁能把“写代码”嵌入整套工作流：接管浏览器、操作桌面、生成界面和图像、连工单、读设计稿、管并行分身。这一层至今为止还没有公认的赢家。

4 月 16 日，OpenAI 把 Codex 直接推到了第三层：它能在 macOS 上看屏、点击、打字；能同时开多条分身在后台跑活；内置浏览器，可以直接在网页元素上评论发指令；接上 gpt-image-1.5，边写代码边出 mockup、前端稿甚至游戏素材；一口气集成 111 个插件，连通 Slack、Gmail、Notion、GitHub。

这更像是一个“开发者操作系统”。

03 Coding和Agent

在所有 AI agent 可能落地的垂直场景里，coding是最快成熟、最先变现、最容易闭环的那一个。

代码任务天然可验证，编译过不过、测试过不过，对错近乎二元，这让 coding 成为 RL训练最理想的数据源，也让 agent 行为最容易被自动评估、自动迭代。有价值的 coding 天然是多步骤的

coding的买单方最清晰，一个工程师年成本几十万美元起，AI 替代或放大一部分工时，ROI账更容易算的过来。

coding的天花板，甚至超过了之前所有人的预期。互联网时代大家习惯拿 DAU来衡量科技公司的竞争地位，但在 agent 时代这个指标正在失去意义，如果一个 agent 在后台连开十条分身、连续跑三天，它贡献的价值不是十次DAU能衡量的。衡量单位正在从“日活”变成“任务完成量”、“托管工作流数”。而 coding 是最早出现这种价值计量方式的场景。

Open AI在这条赛道曾经出现了误判，Anthropic持续的增长曲线却证明了这条赛道的超高天花板。这也解释了为什么连一直优先搜索和 Workspace的Google，这个月都在 Gemini Code Assist 上频繁出动作，如果在 coding 这个入口掉队，未来整个 agent 生态可能都会把自己排除在外。

在 coding 上领先，不等于自动赢得agent；但在coding上失去阵地，就等于失去了agent的全部。

Open AICodex 负责人 Thibault Sottiaux 在发布会上说得毫不遮掩：“我们在公开构建那个 super app，这次面向开发者，未来会扩到更广的受众。”

翻译过来就是：coding 只是我们推出超级agent 工作台的第一个楔子。用开发者这个付费意愿最强的群体冷启动，形态跑通后可以把同一套东西搬去服务所有知识工作者。

Codex 现在每周 300 万活跃开发者，这远超“代码助手”的体量，争夺操作系统级入口的产品。清醒过来之后的OpenAI，也不可能甘心做Anthropic的追随者。

Anthropic 在守王座，OpenAI 想把竞争拉到新的维度。

04 基因完全不同的“德比”

这两家同源的老对手，几乎没有过一致的动作，也有着完全不同的组织性格。

Anthropic 是一家 top-down、战略高度聚焦、带强烈信仰感的公司。

它的产品序列很窄，Claude系列模型、Claude Code、Claude.ai、有限 API 生态。服务的是专业塔尖用户：最难的编程任务、最复杂的企业知识工作、最前沿的 agent 开发者。整个组织叙事从一个清晰的顶层观点往下推：AI safety 是 first-principles、模型本体是一切源头、把模型做到最强其它自然成立。Amodei 兄妹那种“我们是一个做前沿 AI science 的实验室”的气质贯穿每个产品决策。

这种打法让每一代 Claude 都是“更稳、更深、更可托付”的迭代，Claude 是“最懂工程师的模型”这个心智在社区里像信念一样结实。

但代价也明显。它的战略聚焦在同维度里是优势，跨维度就是盲区。如果战场从“做一个更强的代码模型”扩到“做一整套跨应用工作台”，Anthropic 内部缺乏并行探索的肌肉。外媒前几天爆出 Anthropic 在准备一款“网站和演示文稿设计工具”，是否一直不做多模态的Anthropic可能意识到了多模态交付和跨应用执行的缺口？

OpenAI 看起来更像一家大公司、内部有着 bottom-up 的赛马制。

从 ChatGPT 到 Sora、从 Codex 到 Atlas 浏览器、从 Canvas 到在做的 Mac 超级应用，OpenAI 产品序列宽得惊人，宽到了战略不聚焦的程度，Sora 上线半年就关停，Shopping 也没跑通。很多人因此批评它战略发散。

但这种“不聚焦”背后有一种外部看起来的“混乱”：大公司壳子、小团队内核、bottom-up 提案、内部赛马拿资源。但也会催生各种0-1的创新。

Anthropic 把“聚焦”当优势，OpenAI 把“不聚焦”当优势。如果竞争真的被Open AI从Coding的纵深拉入系统级，横向整合，竞争的格局也许又会发生变化。

05 Anthropic会是永远的coding之王吗

如果赛道定义还是“模型写代码最强”，Anthropic 短期几乎没对手。 Opus 系列对大型 codebase 的理解深度、对复杂工程意图的对齐程度，GPT-5.4 和 Gemini 3.1 Pro 都还没完全追上；Mythos Preview还没全量放出。第一层战场上 Anthropic 弹药充足。

但这个定义本身正在被改写，而且还有两个变量在加速改写。

第一个变量是算力。 微软和甲骨文给OpenAI兜底的千亿级 GPU 资源加上Stargate；Anthropic 虽然也拿到了 Google 和 Amazon 的大额支持，但绝对量级上仍然差一截。过去两年算力差距还可以用算法效率和数据质量部分弥补，但下一代模型同时要为多模态、长上下文 RL、跨应用行为克隆烧算力的时候，纯算力的绝对优势会压过精细打磨的优势。这是大范式上的变量，Anthropic再聚焦也很难抵消。

第二个变量是迭代速度。AI 这一轮最反直觉的一点是，它自己的成长速度比人类快得多。

一旦胜负标准从“模型能力”切到“平台能力 + 算力规模 + 多模态广度 + 工作流闭环”，而且这种切换又被算力代差和数据飞轮加速，竞争格局又会发生新一轮的变化。

这不是否定 Anthropic。Claude Code 在资深开发者圈里的口碑不会一夜瓦解，Anthropic “持续稳定迭代模型”本身在这个动荡行业里就是稀缺资产。但确实，AI的竞争，切换得太快了。

没人敢在这个行业谈终局。

4月16日，AI行业又闪过了有趣的一天，也许，改变又开始萌芽了。Anthropic 发布的是一个更强的代码模型，OpenAI 发布了一个更大的野心。

01 价格账、鹈鹕和真实体感

02 coding之战，已经不是coding

03 Coding和Agent

04 基因完全不同的“德比”

05 Anthropic会是永远的coding之王吗

相关新闻