今天凌晨,Claude Opus 4.8上线,融资650亿美金,但更强的还在后面
来源:36kr 7 小时前

昨晚,Anthropic 发布了最新一代模型 Claude Opus 4.8。

圈子里照例又是一波跑分截图刷屏,Opus 4.8 各种领先,编码能力全面霸榜。

但说实话,我现在对跑分已经无感了,几乎每家模型发布时都会拿跑分说事。

我觉得真正值得关注的,是两个 0%。

一个是「谎报率」,就是模型处理数据出了问题,但它装作没事跟你说搞定了。

Opus 4.5 这个数字是 0.40,Opus 4.7 降到 0.25,到了 4.8 直接归零。

另一个是「偷懒调查率」,就是遇到需要深挖的问题,模型敷衍了事给你一个似是而非的答案。

在这个指标上,Opus 4.7 还有 25% 的概率偷懒,而 Opus 4.8 同样是 0%。

两个 0%,两个历史首次。

如果你用 AI 写过代码、做过数据分析、搞过一些研究,就知道最怕的不是它能力不够,而是它能力不够还装出一副自己很厉害的样子。

Opus 4.8 解决的就是这个问题,它不再假装什么都会,遇到不确定的东西时,也会主动告诉你「这里我没把握」。

在我看来,这个迭代比跑分高 10 个百分点重要得多。

那么,Opus 4.8 和前代的 4.6、4.7 到底有什么本质区别?

经过大概体验后,我把几个核心差异捋一下。

第一,诚实度和可靠性。

我自己目前用的是 Opus 4.6,也是我认为在内容创作上表现最好的模型,没有之一。

在 4.6 版本里,Claude 在诚实性上虽然已经比同行好,但仍然有不少「过度自信」的问题。

后来的 4.7 做了改善,到了 4.8 则彻底解决了。

说白了,4.6 像一个能力不错但爱面子的员工,4.7 像一个严谨且能力很强的员工,4.8 像一个真正靠谱的高级工程师。

第二,效率。

同样的任务,4.8 比 4.7 少用 15% 的步骤,少输出 35% 的 token。

对开发者来说,token 就是成本。做得更好还更省,这才是真正的代际进步。

第三,编码能力的跃升幅度。

这么说吧,4.6 到 4.7 的编码提升是渐进式的,4.7 到 4.8 的提升是跨越式的。

在一些极端测试里,比如给你一个编译好的二进制文件,不准反编译,让模型从零重建源代码。4.8 在 1M token 预算下的表现,4.7 要 5M 才能追上。

第四,Agent 能力本质上的不同。

4.6 的 Agent 能力还处于「能跑但不够稳」的阶段。4.7 稳定性提升了,但遇到复杂情况还是容易走偏。

4.8 有一个明显的变化,它开始有了真正的判断力。

官方放了一个案例,开发者在用 Claude Code 迁移代码,然后中途出去了,Claude 在后台自己跑。

跑到一半代码提交被拒绝了,因为同事在这期间也提交了一个紧急修复。Claude 通知开发者,开发者随口说「直接强制覆盖就行」。

但是,Claude 拒绝了。

它判断出强制覆盖会丢掉同事刚提交的紧急修复,于是自己把两边的改动合并好,保证代码一致、提交历史干净,然后推送。

这不是简单的「执行指令」,这是在该拒绝的时候拒绝。这是 Agent 从工具进化到协作者的关键一步。

这次发布的新能力里还有一个我觉得很强的功能,名字叫「Dynamic Workflows」。

简单说,就是 Claude 接到一个大任务后自己写脚本并分配给很多并行的 子 Agent 去做。

做完之后,再互相检查、互相挑刺,最后汇总结果交给你。

这个功能目前还是预览状态,而且 token 消耗远高于普通对话,不适合随便拿来用。

不过我觉得,这个能力会成为 Claude Code 未来的杀手锏。

我再说个有意思的事。

4.8 上线后不久,有人通过 API 调用问它「你是谁」,它有时候会说自己是 Qwen,有时候说自己是 DeepSeek。

技术社区对此的猜测是,蒸馏。

也就是说,Opus 4.8 的训练过程中可能用了其他模型的输出数据做知识蒸馏。

这个事本身不影响能力,但挺值得玩味。

AI 模型之间的知识流动比我们想象的复杂,你用的可能不是一个纯血模型,而是一个融合了多家智慧的混合体。

最后,总结一下。

首先,Opus 4.8 第一次让 AI 模型做到了诚实。

在所有前沿模型里,它是第一个在可靠性指标上做到零缺陷的。这对企业用户来说,比性能高 5% 重要十倍。

二是效率。

更强的同时更省 token,这直接影响成本结构。虽然依旧不便宜,但是相较于前代能力提升的同时价格维持一致。

三是 Agent 形态的进化。

从单次回答到长任务执行,再到多 Agent 并行协作,Claude 的产品形态已经不再是一个聊天窗口,而是在变成一个工作系统。

此外,Anthropic 同一天还宣布了 650 亿美元融资,估值 9650 亿,逼近万亿美金。

接下来几周,Anthropic 还会放出 Claude Mythos,这头猛兽出来时不知道又会引发什么超级进化。

按照目前的信息,Mythos 是比 Opus 更高一级的模型。有人猜测,Opus 4.8 本身就是 Mythos 的蒸馏版。

如果真是这样,那 Mythos 正式上线的那天,才是真正的分水岭的开始。

对此,我十分期待。

简体中文 English