Claude Opus 4.6差评如潮,思考深度暴跌67%,AMD总监6852次日志打脸
来源:36kr 2 小时前

Claude偷偷降智,终于被发现了!

从今年2月前后,不少Claude用户明显感觉产品「变了」,怨声载道:看似没有系统故障,但输出更浅、更急于给出修改结果,简单的任务也会多次失败。

同时,过去几乎不出现的stop hook违规提示也开始显著增多,token飙升。

你的第一反应是什么?就像崩溃的网友Capital-Run-1080一样:「一定是我自己的问题。」

你开始反思:是不是我的提示词(Prompt)写得不够好?是不是我的工作流变了?

在无数个技术论坛里,当用户抱怨AI变笨时,官方的默认回复永远是高高在上的那句——「请检查您的设置」。

微妙的是Anthropic的态度: 一直假装无事,没吭声,直到有人晒出数据:Claude的「思考深度」下降了67%!

刚刚,更大的曝料来了:Claude Opus 4.6疑是大翻车,20倍价格却性能倒退,根本无法激活对应计划模式!

你以为你在购买一张通往未来AGI的船票,实际上,船长为了省油,偷偷关掉了雷达。

Claude降智,6852次日志里的铁证

几天前,一记重锤砸碎了这种「大厂PUA」。

在GitHub上,AMD的AI总监Stella Laurenzo直接甩出了近三个月内6852次真实会话的监测日志,终于用数据量化了开发者们几周以来的感受。

结论很直接:「对复杂的工程任务而言,Claude已经不能用了。」

AMD换了供应商。

数据证明,Claude Code的确降智了:

2月底思考深度已崩盘67%,随后Anthropic向用户隐藏了推理过程。

代码阅读次数从6.6次/编辑骤降至2.0次,Claude在接触你的文件前就停止了研究。

3月8日后「懒惰钩子」触发173次,此前从未触发过。

API成本因重试暴增80倍,因为浅层思考导致持续输出错误、中断和重试。

一个连代码都不愿看全的AI,你敢把核心工程托付给它吗?

它不再是那个「谋定而后动」的智者,而沦为了一个急于打卡下班的「赛博油条」。

这也是为什么很多开发者这次彻底破防。

因为他们发现,自己不是在用AI提效,而是在给一个不肯认真读题的模型,反复交学费。

复杂任务最怕的,就是半懂不懂地乱改。

这被称之为「AI缩水」——价格不变,但推理能力明显缩水。

即便是200美元的Claude Code Opus 4.6 Max 20X,也中招了!

两年来,Claude Code第一次识别不出来原生的规划模式(Plan Mode),甚至不知道如何激活该模式。

被指出实现得一团糟后,一个项目被它重写了两次 。之后,Claude Code连自己内置的 Plan Mode 工具都不认识.

让惨遭「赛博鬼打墙」的用户,十分失望,不仅怀疑:花最高20倍的价格到底买来了什么?

显然,没买了智能计算、甚至没买来准确的代码补全,最后连连基本的能力都已经崩溃了。

这位过去的Claude Code的粉丝,彻底转黑粉了,直骂:

(现在的Claude)简直是垃圾。标准低到我已经在看Hugging Face的替代方案了。

Anthropic意在何方?

问题来了,Anthropic到底有没有动过什么Claude?

微妙的地方,就在这里。

如果官方死咬「完全没变」,这件事反而简单。

可现在,Anthropic回应里确认了两件很关键的事。

2月9日,「自适应思考」(adaptive thinking)默认引入。

3月3日,Opus4.6默认思考等级effort被调到「中级」(medium)。

Anthropic给出的说法很体面:

这是在智能、延迟、成本之间,找到一个「甜蜜点」(sweet spot)。

听起来很合理,也很像所有大厂最擅长的那种话术——

不是降级,是优化。不是缩水,是平衡。

可对重度用户来说,他们听懂的只有一句话:默认值,真的被改了。

而默认值,才是这个AI时代真正的权力中心。

因为绝大多数人,不会天天盯着性能曲线,不会每次手动切高,也不会拿着版本记录和行为日志逐项核对。

他们买的,不是某个看不见的参数,买的是一种稳定预期。

昨天,你用这个模型,能把复杂仓库摸透。今天你打开它,也理所当然以为它还是那样。

结果,名字没变。界面没变。价格没变。变的,是后台那只你看不见的手。

再往深一层看,这件事真正吓人的,还不是Claude一个模型,而是它像一个提前泄露的行业趋势。

今天,所有大模型公司都在算三笔账:

第一笔,延迟。用户嫌慢。

第二笔,成本。推理太贵。

第三笔,吞吐。服务更多人。

这三笔账,只要同时压过来,平台就一定会产生一种冲动——

在用户不敏感的地方,偷偷收一点「脑力税」——

把默认思考调浅一点。把深入阅读压缩一点。把多轮推理收窄一点。

平均看,也许更划算。报表上,也许更漂亮。

可对那些把AI当生产工具的人来说,天塌了。

因为复杂工作最值钱的,从来不是「输出速度」,是质量,是「先理解,再动手」的那段沉默。

那几秒、几十秒,甚至几百个Token的审慎,才是质量真正站得住的地方。

一旦这段沉默被平台拿去换利润,用户拿到的就不再是同一个东西。

它还能说话,还能写代码,甚至还更流畅。

但你已经不敢把关键任务交给它了。

这就像一辆车,发动机还在响,方向盘也能转,油门踩下去也还能冲。

只是刹车,悄悄薄了一层。

登上船了,才发现是泰坦尼克号

最要命的是,未来真正昂贵的AI服务,不是宣传页上跑分多漂亮,而是你下次把重要任务扔给它时,不会先吸一口凉气。

所以,Claude这次捅破的,不只是Anthropic的一层窗户纸。

它把整个行业一个最不愿意被问的问题,硬生生拖到了台前:

如果默认thinking effort、推理预算、思考可见性会直接影响结果质量, AI 公司凭什么可以悄悄改?

如果这种改动会让用户多花几十倍成本返工,需不需要明确公告?需不需要稳定档位承诺?

今天,Claude Code身上发生的事,像一记很响的耳光。

它打醒的,不只是Anthropic的用户,而是所有正在把工作、判断、时间,越来越深地交给大模型的人。

我们以为自己买的是一张通往未来的船票。

后来才发现,船还在开,灯也亮着。只是船长为了省油,已经悄悄关掉了雷达,而你不知道冰山在何处!

而真正该害怕的,不是这一艘船,是整个行业,都开始觉得这么干很正常。

如果一个模型可以在你毫无察觉时被调低思考深度,那么你买下的从来不是智能,而是一种随时可能被回收的体验。

这,才是Claude「降智门」最冷的地方。

在4月8日,Anthropic关闭了Github上的issue,但没有解释到底解决了什么。

参考资料: 

https://github.com/anthropics/claude-code/issues/42796 

https://news.ycombinator.com/item?id=47660925 

https://x.com/om_patel5/status/2041971334553727076 

简体中文 English