一月烧掉5亿美元才醒悟:把 Token 当 KPI是AI转型里最贵的坑,亚马逊连夜撤下排行榜
来源:36kr 7 小时前

最近,越来越多公司发现:还没等到 AI 真正改造业务,Token 账单先把自己给改造了。原来 AI 转型里最贵的坑就是把 Token 的使用量当成了员工的 KPI。

某公司的老板大手一挥,给全员开通 Claude 授权,却忘了设上限。一个月烧掉 5 亿美元,折合人民币 30 多亿。等财务反应过来,上亿美元的账单已经在路上。

5 亿美元究竟是怎么烧的?扒开细节,发现其中有相当一大块,都是某些员工跑任务时,反复撞上报错,一遍遍手动点"重试"点出来的。

如果只是一家公司手滑,那叫倒霉。问题是,类似的“事故”一抓一大把

Meta 内部有人做了一个叫 Claudeonomics (Claude 经济学)的榜单,统计谁用 AI 用得最猛。30 天里,全公司烧掉超过 60 万亿个 Token,光“榜一大哥”一人就占了 2810 亿 Token,将近 50 万美金 / 月。

Uber 最早给 5000 名工程师配齐 Claude Code,使用率几个月内猛冲,结果一季度刚过,CTO 就叫苦不迭:2026 全年的 AI 编程预算已提前烧光

国内也不遑多让。在阿里云峰会上,米哈游技术负责人就提到,有员工为了做一个项目,搭了几十个 Agent 协作,一晚上烧掉 200 万人民币的 Token

Token账单为何会如此失控?

高盛今年 5 月的报告《Decoding the Agentic Economy》点破了真相:在 Agentic 模式下,模型由于需要不断进行“思考 - 检索 - 调用工具 - 重新读取完整上下文”的循环,其 Token 消耗量达到了普通问答模式的 1000 倍

你以为它在思考,其实它也在烧钱。而模型公司、云厂商、芯片公司,更是 心照不宣地把“多用 AI、多烧 Token”包装成了先进生产力的进步。

这时再看 Anthropic 单季度超百亿、估值破万亿美元的造富狂飙,老黄赢麻了的增长曲线,是不是就不难理解了?下游“事故性”烧掉的钱,转身就成了模型公司财报上实打实的进账。同一笔钱,两个视角:一个叫增长,一个叫事故。

亚马逊先动手了 

烧掉几亿美元或许是个极端案例,但为了烧钱而烧钱的现象,早就成了科技大厂的通病。

直到亚马逊实在看不下去,第一个动了刀。

亚马逊内部曾有一个叫 KiroRank 的榜单,挂在自家的 Kiro 开发者平台上,按工程师消耗的 Token 量排名。

加上公司此前下了硬指标,要求八成以上员工每周必须用 AI,榜单一出,员工纷纷开始 Tokenmaxxing:派 Agent 去干根本没必要的活,把 Token 烧成排名,再把排名内化成职场安全感。

最后,亚马逊高级副总裁 Dave Treadwell 终于坐不住了,在内部大会上呼吁强调:不要为了用 AI 而用 AI。

榜单随即被下线,新指标也换成了“normalised deployments(标准化部署量)”,衡量工程师到底有没有用 AI 交付出真正有用的代码,而不是单纯数你烧了多少 Token。

作为云计算霸主,亚马逊当然信 AI,但它也亲自证明了一件事:AI 使用量这个指标,太容易被污染。

你统计 Token,员工就会刷 Token;你统计 Prompt 数,员工就会编 Prompt;你暗示“不用 AI 就落后”,员工就会想办法证明自己没落后。

经济学里有个古德哈特定律:当一个指标变成目标,它就不再是一个好指标。

到了 AI 时代,这句话可以换一个说法:当 Token 成了 KPI,它就不再是生产力指标,而是一张会自动膨胀的云账单。以前卷工时,现在卷 Token;以前 KPI 注水,现在云账单注水。技术进步了,职场的底色一直没变。

亚马逊并不是唯一踩刹车的人。

Shopify 已经把 Token 排行榜改成更中性的使用仪表盘,加上熔断机制。Duolingo 曾经想把 AI 使用情况纳入绩效考核,后来撤回;微软 也开始收缩部分外部 AI 编程工具授权。

你的成本:老黄的资产 

那些已经烧掉的钱,并不会凭空消失。一家公司的失控,往往是另一家公司的报表。

看 Anthropic,一季度收入 48 亿美元,预计二季度翻倍至 109 亿美元。这条曲线靠什么撑起来?不是普通用户闲聊,而是企业 API、Claude Code 以及无数公司内部那套“全员 AI”“Agent 先跑起来再说”的组织冲动。

再看卖铲子的英伟达,最新季度收入 816 亿美元,这不只是 AI 信仰,还是实打实的现金流

现在你再看黄仁勋那句话,味道就变了。昨天他才在 GTC Taipei 上说,从产业角度看,Token 已经成为资产和营收单位。这句话聪明之处就在于,它悄悄偷换了主语。

Token 的消耗,在普通企业的账本上,明明是成本,是要被财务追着问“这钱花得值不值”的支出

只有站在上游厂商的账本上,Token 才确实是资产:Token 越多,推理越多;推理越多,老黄的 GPU、网络、液冷都得跟着卖。站在 Anthropic 的账本上也是资产:企业每多跑一轮 Agent,最后都会变成它的营收和利润率

但站在下游企业的账本上,Token 首先是成本。 成本不是不能花,但只有换回更短流程、更少返工、更强交付,才有资格叫资产。如果 token 只是为了排行榜和先进性的证明来烧钱,那不过是更贵的形式主 义。

AI 提效的战场,并不在 Token 榜单 

当然,这并不是要回到保守主义,否则投资 AI 的价值。问题是,很多公司把 AI 落地理解得太浅了

他们以为给员工开账号就是 AI 转型,以为使用率上去了就是组织进步,以为 Token 烧得多就是 AI 用得深。

率先投身这场“转型”的 Uber COO,分享了激进之后的醒悟:我们的代码确实多交付了一些,但很难把它和“给用户做出了更有用的功能”划上等号。

这并非个例,代码分析公司 GitClear 扒了 2.2 亿行代码,发现用 AI 辅助后,写完两周内就得返工的代码,翻了 9 倍;复制粘贴的重复代码翻了 8 倍。很多时候,企业只是把人类低效的地方,换成了模型以更贵的方式低效一遍。

真正的 AI 组织提效,并不在 Token 榜单上,而发生在业务深处。企业 AI 落地最难的地方,不是给员工开账号,而是让模型穿透工作流。

这也是为什么现在 OpenAI、Anthropic 都在重金招募 Forward-Deployed Engineer(前向部署工程师),深入客户内部去拆流程、理权限、做集成—— 因为他们也已经意识到,光是 API 层面的交付,根本落不了地

上游公司当然会继续讲 Token 的故事,但那毕竟是别人的增长故事。普通企业如果不先把自己的业务问题、流程结构想清楚,就急着把别人的故事搬进自己的 KPI,最后只会沦为别人财报里的配角。

你这一头的事故,就是那一头的营收。 会烧 Token 并不算本事,能说清楚“这笔钱到底让组织哪里变好了”才算。

简体中文 English