一月烧掉5亿美元才醒悟：把 Token 当 KPI是AI转型里最贵的坑，亚马逊连夜撤下排行榜

来源：36kr 7 小时前

最近，越来越多公司发现：还没等到 AI 真正改造业务，Token 账单先把自己给改造了。原来 AI 转型里最贵的坑，就是把 Token 的使用量当成了员工的 KPI。

某公司的老板大手一挥，给全员开通 Claude 授权，却忘了设上限。一个月烧掉 5 亿美元，折合人民币 30 多亿。等财务反应过来，上亿美元的账单已经在路上。

5 亿美元究竟是怎么烧的？扒开细节，发现其中有相当一大块，都是某些员工跑任务时，反复撞上报错，一遍遍手动点"重试"点出来的。

如果只是一家公司手滑，那叫倒霉。问题是，类似的“事故”一抓一大把。

Meta 内部有人做了一个叫 Claudeonomics （Claude 经济学）的榜单，统计谁用 AI 用得最猛。30 天里，全公司烧掉超过 60 万亿个 Token，光“榜一大哥”一人就占了 2810 亿 Token，将近 50 万美金 / 月。

Uber 最早给 5000 名工程师配齐 Claude Code，使用率几个月内猛冲，结果一季度刚过，CTO 就叫苦不迭：2026 全年的 AI 编程预算已提前烧光。

国内也不遑多让。在阿里云峰会上，米哈游技术负责人就提到，有员工为了做一个项目，搭了几十个 Agent 协作，一晚上烧掉 200 万人民币的 Token。

Token账单为何会如此失控？

高盛今年 5 月的报告《Decoding the Agentic Economy》点破了真相：在 Agentic 模式下，模型由于需要不断进行“思考 - 检索 - 调用工具 - 重新读取完整上下文”的循环，其 Token 消耗量达到了普通问答模式的 1000 倍。

你以为它在思考，其实它也在烧钱。而模型公司、云厂商、芯片公司，更是 心照不宣地把“多用 AI、多烧 Token”包装成了先进生产力的进步。

这时再看 Anthropic 单季度超百亿、估值破万亿美元的造富狂飙，老黄赢麻了的增长曲线，是不是就不难理解了？下游“事故性”烧掉的钱，转身就成了模型公司财报上实打实的进账。同一笔钱，两个视角：一个叫增长，一个叫事故。

烧掉几亿美元或许是个极端案例，但为了烧钱而烧钱的现象，早就成了科技大厂的通病。

直到亚马逊实在看不下去，第一个动了刀。

亚马逊内部曾有一个叫 KiroRank 的榜单，挂在自家的 Kiro 开发者平台上，按工程师消耗的 Token 量排名。

加上公司此前下了硬指标，要求八成以上员工每周必须用 AI，榜单一出，员工纷纷开始 Tokenmaxxing：派 Agent 去干根本没必要的活，把 Token 烧成排名，再把排名内化成职场安全感。

最后，亚马逊高级副总裁 Dave Treadwell 终于坐不住了，在内部大会上呼吁强调：不要为了用 AI 而用 AI。

榜单随即被下线，新指标也换成了“normalised deployments（标准化部署量）”，衡量工程师到底有没有用 AI 交付出真正有用的代码，而不是单纯数你烧了多少 Token。

作为云计算霸主，亚马逊当然信 AI，但它也亲自证明了一件事：AI 使用量这个指标，太容易被污染。

你统计 Token，员工就会刷 Token；你统计 Prompt 数，员工就会编 Prompt；你暗示“不用 AI 就落后”，员工就会想办法证明自己没落后。

经济学里有个古德哈特定律：当一个指标变成目标，它就不再是一个好指标。

到了 AI 时代，这句话可以换一个说法：当 Token 成了 KPI，它就不再是生产力指标，而是一张会自动膨胀的云账单。以前卷工时，现在卷 Token；以前 KPI 注水，现在云账单注水。技术进步了，职场的底色一直没变。

亚马逊并不是唯一踩刹车的人。

Shopify 已经把 Token 排行榜改成更中性的使用仪表盘，加上熔断机制。Duolingo 曾经想把 AI 使用情况纳入绩效考核，后来撤回；微软也开始收缩部分外部 AI 编程工具授权。

那些已经烧掉的钱，并不会凭空消失。一家公司的失控，往往是另一家公司的报表。

看 Anthropic，一季度收入 48 亿美元，预计二季度翻倍至 109 亿美元。这条曲线靠什么撑起来？不是普通用户闲聊，而是企业 API、Claude Code 以及无数公司内部那套“全员 AI”“Agent 先跑起来再说”的组织冲动。

再看卖铲子的英伟达，最新季度收入 816 亿美元，这不只是 AI 信仰，还是实打实的现金流。

现在你再看黄仁勋那句话，味道就变了。昨天他才在 GTC Taipei 上说，从产业角度看，Token 已经成为资产和营收单位。这句话聪明之处就在于，它悄悄偷换了主语。

Token 的消耗，在普通企业的账本上，明明是成本，是要被财务追着问“这钱花得值不值”的支出。

只有站在上游厂商的账本上，Token 才确实是资产：Token 越多，推理越多；推理越多，老黄的 GPU、网络、液冷都得跟着卖。站在 Anthropic 的账本上也是资产：企业每多跑一轮 Agent，最后都会变成它的营收和利润率。

但站在下游企业的账本上，Token 首先是成本。成本不是不能花，但只有换回更短流程、更少返工、更强交付，才有资格叫资产。如果 token 只是为了排行榜和先进性的证明来烧钱，那不过是更贵的形式主 义。

AI 提效的战场，并不在 Token 榜单

当然，这并不是要回到保守主义，否则投资 AI 的价值。问题是，很多公司把 AI 落地理解得太浅了。

他们以为给员工开账号就是 AI 转型，以为使用率上去了就是组织进步，以为 Token 烧得多就是 AI 用得深。

率先投身这场“转型”的 Uber COO，分享了激进之后的醒悟：我们的代码确实多交付了一些，但很难把它和“给用户做出了更有用的功能”划上等号。

这并非个例，代码分析公司 GitClear 扒了 2.2 亿行代码，发现用 AI 辅助后，写完两周内就得返工的代码，翻了 9 倍；复制粘贴的重复代码翻了 8 倍。很多时候，企业只是把人类低效的地方，换成了模型以更贵的方式低效一遍。

真正的 AI 组织提效，并不在 Token 榜单上，而发生在业务深处。企业 AI 落地最难的地方，不是给员工开账号，而是让模型穿透工作流。

这也是为什么现在 OpenAI、Anthropic 都在重金招募 Forward-Deployed Engineer（前向部署工程师），深入客户内部去拆流程、理权限、做集成—— 因为他们也已经意识到，光是 API 层面的交付，根本落不了地。

上游公司当然会继续讲 Token 的故事，但那毕竟是别人的增长故事。普通企业如果不先把自己的业务问题、流程结构想清楚，就急着把别人的故事搬进自己的 KPI，最后只会沦为别人财报里的配角。

你这一头的事故，就是那一头的营收。 会烧 Token 并不算本事，能说清楚“这笔钱到底让组织哪里变好了”才算。