Meta“Token榜”逼疯打工人,一夜烧掉公司几万刀,AI时代Token焦虑越来越离谱
来源:36kr 3 小时前

Meta 内部把烧 token 当成 KPI

近日,据 The Information 报道,Meta 公司内部出现了一个名为“Claudeonomics”(这一名称源自 Anthropic 旗舰产品 Claude)的 AI token 消费排行榜,该排行榜由员工自愿在公司内网创建,追踪超过 8.5 万名员工的 token 使用情况。

根据该榜单,Meta 内部过去 30 天的消耗掉 token 总量超过 60 万亿。按照 Anthropic 最新公布的定价,其 Claude Opus 4.6 模型中输入和输出 token 的平均成本约为每百万 token 15 美元。以此估算,60 万亿 token 的成本约为 9 亿美元。不过 Meta 实际采用的是哪种模型以及其采购价格,我们尚不清楚。

据悉,Meta 内部个人 token 数消耗最多的达到了 2810 亿,根据模型类型的不同,这笔金额可能价值数百万美元。

在 Meta 内部,消耗最多的 AI 计算能力,正在成为一种新的身份象征。

这种现象反映了硅谷“Token 最大化”文化的兴起——将 token 消耗量作为衡量生产力的基准,并作为评估员工是否“精通人工智能”的竞争指标。

科技公司高管们对这一趋势表示赞同。

英伟达 CEO 黄仁勋上个月表示,如果一名年收入 50 万美元的工程师每年在 AI token 上的花费少于 25 万美元,他会“深感担忧”。

Meta CTOAndrew Bosworth 在二月份的一次科技会议上表示,据《福布斯》报道,一位顶尖工程师如果将相当于自己年薪的金额用于购买 token,其生产力可以提升至多十倍。Bosworth 坦率地说道:“这笔交易的成果显而易见;应该持续投入,而且没有上限。”

特斯拉和 OpenAI 的前顶级 AI 科学家、现任 AI 教育初创公司负责人 Andrej Karpathy 不久前也在播客中也表示:“如果 token 用不完,我会很焦虑。”

如果说 Meta 的 token 排行榜代表的是一种“更多调用等于更高生产力”的工程文化,那么 OpenClaw 的流行则揭示了另一件事:在 Agent 时代,token 的消耗方式正在发生结构性变化。

这只被开发者们反复调教的“数字龙虾”,不再只是一个能聊天、能写代码的模型外壳,而是一个可以持续执行任务、主动调用工具、甚至自行拆解目标的 Agent 系统。它不像传统对话式 AI 那样“问一句答一句”,而更接近一个不下班的执行单元:任务一旦启动,就可能在后台长时间运转,反复推理、调用、修正。

问题正是从这里开始变得微妙。

表面上,OpenClaw 降低了“用 AI 做事”的门槛——你不再需要频繁与模型去交互,系统会替你跑完整个流程;但在更深一层,它也改变了成本的发生方式:越来越多的用户开始意识到,自己消耗的已经不只是“几次对话”的成本,而是一整条任务链条背后的计算开销。

一次看似简单的自动化流程,可能拆分成数十甚至上百次模型调用;一次“让 AI 自己去完成”的指令,背后对应的是长时间的推理轨迹和连续的 Token 流水。

问题也随之浮现:当 Token 的主要消耗来自模型内部推理过程,而不是用户直接需求,把 Token 当作生产力指标本身就可能是一种误判。而这些不可见的 Token 消耗是否真的带来了等价的价值,也需要打个问号。

Token 消耗等同于生产力吗?

Meta 的 Token 消耗排行榜其实引发了不少争议。

彭博社旗下知名媒体人 Joe Weisenthal 在 X 平台上直接质问道:“用 token 总消耗量来衡量生产力究竟有什么意义?”

他还嘲讽道:“这真让人感觉像‘后院炼钢炉’一样”,暗示这种一味追求数字指标而忽视实际质量的做法,就像不计成本地肆意浪费资源一样。

这背后的根本性问题是:token 消耗量是一个投入指标,而非产出指标。就像用打印页数来衡量员工生产力一样,消耗更多 token 并不等同于取得更多成果。一些员工为了提升排名而让 AI 代理闲置数小时的行为,恰恰表明这个指标可以通过“人工数据膨胀”来操纵。

当我们试图厘清“Token 消耗越多,生产力提升就越明显”这一命题是否成立时,必须先将目光投向这些被消耗的 Token 究竟流向了何处

想象这样一个场景:你让 AI 助手帮你拍张照片——听起来是个再简单不过的任务。但在后台,这个“简单”的指令可能触发 20~50 次模型调用。每一次调用都在消耗算力、吞噬 token,而账单最终会精确到小数点后几位送到你面前。

YuanLab.ai 团队专家在接受 InfoQ 采访时表示,“token 由模型生成,对于同一任务,不同模型生成的 token 数量差异较大,其中一些模型的 token 效率较低,大量 token 被消耗在无效内容上——模型在已得出正确结论后仍持续生成反思、自我验证等内容,在一些模型中,这部分无效 token 占比高达 70% 以上,是最核心的浪费来源。

Latency 问题本质上是 token 冗余的外在表现。推理链条越长,单步响应时间越难压缩,在 Agent 多步骤任务中,每一步的延迟叠加会让整体任务响应时间远超预期,进而触发超时重试,反而产生更多 token 消耗,形成恶性循环。

所以真正的 token 成本黑洞,藏在系统的“内耗”中。这种“内耗”的根源不仅在于硬件利用率,更在于系统架构本身。

当用户提出一个任务请求时,AI Agent 系统会进行复杂的调度:任务分解、子任务分配、模型选择、结果整合……这个过程中的每一次调度,都会带来额外的开销。系统调度会把基础模型成本放大 3-5 倍,在极端情况下甚至达到 10 倍。

在复杂多模态文档解析与长链路业务决策中,以企业级财报分析 Agent 任务为例,涉及跨页图文解析、数据抽取、多源对比、结论生成等多个子任务,每个子任务都需要独立的模型调用,且上一步的输出会成为下一步的上下文输入。

在没有推理效率优化的情况下,单任务的 token 消耗可以轻松达到数十万甚至上百万 token,综合算力成本远超人工完成同等工作的成本,从商业逻辑上就已经站不住脚。

更关键的是,这类任务的成本不是静态的。随着业务规模扩大、并发任务增多,成本会以任务数量为系数快速膨胀,而任务成功率和质量却未必同步提升。当单任务的综合算力成本与其创造的实际商业价值做对比时,很多看起来很有潜力的场景,在规模化落地时会发现根本无法实现正向 ROI。

举个例子:用户说“帮我分析这份财报”。

第一步:理解用户意图(调用模型)

第二步:识别需要提取的关键信息(调用模型)

第三步:从文档中提取数据(调用模型)

第四步:验证提取的准确性(调用模型)

第五步:生成分析报告(调用模型)

第六步:检查报告的完整性(调用模型)

……

如果中间某个环节出现偏差,系统还会进行“反思”和“回滚”,重新规划路径。一个看似简单的任务,可能在后台经历了数十次调用。

所以这个问题的结论应该是——在很多场景下,Token 消耗的增长,优先反映的不是生产力提升,而是系统复杂度的上升。甚至可以说:Token 越多,越有可能说明系统越“不会做减法”。

事实上,“Token 消耗不等于生产力提升”这一现象,并不是个别案例,而正在成为行业中的普遍共识。

Token 增长的本质: 系统在为不确定性买单

包括 OpenAI、Anthropic 以及 Google DeepMind 在内的多家机构,在对复杂任务链路(如工具调用、代码生成、长文档推理)的评估中都发现:随着任务复杂度提升,系统往往通过增加中间推理步骤和调用次数来维持成功率,而不是通过单次推理能力的提升来实现效率跃迁

换句话说,当前大量 Agent 系统所呈现出的“高 Token 消耗”,本质上是一种工程层面的补偿机制——它用更多计算去覆盖模型能力的边界。

这也正是问题的关键转折点:如果 Token 的增加主要用于对冲不确定性,而不是直接创造价值,那么优化方向就不应该是“继续增加调用”,而是“减少不确定性本身”

也正是在这样的背景下,行业开始从“如何多做几步”转向一个更本质的问题:如何让模型在更少步骤内,把每一步做对

答案正在变得清晰——决定效果上限的,并不是调用次数,而是每一次调用的质量,以及系统在长链路中的决策稳定性。

YuanLab.ai 团队认为前大量 Agent 系统依赖“多轮调用”来完成复杂任务,本质上是一种技术妥协。当单步推理无法稳定完成意图理解、工具选择与逻辑推演时,系统只能通过增加调用次数,引入反思、验证等机制,用冗余计算来对冲不确定性。这种路径确实可以提升任务成功率,但代价是显而易见的:Token 消耗被成倍放大,延迟不断累积,系统复杂度迅速上升。

换句话说,行业今天普遍采用的“多调用换效果”,并不是因为任务本身必须如此复杂,而是因为底层模型尚不具备在单步内高质量完成决策的能力。当模型能够在一次推理中完成精准的意图识别、合理的路径规划以及可靠的执行决策时,大量中间步骤本身就是可以被压缩甚至消除的。真正高效的 Agent,不应该依赖“多做几次来纠错”,而是依赖“第一次就做对”。

这一点在长链路任务中尤为明显。Agent 系统的核心挑战,从来不只是单步推理,而是跨步骤的一致性与全局规划能力。当模型缺乏对整体目标的把控能力时,系统不得不将任务拆解为大量细碎的子任务,并在每一个环节增加校验机制,以防止误差累积。但这种设计也直接导致了调用次数的指数级增长,使得原本可以在少数步骤内完成的任务,被拉长为一个高冗余的执行流程。

最终结果是,Token 消耗的增长,更多反映的是系统控制能力的不足,而非智能水平的提升。

这种现象,与人类工作方式有着相似的映射。一个经验不足的执行者,往往需要反复确认、多次修正,依赖流程和检查来保证结果;而一个成熟的专家,则可以在更少步骤内完成同样甚至更复杂的任务。两者之间的差异,并不在于“做了多少步”,而在于每一步决策的质量与确定性。当前很多 Agent,更像前者,而非后者。

但有意思的是,在过去几年形成的技术路径中,行业逐渐建立了一种近乎默认的假设:更强的智能,必须建立在更高的算力消耗之上。

从 GPT-3 到 GPT-4,这一逻辑被反复验证,并进一步演化为一种路径依赖——通过更大的模型、更长的上下文、更复杂的推理链,来换取能力提升。当这套思路被延伸到 Agent 系统时,就演变为“用更多调用换更高成功率”的实践惯性,进而推动整个行业走向一场隐性的算力竞赛。

但问题在于,这种以规模驱动的增长方式,正在逼近边界。一方面,Token 成本的持续上升,使得大规模 Agent 部署在经济上变得难以承受;另一方面,调用链条的不断拉长,也让系统延迟和不稳定性问题更加突出。在这种背景下,单纯依赖“多用算力”来换取效果,已经不再具备可持续性。

OpenClaw 所引发的讨论,恰恰指向了另一种可能性:智能的提升,不在于“用得多”,而在于“用得准”。这意味着,下一阶段 Agent 的优化重点,将不再是扩大调用规模,而是提升 Token 的使用效率——减少无效推理、压缩冗余链路、提高单步决策的信息密度,并通过更合理的系统设计降低调度与回滚带来的额外开销。

从这个角度来看,当前 Agent 面临的核心瓶颈,并不是算力不足,而是算力利用效率过低。继续堆叠调用次数,只会带来更高成本和更复杂系统,却未必带来等比例的能力提升。真正决定 Agent 能否走向规模化落地的关键,在于能否用更少的 Token,稳定完成更复杂的任务。

无问芯穹 CEO 夏立雪在 3 月 27 日的中关村论坛年会的一场 AI 主题论坛上,阐明了相似的观点。

夏立雪认为,当前阶段,与其单纯扩张算力规模,不如把已有资源用到极致。围绕这个目标,他提出,应加快构建更高效、标准化的“Token 工厂”,提供持续稳定、规模化的 Token 服务,使顶尖模型能力高效赋能海量下游场景,尽可能提升每一个 Token 的转化效率,让算力“花得值”。

这也意味着,Agent 的竞争,正在从“谁消耗更多资源”,转向“谁更高效地使用资源”。

而这,或许才是 Token 经济真正进入成熟阶段的起点。

OpenClaw 引发 AI 成本结构重塑: 不拼算力,拼效率

当我们将目光投向未来,OpenClaw 带来的启示是深远的。

首先,AI 的成本曲线不必是线性的。行业一直假设更强的模型必然更贵,但 OpenClaw 证明了效率优化可以打破这个魔咒。一个高效训练的模型,可能比一个参数更大但训练低效的模型更强、更省。

其次,算力不是 AI 发展的唯一瓶颈。当 GPU 利用率只有 15%-30% 时,问题不在于算力不够,而在于算力没被好好利用。通过系统优化,我们可以在现有硬件条件下释放数倍的潜力。

最后,AI 的民主化需要效率革命。只有当成本降到足够低,AI 才能从少数科技巨头的专利,变成每个开发者、每个企业都能使用的工具。OpenClaw 的 token 经济学,正在为这个未来铺路。

在这个新时代里,智能不再是昂贵的奢侈品,而是触手可及的基础设施。每一分算力都被珍视,每一次调用都有价值。OpenClaw 这类智能体引发的狂烧 token 的解决办法不应只是简单地省钱,而是让 AI 真正走向高效、可持续的未来。

而这个未来,已经不远了。

简体中文 English