2026年,人类在工作上最“奢侈”的消费是什么?答案并不是买一部性能顶配的电脑,或是置办几身体面的行头,而是能够不受限制、不计成本地使用这个世界上最先进的AI工具。
这意味着你不用为了控制成本,绞尽脑汁优化提示词,生怕弹出一句“今日免费额度已用完”;也不用再三对比,舍不得累到心爱的Claude(由美国AI公司Anthropic开发的大语言模型),只能把不那么重要的工作交给更便宜、更轻量的模型处理。
AI当然好用,但每用一次都对应着成本,Token(词元)消耗量贵到你有点用不起了。斤斤计较、小心翼翼,成了如今AI“牛马”们最真实的状态。
这让人想到了二十年前,拨号上网的时代。那时带宽紧缺且昂贵,开发者为了节约网站的带宽消耗,尽可能压缩图片、精简代码,几乎不敢上传视频。像土豆网这样的视频领域创业公司是极少数,视频所带来的带宽消耗成为网站运营的成本大头。
昨日重现。
在AI产业链条上,算力像水一样自上而下流动。从上游的GPU(图形处理器)和数据中心出发,经由云厂商、模型厂商,被封装成API(应用程序编程接口)接口,最终流向开发者和普通用户,变成一次次具体的调用、一个个可以计价的Token。它看似无形,却在每一个环节都对应着清晰的成本,GPU折旧、电力消耗、高带宽存储,最终都会汇总成账单。
现在,这条水管正在变得拥堵。一头是需求在爆发,多模态、Agent(智能体)等复杂推理场景让Token消耗量千倍增长,另一头则是供给仍未解绑,GPU、HBM(高带宽存储器)、电力和数据中心建设都存在物理极限,GPU利用率仍处于较低位置。聪明是有代价的,虽然爆发式增长导致Token单价更便宜了,但调用它需要花的钱却越来越多。
涨价逐级传导。上游GPU有价无市、算力紧缺,中游云厂商率先调整价格,亚马逊云、谷歌云、百度云、阿里云等,在过去一个季度相继上调部分AI相关服务费用,模型厂商也结束补贴周期,腾讯、阿里等接连停止免费公测,提高API调用价格,其中,腾讯混元大模型最高涨价463%。
模型和应用侧的涨价,让算力不再是独属巨头竞争中的抽象概念,它以Token的形式,给每个普通人也上了一堂付费课。就像当年的流量,以MB(手机上网流量单位)为单位计价,号主一不留神就会欠费停机。
黄仁勋日前提出的“Token经济学”概念,认为推理已成为AI最核心的工作负载,Token则是新的大宗商品——标准化、可计量、可交易。由此Token从模型训练的技术副产品,演变为驱动数字经济的核心生产要素。
在黄仁勋看来,“Token”作为商品是有质量的优劣之分的。从免费层到顶级层,每百万Token价格从0美元到150美元不等。低时延、高交互的Token(如实时对话、智能驾驶)需要昂贵算力,定价高;高吞吐、离线处理的Token(如大规模离线推理、批量数据处理)对时延不敏感,可以用便宜算力生产,定价低。
Token已经作为“商品”产生价值分层了,那使用它的人呢?或许未来,“下沉市场”人群的定义,也不再仅限于能否消费得起实体商品了。
AI使用者,被焦虑裹挟
“我难道不是尊贵的会员吗?”3月11日晚,苏玉看着电脑屏幕上跳出的弹窗,有点生气。弹窗提示她,本周Token使用量已达到限额的90%,限额消耗完后将暂停相关模型的使用,直到下周限额更新。
苏玉是某高校在读博士研究生,最近在准备毕业大论文。过去三年,谷歌旗下的Gemini、OpenAI旗下的ChatGPT,一直是她的最佳拍档,她也是这两个“AI长工“的忠实订阅用户。今年2月中旬,Anthropic旗下的Claude也加入了她的队伍,并很快成为她最信任的一个。
“Claude太好用了,工具属性太强了。”苏玉说。她让几款AI应用同时为她梳理、设计研究思路模型,ChatGPT给出的答案逻辑不够严密,Gemini太过浮夸谄媚,只有Claude,像一位客观专业的高级顾问,逐字阅读过客户需求后,才输出了一份真正可使用、有启发的方案。
免费使用半个多月后,苏玉花费大约180元人民币开通了Claude的月度会员。和Gemini、ChatGPT相比,Claude特殊的地方在于它对会员也设置了每日和每周Token消耗的限额。这其实能理解,根据全球知名的大模型盲测榜单LMArena,截至3月20日,Claude的主力模型Claude-Opus-4-6-thinking排名全球第一。
但苏玉从未感受到如此直接的Token限制。第一次触发Claude限额机制时是周三,“扎根理论”了解到一半就不能再调用了,那一刻她颇有一种“学术停滞”的无力感。习惯了Claude的辅助,她很难再回到最初做科研的状态。她尝试“手搓”,翻阅最原始的理论书籍,但效率极低,有些经过翻译的资料她也不完全相信,“最后我还是要等Claude恢复使用后复核一遍。”四天时间,她等得很煎熬。
Claude限用让苏玉异常焦虑。在一个周二,苏玉发来一张Claude后台截图,上面显示她本周的限额已经使用了45%。“这周才过去不到两天!我已经用得很节省了,一天只讨论一个论文选题,它就到限额了!”苏玉情绪有点崩溃,谁说AI不能替代人类?这个AI已经快比她的导师还难搞了。

● 苏玉的Claude后台。图源:受访者
她已经养成了提一个问题就去看一眼后台的习惯,生怕没米下锅。想起以前竟然还和Claude老师唠闲嗑,让它帮自己做PPT,她心里直骂自己浪费。
这种对“好用的模型”的谨慎使用,正逐渐变得普遍。一位AI影视行业创业者告诉我,他所在团队在使用字节跳动的AI视频模型“即梦”时,会同步接入其他多家模型厂商的API,“效果好的模型确实更贵,我们只能在不同模型之间切换,去平衡成本。”
不久前,即梦下调会员积分额度,他一方面觉得很正常,“C端本来就在补贴,现在只是收回一部分”。但另一方面又为自己的处境担心,叹息“这下更用不起了”,AI成本上涨,有时候会直接卡住小创业者的生命线。
终端用户为Token焦虑,模型厂商也在为算力成本焦虑。
谈及Token调用量暴增的原因,中国工程院院士王坚此前借用电力的发展做了类比,早期人工智能应用就像是“点电灯”,消耗电量有限。而以OpenClaw(智能体)为代表的新一代应用,则像是开启了“空调”,需要耗费的电力也越来越多。
不过,王坚强调,这种增长不仅意味着应用普及,更意味着单体Token成本的下降。“如果电价不降,老百姓是用不起空调的。”
但相比早期一问一答的简单调用,如今越来越多任务通过Agent完成。模型需要自行拆解问题、调用工具、写代码、调试、再修正,一次看似简单的请求,背后往往对应的是多轮推理和多次API调用,Token消耗呈指数级放大,虽然单价降低了,但总体所需要的算力成本更高昂了。
“模型变更大了,推理成本也相应提高了,我们也希望把它回归到正常的商业价值上。长期靠低价竞争,对整个行业发展并不利,这也是我们的一个考量。”智谱CEO张鹏说。最近两个月,智谱三次上调GLM(智谱研发的大语言模型)系列模型价格,部分模型价格已逼近国际头部模型定价水平。
张鹏的另一个担心是,“未来12个月面临的最大问题可能就是算力。所有的技术,包括智能体框架,让很多人的创造力与效率提升了10倍。但前提条件是,大家能够用得起来,不能因为算力不够,导致一个问题让Agent思考半天也不给我答案。”
流动的算力,累加的成本
按照Claude的计算方式,100 Tokens大约相当于75个英文单词或50个汉字,而Token输出的价格是输入价格的五倍——这是一个最简单的换算方式。换言之,AI的每一个回答都要经过深思熟虑,后台思考、查询、生成,乃至模型幻觉带来的错误消耗的Token,都会被计算在内,最终变成真金白银的账单。
智能纪元AGI创始人林志佳算过一笔账。他养了四个“龙虾”,有本地部署的,也有云端部署的。以云端部署为例,他按月购买了Coding Plan(AI编码订阅服务),大约30-40元人民币,在3月还剩9天的时候,他的Token消耗量还不到套餐额度的10%——作为媒体人,他对Token的需求其实并不大。
但按照Token来计费又不太划算。“如果我只是每天早上九点让它给我发条新闻,消耗的Tokens价格大概0.9元人民币,30天大概二十多块钱,已经跟买Coding Plan的钱差不多了。有时候还有损耗、还有模型更新,光更新就可能要消耗三四块钱的Tokens。”
在不同计费方式之间权衡,几乎成了高频使用者的日常,而购买Token花费的一分一厘,最终都指向同一件事——算力,以及背后对应的GPU折旧成本和数据中心的耗电。
GPU成了一切的起点,高端芯片的供给决定了整个系统的上限。“除了给部分客户预留的备用机,其他基本都卖完了,一卡不剩。”优刻得架构技术中心副总经理刘华说。
GPU之下,还要搭建起数据中心、网络和存储系统——高速互联、低延迟传输,这些都不是“即插即用”的标准件。刘华提到,仅网络和存储部分,成本就可能占到整体算力成本的20%左右。
再下一层,是模型厂商和API服务商。他们把大模型部署在这些基础设施之上,封装成标准化接口,供开发者调用。近两年,这几层角色开始出现重叠,云厂商既卖算力也提供模型API,逐渐成为连接GPU、模型和开发者的中枢。

● 算力是如何流动的示意图。图源:AI生成
算力就这样一层一层向下渗透,最新的变化是在产业的需求端。“以前AI大部分是To B在付费,现在To C端付费也越来越普及了。”林志佳说。模型被封装成API,入口被简化,使用门槛降低,个人开发者甚至普通用户,都可以直接调用底层算力。“现在基本上刷一刷社交平台,大家就知道怎么用了。”
算力甚至出现零售化趋势。2024年前后,一些云厂商开始推出GPU“日卡”、轻量级云主机,甚至“一键部署”的体验产品。比如优刻得面向“养虾户”推出的6.9元体验套餐,本质上更像一张门票,把复杂的环境配置和算力调度打包好,让用户用极低成本试一次。“很多人其实是来‘排雷’或者尝鲜的,”刘华说,“大家都有点焦虑,怕落后。”
但门槛降低,并不意味着成本下降。在刘华看来,“用互联网发展阶段类比,现在的算力成本毫无疑问还是在一个发展初期、很贵的阶段。”正因为如此,开发者才会精打细算,平台也不敢轻易放开调用规模。
即便是头部厂商也在做取舍。OpenAI此前关停视频生成项目Sora,被不少业内人士解读为算力与投入产出之间的权衡,在资源有限的情况下,优先集中到更核心的模型能力和业务上。阿里巴巴、腾讯、字节跳动等互联网大厂,近期对AI业务做的一系列调整,核心也是一种算力资源聚焦。
大家都正在意识到一件事:未来拼的不是算力规模,而是算力利用率。算力紧缺带来的连锁效应,是AI时代一场漫长的梅雨,每一个身处时代的人都会免不了潮湿。
算力流动到末端发生了什么
苏玉正在尝试分配和调度算力资源。
她把不同模型分了层级:ChatGPT用来写公文、整理简报,Gemini负责画图、处理语言细节,Claude则专门用在最核心的环节,比如研究框架、思路设计、长文本分析。这样能保证她的效率和钱包都效果最大化。
比如,她最近在处理一批访谈材料,会先让Claude给出分析框架,再把这个框架“丢”给Gemini去做初始编码。“我更相信Claude给的指导性的东西,但细节性的工作可以交给便宜一点的模型。”如果Claude不限额,她甚至会停用Gemini。
当然,这并不是在给Claude打广告,只是苏玉认为自己的需求更适用这一款应用。好用的模型变得稀缺,而稀缺的资源只会被用在最关键的地方。
为了进一步节省,很多用户都和苏玉一样,开始在细节上抠成本。
社交平台上,一度流行起用文言文与AI对话,因为更短的字数意味着更少的Token。也有人认为,跟风对AI说“你好”“谢谢”,是否也是一种不必要的资源浪费?毕竟,AI并不需要情绪价值。
其实很多浪费并不在用户可控范围内,有时是模型接入和运行方式的问题。
不久前,MiMo大模型团队负责人罗福莉提到,“我没办法严格计算第三方harness(驾驭)接入造成的损失,但我近距离看过OpenClaw的上下文管理,很糟糕。在单次用户查询里,它会触发多轮低价值工具调用,每轮作为独立API请求发出,每个请求携带的上下文窗口往往超过 100K Tokens。实际请求次数是Claude Code原生框架的数倍。折算成API定价,真实成本大概是订阅价格的数十倍。”
回到使用问题上,用户主动节省Token,平台也不敢完全放开用户规模,这种基于节省成本的“束手束脚”,比如OpenAI正在面临一种矛盾——其在2025年上半年创造了43亿美元的收入,同期,该公司净亏损高达135亿美元,这意味着OpenAI每赚一美元,就会损失三美元。亏损的大头正是对算力的投入。
在当下,算力已经不再只是有没有的问题,而是能不能持续用、能用到什么程度。当AI足够好用,人会围绕它重新组织工作方式;当Token变得昂贵而有限,这种新的组织方式本身也会被迫收缩。
如果未来算力无法真正像电力一样普及,那么AI必然会引起分化,人与人之间的认知差距会进一步拉大。比如苏玉,她并不打算把自己的AI使用方法完全分享给身边人,如何和Claude老师交互、喂什么样的语料,这是她的小秘密,短期内也是她的竞争力。
如果同事请她推荐好用的模型,她会强烈推荐Gemini和ChatGPT,“当然,DeepSeek也是个好选择”。苏玉调皮地眨了眨眼。
在“一人公司(OPC)”“超级个体”逐渐流行的当下,这样的“小心机”并不罕见。当AI的好用程度对应成一个个可以计价的Token,真正拉开差距的,其实是如何使用它的人。
(文中苏玉为化名)
参考资料
智能涌现:《杨植麟/张鹏/夏立雪/罗福莉/黄超,谈龙虾,谈“token经济学”》
每日经济新闻:《AI催生巨量token消耗、内存硬件紧缺 算力租赁热潮下,运营商加码布局液冷服务器》《智谱张鹏:当模型足够强,API本身就是最好的商业模式》
界面新闻:《智谱股价刷历史新高,新一代模型再度提价10%》
深潮TechFlow:《token出海,将中国电力卖给全世界》
硅星人Pro:《罗福莉:各位醒醒吧,该结束token虚假狂欢了》

