用不起Token的我，成了AI时代的下沉市场人群

来源：36kr 3 小时前

2026年，人类在工作上最“奢侈”的消费是什么？答案并不是买一部性能顶配的电脑，或是置办几身体面的行头，而是能够不受限制、不计成本地使用这个世界上最先进的AI工具。

这意味着你不用为了控制成本，绞尽脑汁优化提示词，生怕弹出一句“今日免费额度已用完”；也不用再三对比，舍不得累到心爱的Claude（由美国AI公司Anthropic开发的大语言模型），只能把不那么重要的工作交给更便宜、更轻量的模型处理。

AI当然好用，但每用一次都对应着成本，Token（词元）消耗量贵到你有点用不起了。斤斤计较、小心翼翼，成了如今AI“牛马”们最真实的状态。

这让人想到了二十年前，拨号上网的时代。那时带宽紧缺且昂贵，开发者为了节约网站的带宽消耗，尽可能压缩图片、精简代码，几乎不敢上传视频。像土豆网这样的视频领域创业公司是极少数，视频所带来的带宽消耗成为网站运营的成本大头。

昨日重现。

在AI产业链条上，算力像水一样自上而下流动。从上游的GPU（图形处理器）和数据中心出发，经由云厂商、模型厂商，被封装成API（应用程序编程接口）接口，最终流向开发者和普通用户，变成一次次具体的调用、一个个可以计价的Token。它看似无形，却在每一个环节都对应着清晰的成本，GPU折旧、电力消耗、高带宽存储，最终都会汇总成账单。

现在，这条水管正在变得拥堵。一头是需求在爆发，多模态、Agent（智能体）等复杂推理场景让Token消耗量千倍增长，另一头则是供给仍未解绑，GPU、HBM（高带宽存储器）、电力和数据中心建设都存在物理极限，GPU利用率仍处于较低位置。聪明是有代价的，虽然爆发式增长导致Token单价更便宜了，但调用它需要花的钱却越来越多。

涨价逐级传导。上游GPU有价无市、算力紧缺，中游云厂商率先调整价格，亚马逊云、谷歌云、百度云、阿里云等，在过去一个季度相继上调部分AI相关服务费用，模型厂商也结束补贴周期，腾讯、阿里等接连停止免费公测，提高API调用价格，其中，腾讯混元大模型最高涨价463%。

模型和应用侧的涨价，让算力不再是独属巨头竞争中的抽象概念，它以Token的形式，给每个普通人也上了一堂付费课。就像当年的流量，以MB（手机上网流量单位）为单位计价，号主一不留神就会欠费停机。

黄仁勋日前提出的“Token经济学”概念，认为推理已成为AI最核心的工作负载，Token则是新的大宗商品——标准化、可计量、可交易。由此Token从模型训练的技术副产品，演变为驱动数字经济的核心生产要素。

在黄仁勋看来，“Token”作为商品是有质量的优劣之分的。从免费层到顶级层，每百万Token价格从0美元到150美元不等。低时延、高交互的Token（如实时对话、智能驾驶）需要昂贵算力，定价高；高吞吐、离线处理的Token（如大规模离线推理、批量数据处理）对时延不敏感，可以用便宜算力生产，定价低。

Token已经作为“商品”产生价值分层了，那使用它的人呢？或许未来，“下沉市场”人群的定义，也不再仅限于能否消费得起实体商品了。

AI使用者，被焦虑裹挟

“我难道不是尊贵的会员吗？”3月11日晚，苏玉看着电脑屏幕上跳出的弹窗，有点生气。弹窗提示她，本周Token使用量已达到限额的90%，限额消耗完后将暂停相关模型的使用，直到下周限额更新。

苏玉是某高校在读博士研究生，最近在准备毕业大论文。过去三年，谷歌旗下的Gemini、OpenAI旗下的ChatGPT，一直是她的最佳拍档，她也是这两个“AI长工“的忠实订阅用户。今年2月中旬，Anthropic旗下的Claude也加入了她的队伍，并很快成为她最信任的一个。

“Claude太好用了，工具属性太强了。”苏玉说。她让几款AI应用同时为她梳理、设计研究思路模型，ChatGPT给出的答案逻辑不够严密，Gemini太过浮夸谄媚，只有Claude，像一位客观专业的高级顾问，逐字阅读过客户需求后，才输出了一份真正可使用、有启发的方案。

免费使用半个多月后，苏玉花费大约180元人民币开通了Claude的月度会员。和Gemini、ChatGPT相比，Claude特殊的地方在于它对会员也设置了每日和每周Token消耗的限额。这其实能理解，根据全球知名的大模型盲测榜单LMArena，截至3月20日，Claude的主力模型Claude-Opus-4-6-thinking排名全球第一。

但苏玉从未感受到如此直接的Token限制。第一次触发Claude限额机制时是周三，“扎根理论”了解到一半就不能再调用了，那一刻她颇有一种“学术停滞”的无力感。习惯了Claude的辅助，她很难再回到最初做科研的状态。她尝试“手搓”，翻阅最原始的理论书籍，但效率极低，有些经过翻译的资料她也不完全相信，“最后我还是要等Claude恢复使用后复核一遍。”四天时间，她等得很煎熬。

Claude限用让苏玉异常焦虑。在一个周二，苏玉发来一张Claude后台截图，上面显示她本周的限额已经使用了45%。“这周才过去不到两天！我已经用得很节省了，一天只讨论一个论文选题，它就到限额了！”苏玉情绪有点崩溃，谁说AI不能替代人类？这个AI已经快比她的导师还难搞了。

● 苏玉的Claude后台。图源：受访者

她已经养成了提一个问题就去看一眼后台的习惯，生怕没米下锅。想起以前竟然还和Claude老师唠闲嗑，让它帮自己做PPT，她心里直骂自己浪费。

这种对“好用的模型”的谨慎使用，正逐渐变得普遍。一位AI影视行业创业者告诉我，他所在团队在使用字节跳动的AI视频模型“即梦”时，会同步接入其他多家模型厂商的API，“效果好的模型确实更贵，我们只能在不同模型之间切换，去平衡成本。”

不久前，即梦下调会员积分额度，他一方面觉得很正常，“C端本来就在补贴，现在只是收回一部分”。但另一方面又为自己的处境担心，叹息“这下更用不起了”，AI成本上涨，有时候会直接卡住小创业者的生命线。

终端用户为Token焦虑，模型厂商也在为算力成本焦虑。

谈及Token调用量暴增的原因，中国工程院院士王坚此前借用电力的发展做了类比，早期人工智能应用就像是“点电灯”，消耗电量有限。而以OpenClaw（智能体）为代表的新一代应用，则像是开启了“空调”，需要耗费的电力也越来越多。

不过，王坚强调，这种增长不仅意味着应用普及，更意味着单体Token成本的下降。“如果电价不降，老百姓是用不起空调的。”

但相比早期一问一答的简单调用，如今越来越多任务通过Agent完成。模型需要自行拆解问题、调用工具、写代码、调试、再修正，一次看似简单的请求，背后往往对应的是多轮推理和多次API调用，Token消耗呈指数级放大，虽然单价降低了，但总体所需要的算力成本更高昂了。

“模型变更大了，推理成本也相应提高了，我们也希望把它回归到正常的商业价值上。长期靠低价竞争，对整个行业发展并不利，这也是我们的一个考量。”智谱CEO张鹏说。最近两个月，智谱三次上调GLM（智谱研发的大语言模型）系列模型价格，部分模型价格已逼近国际头部模型定价水平。

张鹏的另一个担心是，“未来12个月面临的最大问题可能就是算力。所有的技术，包括智能体框架，让很多人的创造力与效率提升了10倍。但前提条件是，大家能够用得起来，不能因为算力不够，导致一个问题让Agent思考半天也不给我答案。”

流动的算力，累加的成本

按照Claude的计算方式，100 Tokens大约相当于75个英文单词或50个汉字，而Token输出的价格是输入价格的五倍——这是一个最简单的换算方式。换言之，AI的每一个回答都要经过深思熟虑，后台思考、查询、生成，乃至模型幻觉带来的错误消耗的Token，都会被计算在内，最终变成真金白银的账单。

智能纪元AGI创始人林志佳算过一笔账。他养了四个“龙虾”，有本地部署的，也有云端部署的。以云端部署为例，他按月购买了Coding Plan（AI编码订阅服务），大约30-40元人民币，在3月还剩9天的时候，他的Token消耗量还不到套餐额度的10%——作为媒体人，他对Token的需求其实并不大。

但按照Token来计费又不太划算。“如果我只是每天早上九点让它给我发条新闻，消耗的Tokens价格大概0.9元人民币，30天大概二十多块钱，已经跟买Coding Plan的钱差不多了。有时候还有损耗、还有模型更新，光更新就可能要消耗三四块钱的Tokens。”

在不同计费方式之间权衡，几乎成了高频使用者的日常，而购买Token花费的一分一厘，最终都指向同一件事——算力，以及背后对应的GPU折旧成本和数据中心的耗电。

GPU成了一切的起点，高端芯片的供给决定了整个系统的上限。“除了给部分客户预留的备用机，其他基本都卖完了，一卡不剩。”优刻得架构技术中心副总经理刘华说。

GPU之下，还要搭建起数据中心、网络和存储系统——高速互联、低延迟传输，这些都不是“即插即用”的标准件。刘华提到，仅网络和存储部分，成本就可能占到整体算力成本的20%左右。

再下一层，是模型厂商和API服务商。他们把大模型部署在这些基础设施之上，封装成标准化接口，供开发者调用。近两年，这几层角色开始出现重叠，云厂商既卖算力也提供模型API，逐渐成为连接GPU、模型和开发者的中枢。

● 算力是如何流动的示意图。图源：AI生成

算力就这样一层一层向下渗透，最新的变化是在产业的需求端。“以前AI大部分是To B在付费，现在To C端付费也越来越普及了。”林志佳说。模型被封装成API，入口被简化，使用门槛降低，个人开发者甚至普通用户，都可以直接调用底层算力。“现在基本上刷一刷社交平台，大家就知道怎么用了。”

算力甚至出现零售化趋势。2024年前后，一些云厂商开始推出GPU“日卡”、轻量级云主机，甚至“一键部署”的体验产品。比如优刻得面向“养虾户”推出的6.9元体验套餐，本质上更像一张门票，把复杂的环境配置和算力调度打包好，让用户用极低成本试一次。“很多人其实是来‘排雷’或者尝鲜的，”刘华说，“大家都有点焦虑，怕落后。”

但门槛降低，并不意味着成本下降。在刘华看来，“用互联网发展阶段类比，现在的算力成本毫无疑问还是在一个发展初期、很贵的阶段。”正因为如此，开发者才会精打细算，平台也不敢轻易放开调用规模。

即便是头部厂商也在做取舍。OpenAI此前关停视频生成项目Sora，被不少业内人士解读为算力与投入产出之间的权衡，在资源有限的情况下，优先集中到更核心的模型能力和业务上。阿里巴巴、腾讯、字节跳动等互联网大厂，近期对AI业务做的一系列调整，核心也是一种算力资源聚焦。

大家都正在意识到一件事：未来拼的不是算力规模，而是算力利用率。算力紧缺带来的连锁效应，是AI时代一场漫长的梅雨，每一个身处时代的人都会免不了潮湿。

算力流动到末端发生了什么

苏玉正在尝试分配和调度算力资源。

她把不同模型分了层级：ChatGPT用来写公文、整理简报，Gemini负责画图、处理语言细节，Claude则专门用在最核心的环节，比如研究框架、思路设计、长文本分析。这样能保证她的效率和钱包都效果最大化。

比如，她最近在处理一批访谈材料，会先让Claude给出分析框架，再把这个框架“丢”给Gemini去做初始编码。“我更相信Claude给的指导性的东西，但细节性的工作可以交给便宜一点的模型。”如果Claude不限额，她甚至会停用Gemini。

当然，这并不是在给Claude打广告，只是苏玉认为自己的需求更适用这一款应用。好用的模型变得稀缺，而稀缺的资源只会被用在最关键的地方。

为了进一步节省，很多用户都和苏玉一样，开始在细节上抠成本。

社交平台上，一度流行起用文言文与AI对话，因为更短的字数意味着更少的Token。也有人认为，跟风对AI说“你好”“谢谢”，是否也是一种不必要的资源浪费？毕竟，AI并不需要情绪价值。

其实很多浪费并不在用户可控范围内，有时是模型接入和运行方式的问题。

不久前，MiMo大模型团队负责人罗福莉提到，“我没办法严格计算第三方harness（驾驭）接入造成的损失，但我近距离看过OpenClaw的上下文管理，很糟糕。在单次用户查询里，它会触发多轮低价值工具调用，每轮作为独立API请求发出，每个请求携带的上下文窗口往往超过 100K Tokens。实际请求次数是Claude Code原生框架的数倍。折算成API定价，真实成本大概是订阅价格的数十倍。”

回到使用问题上，用户主动节省Token，平台也不敢完全放开用户规模，这种基于节省成本的“束手束脚”，比如OpenAI正在面临一种矛盾——其在2025年上半年创造了43亿美元的收入，同期，该公司净亏损高达135亿美元，这意味着OpenAI每赚一美元，就会损失三美元。亏损的大头正是对算力的投入。

在当下，算力已经不再只是有没有的问题，而是能不能持续用、能用到什么程度。当AI足够好用，人会围绕它重新组织工作方式；当Token变得昂贵而有限，这种新的组织方式本身也会被迫收缩。

如果未来算力无法真正像电力一样普及，那么AI必然会引起分化，人与人之间的认知差距会进一步拉大。比如苏玉，她并不打算把自己的AI使用方法完全分享给身边人，如何和Claude老师交互、喂什么样的语料，这是她的小秘密，短期内也是她的竞争力。

如果同事请她推荐好用的模型，她会强烈推荐Gemini和ChatGPT，“当然，DeepSeek也是个好选择”。苏玉调皮地眨了眨眼。

在“一人公司（OPC）”“超级个体”逐渐流行的当下，这样的“小心机”并不罕见。当AI的好用程度对应成一个个可以计价的Token，真正拉开差距的，其实是如何使用它的人。

（文中苏玉为化名）

参考资料

智能涌现：《杨植麟/张鹏/夏立雪/罗福莉/黄超，谈龙虾，谈“token经济学”》

每日经济新闻：《AI催生巨量token消耗、内存硬件紧缺算力租赁热潮下，运营商加码布局液冷服务器》《智谱张鹏：当模型足够强，API本身就是最好的商业模式》

界面新闻：《智谱股价刷历史新高，新一代模型再度提价10%》

深潮TechFlow：《token出海，将中国电力卖给全世界》

硅星人Pro：《罗福莉：各位醒醒吧，该结束token虚假狂欢了》

AI使用者，被焦虑裹挟

流动的算力，累加的成本

算力流动到末端发生了什么

相关新闻