杨植麟/张鹏/夏立雪/罗福莉/黄超，谈龙虾，谈“Token经济学”

来源：36kr 3 小时前

文｜周鑫雨王欣逸钟楚笛

编辑｜周鑫雨

Token，在技术语境下，是模型处理文本时的最小单位；在商业语境下，则成了AI服务最主流的计费方式。

近期，让Token被黄仁勋、吴泳铭等人，拔高到“经济学”概念的导火索，是当下全球最火的开源Agent框架——俗称为“龙虾”的OpenClaw。

它第一次让Agent的概念突破极客圈层，走向普罗大众；同时，运行龙虾庞大的Token消耗，也让习惯使用免费ChatBot的普通用户，第一次感知到：智能，是一种昂贵的、需要购买的资源。

2026年3月27日，中关村论坛。在主题为“OpenClaw与AI开源”的圆桌上，五位分别来自大模型、算力、Agent领域的中国AI一把手，因为开源和Token，聚在了一起。

论坛。

模型层的几位玩家，月之暗面创始人杨植麟、智谱CEO张鹏、小米MiMo大模型负责人罗福莉，都在不久前，发布了自己的OpenClaw框架，或是将自己的模型能力，与OpenClaw做了适配；

香港大学助理教授兼博士生导师黄超，曾带领团队，仅用4000行代码，就开发出了OpenClaw的平替，Nanobot；

这几家模型公司的算力合作方，无问芯穹联合创始人夏立雪，今年1月以来最大的感受则是：龙虾带来的Token消耗速度，可以媲美曾经3G刚普及的时代，手机流量的消耗速度。

OpenClaw给行业带来巨量的Token商机，但对于这几位AI从业者而言，这是一种“甜蜜的烦恼”，意味着更多的挑战。

对模型层的玩家而言，有限的算力，依旧是最大的掣肘。

张鹏直言，AI技术，包括智能体框架，让很多人的创造力和效率提升了10倍，然而，背后算力的需求提升了100倍。站在算力供给的一方，夏立雪也承认，Token需求的暴增，对算力厂商的系统效率带来了更大的优化需求。

如何在有限的算力中，发挥算力的最智力水平，在罗福莉看来，这一问题的解决方案，恰恰是中国大模型公司的优势，比如DeepSeek V2、V3在MoE架构上的创新。

她提到，如何实现一个Long-Context Efficient（高效长上下文）的架构，以及在推理侧如何做到Long-Context Efficient，会成为全方位的竞争。

在Agent应用的层面，黄超认为，龙虾给大家带来的思考是：我们是否还需要一个All in one的强大智能体？在他看来，龙虾代表的是一个轻量级的操作系统、一个工具的脚手架，但它却能撬动生态中的所有工具。

同时，他发现，当下的Agent生态还存在各种问题。比如，Skill（技能文档）的质量参差不齐；龙虾依然没有一套很好的机制，去管理用户的上下文。

几位形成的共识是：未来，要为Agent设计模型架构、做架构层的创新。

模型的自进化，是罗福莉在Agent框架中看到的可能。“Chat范式根本没有发挥预训练模型的上限。”她提到，Agent在长时间执行任务的过程中，也在激活模型的上限。

黄超总结，未来，整个AI生态，不管是软件系统，还是数据，都需要变成Agent Native模式。

当然，还有算力——夏立雪提出，面向Agent时代，需要打造Agentic Infra、打造更智能的Token工厂，“让Token工厂本身也能自我迭代、自我进化”。

以下是《智能涌现》对圆桌的整理，为了保证阅读体验，文字略经编辑：

杨植麟：日常使用OpenClaw或者类似的产品时，你们觉得最有想象力，或印象深刻的是什么？从技术的角度，你们如何看待今天OpenClaw，以及相关Agent的演进？

张鹏：我很早就开始玩OpenClaw了，当时还不叫OpenClaw，最早它叫Clawdbot。毕竟是程序员出身，玩这些东西，多少还是有一些自己的体会。

OpenClaw带来的最大突破，或者说新鲜的地方在于，这件事不再只是程序员或者极客的专利。普通人也可以比较方便地用到顶尖模型的能力，尤其是在编程和智能体这方面。

所以我更愿意把OpenClaw称为脚手架。它提供的是一种可能性，在模型的基础上搭起一个既牢固、方便，又足够灵活的框架。大家可以按照自己的意愿，去调用底层的各种模型，以及模型所带来的一些新奇的能力。

原来自己有想法，但受限于不会写代码的人，今天可以通过简单的交流，就能完成自己的想法。所以这个事情对我来说冲击非常大吧，或者说让我重新认识了一些事情。

夏立雪：我最开始用OpenClaw是不太适应的，因为我习惯和大模型聊天，相比之下OpenClaw的反应好慢。

但后来我意识到一个问题，它和之前的聊天机器人有一个很大的不同：OpenClaw是一个能够帮我完成大型任务的人。所以当我开始交给它更复杂的任务时，它能做得非常好。

这件事给我的触动很大。从最初模型按Token聊天，到现在变成一个Agent、一个龙虾帮你完成任务，这极大地提升了AI的想象力空间。

同时它对系统能力的要求也变得很高，这也是为什么我一开始用OpenClaw会觉得有点卡的原因。

作为基础设施层的厂商，我看到的是，OpenClaw对整个AI大型系统和生态都带来了更多机遇和挑战。因为以我们现在所能调动的资源，想要支撑这样一个快速增长的时代，其实是不够的。

举个例子，我们公司从1月底开始，基本上每两周Token量就翻一番，到现在基本上已经翻了十倍。上次见到这个增速，还是3G时代看手机流量的时候。现在的Token用量，就像当年我们每个月用100兆手机流量一样。

在这种情况下，我们所有的资源都需要更好地优化、整合。不仅是在AI领域，在整个社会上，每一个鲜活的人都能把像OpenClaw这样的AI用起来。

所以我作为基础设施的玩家，内心是非常激动和感慨的，这里面还有很多的优化空间，值得我们去探索和尝试。

罗福莉：OpenClaw对于Agent框架而言，是一个非常革命性和颠覆性的事件。

虽然我身边所有在进行深度Coding的人，第一选择还是Claude Code，但我相信只有用过OpenClaw的人，才能感受到它在Agent框架上的设计性，是领先于Claude Code的，包括最近Claude Code的更新都是向OpenClaw靠近的。

我使用OpenClaw的感受是，这个框架带来想象力是可以随时随地扩展的。

OpenClaw带来的核心价值有两个。一是开源。开源是一个非常有利于整个社区深入参与、投入到Agent框架的前置条件。

OpenClaw、Claude Code这类Agent框架，一个很大的价值在于，国内那些与顶尖闭源模型尚有差距、但在闭源赛道上具备一定实力的模型，其能力上限能被拉到非常高的水平。

在绝大多数场景下，这些模型的任务完成度已经可以非常接近Claude最新模型的表现。

同时靠一套Harness（治理机制）系统、Cache 2 Cache（一种数据缓存机制）Skills 体系等诸多设计又可以保证下限，保证它任务的完成度和准确率。

所以从基座大模型的角度来看，OpenClaw实际上是保证了模型的下限，同时拉伸了它的上限。

此外，OpenClaw给整个社区带来的价值在于，它更多地点燃了大家，让人们发现：在大模型之外，Agent这一层还有非常多的想象力和发挥空间。

这也是我看到，最近社区里除了研究员之外，有更多人开始参与到这场AGI变革中来。大家借助更强的Agent框架，比如Harness、Scaffold（脚手架）等，在一定程度上替代了自己的工作，并且也释放出更多时间，去做更有想象力的事情。

黄超：可以从两个层面来理解OpenClaw的爆火。

首先是交互模式，我们做Agent也有一两年了，但之前像Cursor、Claude Code这些工具，给人的感觉更多是工具感。而OpenClaw首次使用以IM（即时通讯）软件嵌入的方式，让人感觉更有活人感，更接近于自己想象中的个人贾维斯的概念。

其次是架构和生态层面的启发。

一方面，它是简单高效的Agent Loop架构，这再次验证了Agent Loop架构的价值。

另一方面，它也让我们重新思考一个问题：我们需要的到底是一个all in one的超级智能体，还是一个轻量级的操作系统、一个像脚手架一样的小管家？

OpenClaw通过这样一个龙虾的超系统或生态，可以让整个社区能以更玩起来的心态，撬动整个生态里所有的工具。

随着Skills、Harness等能力的出现，越来越多的人可以去设计面向这类系统的应用，去赋能各行各业。它天然就与开源生态结合得非常紧密。

这两点，是它带给我们最大的启发。

杨植麟：顺着OpenClaw的讨论，想问一下张鹏，最近智谱也发布了新的GLM 5-Turbo模型，对Agent能力做了增强。

能不能给大家介绍一下，这个新模型和其他模型的不同之处？以及模型涨价了，这个反映了什么样的市场的信号？

张鹏：前两天我们确实紧急更新了一波，这其实本来是我们整个发展路标中的一个阶段，只是提前放了出来。最主要的目的，就是实现从对话到干活的跨越。

刚才各位也讲到了我非常赞同的一点，OpenClaw 让大家真切地感受到，大模型不再只是聊天，而是真的能帮我们干活。

但干活背后隐含的能力要求其实非常高：它需要自己去长程规划任务、不断重试、压缩上下文、debug，还可能要处理多模态信息等等。

这些对模型能力的要求，跟传统面向对话的通用模型是很不一样的。GLM 5-Turbo正是针对这些方面做了专门的加强，尤其是大家提到的——让它持续干活，甚至72小时不停地自我循环，这里面我们做了很多的工作。

另外，关于Token消耗量的问题。让一个聪明的模型去完成复杂任务，Token的消耗量是非常巨大的，一般人可能体会不到，只会看到账单上的钱在不停往下掉。

所以在这方面我们也做了优化，在面临复杂任务时，模型能以更高的Token效率来完成。

本质上，模型的架构依然是一个多任务协同的通用模型架构，只是在能力上做了一些偏向性的加强。

至于提价的问题，也可以很顺畅地跟大家解释。我们现在不再是简单地问一个问题、模型回答，它背后的思考链路非常长。很多任务要通过写代码的方式与底层基础设施打交道，还要debug、随时修正错误，这个消耗量非常大。

完成一个任务所需的Token量，可能是原来回答简单问题的十倍甚至百倍，所以价格和成本确实有所提高。

模型变更大了，推理成本也相应提高了，我们也希望把它回归到正常的商业价值上。长期靠低价竞争，对整个行业发展并不利，这也是我们的一个考量。

这样也能让我们在商业化路径上形成良性闭环，持续优化模型能力，不断给大家提供更好的模型和Token服务。

杨植麟：开源模型，以及推理算力，现在形成一个生态。各种各样的开源模型可以在各种各样的推理算力上，去给用户提供更多的价值。

随着Token消耗量的爆炸，现在也从训练时代变成了推理时代。想请教一下立雪，从Infra的层面，推理时代对于无问来说意味着什么？

夏立雪：我们是一个诞生在AI时代的基础设施的厂商，然后我们现在也为Kimi，智谱，包括也在跟MIMO去做合作，让大家能够把我们的Token工厂更高效地给用起来。

但是我们也在跟很多高校、科研院所也在合作，所以我们其实一直都在思考一件事情，就是AGI时代需要的基础设施它会是什么样子的？

然后我们怎么能够一步步地去在这个过程中去实现它和推演它？我们现在也是做好了充分的准备，也看到了短期、中期和长期不同阶段我们需要解决的问题。

眼下要面对的，就是刚才大家聊到的——由OpenClaw这类Agent框架带起来的Token量暴增。这对我们的系统效率提出了更高的优化需求，包括价格的调整，其实也是在这个需求下的一种解决方式。

而我们一直以来，都是从软硬件打通的路径去做布局和解决的。比如，我们接入了几乎所有能看到的各类计算芯片，把国内几十种芯片、几十个不同的算力集群统一连接起来，去应对AI系统中算力资源紧缺的问题。

因为在资源不足的时候，最好的办法是：第一，把能用的资源都用起来；第二，让每一份算力都用在刀刃上，发挥出最大的转化效率。

当前我们要解决的核心问题就是：如何进一步打造更高效的Token工厂。这方面我们做了很多优化，包括让模型与硬件的显存等各种技术做最优适配，也在探索最新的模型结构与硬件架构之间，是否能发生更深度的化学反应。

但解决当下的效率问题，其实只是打造了一个标准化的Token工厂。面向Agent时代，我们认为这还不够。就像刚才提到的，Agent更像是一个人，我们可以直接交给它一个任务。

我其实很坚定地认为，当前很多云计算时代的基础设施，本质上是为服务一个程序、为服务人类工程师而设计的，而不是为AI设计的。

我们基础设施上的接口是为人类工程师做的，在这之上要再包一层，再去接入Agent，用人的操作能力限制了Agent发挥空间。

比如，Agent能够做到秒到毫秒级别的思考和发起任务，这件事情在底层的K8S（Sparse）等能力上，还没有做好准备。

人类发起的任务是分钟级别的，这意味着这些功能需要进一步的能力，我们将它称作Agentic的Infra，即打造一个更智慧化的工厂，这是我们无问芯穹现在正在做的事情。

从更长远的未来来看，真正的AGI时代到来的时候，我们认为连基础设施都应该是一个智能体。

我们所打造的这套工厂本身也应该是能够自我进化、自我迭代的，它能够形成一个自主的组织，有一个Agent CEO，可能由一个Claw管理整个基础设施，并根据AI客户的需求，自己去提需求来迭代自己的基础设施。

这样AI和AI之间才能更好的形成耦合，我们也在做一些让Agent-to-Agent之间更好地通信的能力，以及做Cache-to-Cache的复制能力。

基础设施和发展不应该是隔离的状态，而应该产生非常丰富的化学反应，这样才能真正做到所谓的软硬协同，即算法和基础设施的协同，这也是无问芯穹一直想实现的使命。

杨植麟：接下来想问问福莉，最近小米通过发布新的模型以及开源背后技术，对社区也做出了很大贡献。你认为小米在做大模型方面有什么独特的优势？

罗福莉：我们先抛开小米在做大模型方面有什么独特优势的话题，我更想谈一下中国的做大模型的团队在做大模型上的优势，这个话题更具备广泛的价值。

两年前，中国的基座大模型团队已经取得了非常好的突破，在有限的算力做了一些看似是为了效率妥协的模型结构的创新，如DeepSeek V2、V3系列的MoE等。

在算力一定的情况下发挥出最高的智能水平，这是DeepSeek给国内所有基座大模型团队的勇气、信心。

在今天，我们自己的国产芯片，尤其是推理芯片以及训练芯片，已经不再受限制。

但是我们也能看到，“限制”催生了我们对更高的训练效率、更低的推理效率的模型结构进行全新探索。

比如最近的Hybrid（混合注意力机制）、Sparse（稀疏注意力机制）和Linear Attention（线性注意力）的结构，包括DSA、NSA、Kimi的KDA，以及小米也有面向下一代结构的HySparse结构，这是区别于MIMO-V2这一代结构，我们面向于Agent时代去思考的如何做更好的模型结构的创新。

我为什么觉得结构的创新如此重要，是因为OpenClaw这个话题。

大家如果真实地用OpenClaw，会发现它越用越好用、越用越聪明。这一前提是推理的Context。

Long Context（长上下文）是我们谈论了很久话题。我们期待模型在Long Context下表现非常好、性能非常强劲且推理成本非常低。很多模型是做不到1兆或10兆的Context，因为它的成本太贵了、速度太慢了。

如果模型能做到在1兆或10兆的Context的情况下，推理的成本够低、速度够快，才会有真正的高生产力价值的任务交给这个模型，激发在Long Context下完成更高复杂度的任务，在10兆甚至100兆Context的情况下，实现模型的自迭代。

模型的自迭代，是指模型可以在复杂的环境里依靠于超强的Context完成对自我进化，可能是对Agent框架本身的，也有可能是对模型参数本身的，因为Long Context本身就是参数的进化。

怎么实现Long Context Efficient（高效长上下文）架构，以及怎么在推理侧做到Long Context Efficient，这是全方位的竞争。在预训练做Long Context Efficient的架构，这是我们一年前就去探索的问题。

而当今如何做到Long Context，在长程距离任务上达到非常高上限的效果，是后训练需要再去迭代创新的一个范式。

后训练正在经历的事是，怎么去构造更有效的学习算法，怎么去采集到真实的在1兆、10兆及100兆上下文里都具有长距依赖的文本，以及结合复杂的环境产生的trajectory。

由于大模型本身在飞速的进步，由于我们有Agent框架的加持，在过去一段时间里，我们能看到推理需求，已经实现了近10倍的增长，今年整个Token的增长有可能到100倍。

这让竞争也进入了另一个维度：算力，或者说是推理芯片，甚至是能源。

杨植麟：非常有Insight的分享。下面想问一下黄超，你开发了一些非常有影响力的Agent项目，包括NanoBOT，也有很多社区的粉丝。从Agent的Harness层面，接下来有什么比较重要的技术方向需要大家去关注的。

黄超：把Agent的技术抽象，关键是这几个点：Planning、Memory和Tool use。

Planning现在还是面向于一些长程的任务或者非常复杂的算法，比如500步甚至更长步数的。未来，Planning可能需要把已有的比如复杂任务的知识，固化到模型里去做。

Skill和Harness（控制、治理机制）缓解了Planning里面带来的错误，一些比较高质量的Skill，本质上也是在模型上完成比较难的一些task。

Memory一直存在着信息压缩不准确、搜不准等问题，在长程任务和一些复杂场景，Memory就会暴增，对 Memory 带来压力。

各类的龙虾都采用的是最简单的类似Markdown格式的Memory。未来Memory可能会走向一些分层的设计，包括如何让Memory做得更通用。

现在的Memory机制很难做到很通用，比如说Coding场景、Deep Research、多媒体领域之间，整个数据模态的差别会很大。如何这些Memory进行检索索引，让它更加高效的，我觉得这是在做一个Trade off。

另外，龙虾让大家创建Agent的门槛大幅降低之后，我们可以预见，未来可能不止一个龙虾，可能每个人会拥有一群龙虾。一群龙虾相比于一个龙虾，其上下文的暴增会非常大，给Memory也带来压力。

目前还没有很好的机制来管理一群龙虾，在复杂的Coding和科研发现等场景中，会带来一定的上下文压力。无论是模型本身，还是整体的Agent架构，压力都很大。

Tool use的核心仍然是Skill。此前MCP的质量无法保障以及安全性等问题，在Skill中依然存在。虽然现在看起来Skill 数量很多，但高质量的Skill相对较少，低质量Skill会直接影响Agent任务的完成度。

另外，Skill还存在恶意注入等安全问题，使得整体系统的可靠性受到影响。在Tool use层面，可能需要依赖社区来共同建设和优化Skill，在执行过程中动态进化出新Skill的能力。

杨植麟：刚刚罗福莉和黄超通过不同的视角讨论一个问题，随着任务复杂度的增加，上下文会暴涨，从模型层面可以去提升原生上下文长度；

从Agent Harness层面，刚刚说的Planning、Memory，包括Multi-Agent的Harness，实现在一个特定的模型能力下支持更复杂的任务，这两个方向接下来也会产生更多的化学反应。

最后是一个开放式的展望，想请各位用一个词来描述一下，接下来12个月大模型发展的趋势以及我们的希望。

黄超：生态。

现在龙虾让大家这么活跃，未来Agent真的是要去从真正的个人助手转换为打工人。现在可能大家很多时候玩龙虾是新鲜感，未来可能真正得让龙虾们沉淀下来，成为大家的搬砖的工具，或者成为coworker的状态。

这需要整个生态的努力，开源也很重要。相关的技术探索和模型的技术都开源出去之后，需要整个生态一起来共建。无论是对于模型的迭代、Skills平台的迭代以及各种工具，都需要面向龙虾创造更好的生态。

我自己感觉比较明显的是未来的很多软件都不一定会是面向人类的。整个生态不管是GUI（图形界面）、MCP（模型上下文协议）、CLI（命令行界面），还是软件系统、数据和技术，都需要把它们变成Agent Native的模式，让Agent发展更加丰富。

罗福莉：把问题缩小到一年，非常有意义。按照我对AGI（通用人工智能）的定义，5年后已经实现了。

如果要用一个词来描述接下来一年，AGI历程里最关键的是：自进化。

虽然这个词有点玄幻，过去一年大家也多次提到，但我最近才对这个词有了更深的体会，或者说对自进化具体怎么做，有了更务实的操作方案，原因在于借助于了很强大的模型。

之前Chat的范式，根本没有发挥出预训练模型的上限。这个上限现在被 Agent框架激活了。当它执行更长时间的任务的时候，我们发现模型可以自己去学习和进化。

很简单一个尝试，当你在现有的框架里，给模型叠加一个可以verify的条件限制，再设置一个Loop（重复指令），然后让模型持续迭代、优化目标。

我们发现，模型会持续拿出更好的方案。这样的一种自进化，现在国内的模型基本能跑一两天，当然跟任务的难度有关。

在科学研究上，比如探索一个更好的模型结构——因为模型结构有评估标准，比如更低的PPL（困惑度）——在这种很确定的任务上，我们发现，模型已经能自主优化、执行两三天了。

从我的角度来看，自进化是唯一可以创造新东西的地方。它不是替代现有的人的生产力，而是像顶尖的科学家一样，去探索出世界上没有的东西。

一年前，我觉得自进化的时间历程会拉到3-5年。但近期，时间历程应该缩小到1-2年，我们就可以让大模型，叠加一个非常强的自进化Agent框架，实现对科学研究成指数级的加速。

我们组内做大模型研究的同学，workflow是非常不确定的，是高度创造力的。我们发现，借助Claude Code ，加非常顶尖的模型，基本上已经能够把我们的研究效率加速近10倍。

所以我很期待，这一种范式辐射到更广的学科和领域。

夏立雪：我的关键词叫“可持续Token”。现在AI的发展还在长期持续的过程中，我们也希望它有长久的生命力。

作为基础设施，我们看到的一个很大的问题，就是资源终究是有限的。就像当年的可持续发展概念一样，我们现在作为Token 工厂，能否给大家提供持续、稳定，能够大规模用起来的Token，让顶尖的模型能够继续为更多的下游服务，是一个很重要的问题。我们现在需要把视角放宽到整个生态：最早的能源，转化到算力，再转化到Token，最终再转换成人的GDP——这样一条链路，要进行持续的经济化迭代。

我们不止在把国内的各种算力用起来，也在把这些能力输出到海外，让全球的资源都能够打通和整合。我想把中国特色的“Token经济学”做起来。

在之前的时代，我们讲“Made in China”。我们能够把中国低价的制造能力，变成好的商品，输出到全球。

我们现在想做的有点像“AI Made in China”。我们能够把中国能源上的优势，直接通过Token工厂，可持续转化成优质的Token，输出到全球，将来成为世界的Token工厂。

这是我今年想看到的中国给世界人工智能带来的价值。

张鹏：大家都在仰望星空，我就落地一点，未来12个月面临的最大的问题，可能就是算力。

所有的技术，包括智能体框架，让很多人的创造力与效率提升了10倍。但前提条件是，大家能够用得起来，不能因为算力不够，导致一个问题让Agent思考半天，也不给我答案。

也是算力的原因，甚至我们研究的进展其实都受阻了。前两年，张亚勤院士说了一句话：谈卡伤感情，没卡没感情。

今天又到了这个地步，但情况又不一样了。我们转向了推理的阶段，因为需求真的在十倍、百倍的爆发，还有很大的需求没有被满足，怎么办？我们大家一起来想想办法。

欢迎交流！

以下是《智能涌现》对圆桌的整理，为了保证阅读体验，文字略经编辑：

相关新闻