杨植麟/张鹏/夏立雪/罗福莉/黄超,谈龙虾,谈“Token经济学”
来源:36kr 3 小时前

文|周鑫雨 王欣逸 钟楚笛

编辑|周鑫雨

Token,在技术语境下,是模型处理文本时的最小单位;在商业语境下,则成了AI服务最主流的计费方式。

近期,让Token被黄仁勋、吴泳铭等人,拔高到“经济学”概念的导火索,是当下全球最火的开源Agent框架——俗称为“龙虾”的OpenClaw。

它第一次让Agent的概念突破极客圈层,走向普罗大众;同时,运行龙虾庞大的Token消耗,也让习惯使用免费ChatBot的普通用户,第一次感知到:智能,是一种昂贵的、需要购买的资源。

2026年3月27日,中关村论坛。在主题为“OpenClaw与AI开源”的圆桌上,五位分别来自大模型、算力、Agent领域的中国AI一把手,因为开源和Token,聚在了一起。

论坛。

模型层的几位玩家,月之暗面创始人杨植麟、智谱CEO张鹏、小米MiMo大模型负责人罗福莉,都在不久前,发布了自己的OpenClaw框架,或是将自己的模型能力,与OpenClaw做了适配;

香港大学助理教授兼博士生导师黄超,曾带领团队,仅用4000行代码,就开发出了OpenClaw的平替,Nanobot;

这几家模型公司的算力合作方,无问芯穹联合创始人夏立雪,今年1月以来最大的感受则是:龙虾带来的Token消耗速度,可以媲美曾经3G刚普及的时代,手机流量的消耗速度。

OpenClaw给行业带来巨量的Token商机,但对于这几位AI从业者而言,这是一种“甜蜜的烦恼”,意味着更多的挑战。

对模型层的玩家而言,有限的算力,依旧是最大的掣肘。

张鹏直言,AI技术,包括智能体框架,让很多人的创造力和效率提升了10倍,然而,背后算力的需求提升了100倍。站在算力供给的一方,夏立雪也承认,Token需求的暴增,对算力厂商的系统效率带来了更大的优化需求。

如何在有限的算力中,发挥算力的最智力水平,在罗福莉看来,这一问题的解决方案,恰恰是中国大模型公司的优势,比如DeepSeek V2、V3在MoE架构上的创新。

她提到,如何实现一个Long-Context Efficient(高效长上下文)的架构,以及在推理侧如何做到Long-Context Efficient,会成为全方位的竞争。

在Agent应用的层面,黄超认为,龙虾给大家带来的思考是:我们是否还需要一个All in one的强大智能体?在他看来,龙虾代表的是一个轻量级的操作系统、一个工具的脚手架,但它却能撬动生态中的所有工具。

同时,他发现,当下的Agent生态还存在各种问题。比如,Skill(技能文档)的质量参差不齐;龙虾依然没有一套很好的机制,去管理用户的上下文。

几位形成的共识是:未来,要为Agent设计模型架构、做架构层的创新。

模型的自进化,是罗福莉在Agent框架中看到的可能。“Chat范式根本没有发挥预训练模型的上限。”她提到,Agent在长时间执行任务的过程中,也在激活模型的上限。

黄超总结,未来,整个AI生态,不管是软件系统,还是数据,都需要变成Agent Native模式。

当然,还有算力——夏立雪提出,面向Agent时代,需要打造Agentic Infra、打造更智能的Token工厂,“让Token工厂本身也能自我迭代、自我进化”。

以下是《智能涌现》对圆桌的整理,为了保证阅读体验,文字略经编辑:

杨植麟:日常使用OpenClaw或者类似的产品时,你们觉得最有想象力,或印象深刻的是什么?从技术的角度,你们如何看待今天OpenClaw,以及相关Agent的演进?

张鹏:我很早就开始玩OpenClaw了,当时还不叫OpenClaw,最早它叫Clawdbot。毕竟是程序员出身,玩这些东西,多少还是有一些自己的体会。

OpenClaw带来的最大突破,或者说新鲜的地方在于,这件事不再只是程序员或者极客的专利。普通人也可以比较方便地用到顶尖模型的能力,尤其是在编程和智能体这方面。

所以我更愿意把OpenClaw称为脚手架。它提供的是一种可能性,在模型的基础上搭起一个既牢固、方便,又足够灵活的框架。大家可以按照自己的意愿,去调用底层的各种模型,以及模型所带来的一些新奇的能力。

原来自己有想法,但受限于不会写代码的人,今天可以通过简单的交流,就能完成自己的想法。所以这个事情对我来说冲击非常大吧,或者说让我重新认识了一些事情。

夏立雪:我最开始用OpenClaw是不太适应的,因为我习惯和大模型聊天,相比之下OpenClaw的反应好慢。

但后来我意识到一个问题,它和之前的聊天机器人有一个很大的不同:OpenClaw是一个能够帮我完成大型任务的人。所以当我开始交给它更复杂的任务时,它能做得非常好。

这件事给我的触动很大。从最初模型按Token聊天,到现在变成一个Agent、一个龙虾帮你完成任务,这极大地提升了AI的想象力空间。

同时它对系统能力的要求也变得很高,这也是为什么我一开始用OpenClaw会觉得有点卡的原因。

作为基础设施层的厂商,我看到的是,OpenClaw对整个AI大型系统和生态都带来了更多机遇和挑战。因为以我们现在所能调动的资源,想要支撑这样一个快速增长的时代,其实是不够的。

举个例子,我们公司从1月底开始,基本上每两周Token量就翻一番,到现在基本上已经翻了十倍。上次见到这个增速,还是3G时代看手机流量的时候。现在的Token用量,就像当年我们每个月用100兆手机流量一样。

在这种情况下,我们所有的资源都需要更好地优化、整合。不仅是在AI领域,在整个社会上,每一个鲜活的人都能把像OpenClaw这样的AI用起来。

所以我作为基础设施的玩家,内心是非常激动和感慨的,这里面还有很多的优化空间,值得我们去探索和尝试。

罗福莉:OpenClaw对于Agent框架而言,是一个非常革命性和颠覆性的事件。

虽然我身边所有在进行深度Coding的人,第一选择还是Claude Code,但我相信只有用过OpenClaw的人,才能感受到它在Agent框架上的设计性,是领先于Claude Code的,包括最近Claude Code的更新都是向OpenClaw靠近的。

我使用OpenClaw的感受是,这个框架带来想象力是可以随时随地扩展的。

OpenClaw带来的核心价值有两个。一是开源。开源是一个非常有利于整个社区深入参与、投入到Agent框架的前置条件。

OpenClaw、Claude Code这类Agent框架,一个很大的价值在于,国内那些与顶尖闭源模型尚有差距、但在闭源赛道上具备一定实力的模型,其能力上限能被拉到非常高的水平

在绝大多数场景下,这些模型的任务完成度已经可以非常接近Claude最新模型的表现。

同时靠一套Harness(治理机制)系统、Cache 2 Cache(一种数据缓存机制)Skills 体系等诸多设计又可以保证下限,保证它任务的完成度和准确率。

所以从基座大模型的角度来看,OpenClaw实际上是保证了模型的下限,同时拉伸了它的上限

此外,OpenClaw给整个社区带来的价值在于,它更多地点燃了大家,让人们发现:在大模型之外,Agent这一层还有非常多的想象力和发挥空间。

这也是我看到,最近社区里除了研究员之外,有更多人开始参与到这场AGI变革中来。大家借助更强的Agent框架,比如Harness、Scaffold(脚手架)等,在一定程度上替代了自己的工作,并且也释放出更多时间,去做更有想象力的事情。

黄超:可以从两个层面来理解OpenClaw的爆火。

首先是交互模式,我们做Agent也有一两年了,但之前像Cursor、Claude Code这些工具,给人的感觉更多是工具感。而OpenClaw首次使用以IM(即时通讯)软件嵌入的方式,让人感觉更有活人感,更接近于自己想象中的个人贾维斯的概念。

其次是架构和生态层面的启发。

一方面,它是简单高效的Agent Loop架构,这再次验证了Agent Loop架构的价值。

另一方面,它也让我们重新思考一个问题:我们需要的到底是一个all in one的超级智能体,还是一个轻量级的操作系统、一个像脚手架一样的小管家?

OpenClaw通过这样一个龙虾的超系统或生态,可以让整个社区能以更玩起来的心态,撬动整个生态里所有的工具。

随着Skills、Harness等能力的出现,越来越多的人可以去设计面向这类系统的应用,去赋能各行各业。它天然就与开源生态结合得非常紧密。

这两点,是它带给我们最大的启发。

杨植麟:顺着OpenClaw的讨论,想问一下张鹏,最近智谱也发布了新的GLM 5-Turbo模型,对Agent能力做了增强。

能不能给大家介绍一下,这个新模型和其他模型的不同之处?以及模型涨价了,这个反映了什么样的市场的信号?

张鹏:前两天我们确实紧急更新了一波,这其实本来是我们整个发展路标中的一个阶段,只是提前放了出来。最主要的目的,就是实现从对话到干活的跨越。

刚才各位也讲到了我非常赞同的一点,OpenClaw 让大家真切地感受到,大模型不再只是聊天,而是真的能帮我们干活。

但干活背后隐含的能力要求其实非常高:它需要自己去长程规划任务、不断重试、压缩上下文、debug,还可能要处理多模态信息等等。

这些对模型能力的要求,跟传统面向对话的通用模型是很不一样的。GLM 5-Turbo正是针对这些方面做了专门的加强,尤其是大家提到的——让它持续干活,甚至72小时不停地自我循环,这里面我们做了很多的工作。

另外,关于Token消耗量的问题。让一个聪明的模型去完成复杂任务,Token的消耗量是非常巨大的,一般人可能体会不到,只会看到账单上的钱在不停往下掉。

所以在这方面我们也做了优化,在面临复杂任务时,模型能以更高的Token效率来完成。

本质上,模型的架构依然是一个多任务协同的通用模型架构,只是在能力上做了一些偏向性的加强。

至于提价的问题,也可以很顺畅地跟大家解释。我们现在不再是简单地问一个问题、模型回答,它背后的思考链路非常长。很多任务要通过写代码的方式与底层基础设施打交道,还要debug、随时修正错误,这个消耗量非常大。

完成一个任务所需的Token量,可能是原来回答简单问题的十倍甚至百倍,所以价格和成本确实有所提高。

模型变更大了,推理成本也相应提高了,我们也希望把它回归到正常的商业价值上。长期靠低价竞争,对整个行业发展并不利,这也是我们的一个考量。

这样也能让我们在商业化路径上形成良性闭环,持续优化模型能力,不断给大家提供更好的模型和Token服务。

杨植麟:开源模型,以及推理算力,现在形成一个生态。各种各样的开源模型可以在各种各样的推理算力上,去给用户提供更多的价值。

随着Token消耗量的爆炸,现在也从训练时代变成了推理时代。想请教一下立雪,从Infra的层面,推理时代对于无问来说意味着什么?

夏立雪:我们是一个诞生在AI时代的基础设施的厂商,然后我们现在也为Kimi,智谱,包括也在跟MIMO去做合作,让大家能够把我们的Token工厂更高效地给用起来。

但是我们也在跟很多高校、科研院所也在合作,所以我们其实一直都在思考一件事情,就是AGI时代需要的基础设施它会是什么样子的?

然后我们怎么能够一步步地去在这个过程中去实现它和推演它?我们现在也是做好了充分的准备,也看到了短期、中期和长期不同阶段我们需要解决的问题。

眼下要面对的,就是刚才大家聊到的——由OpenClaw这类Agent框架带起来的Token量暴增。这对我们的系统效率提出了更高的优化需求,包括价格的调整,其实也是在这个需求下的一种解决方式。

而我们一直以来,都是从软硬件打通的路径去做布局和解决的。比如,我们接入了几乎所有能看到的各类计算芯片,把国内几十种芯片、几十个不同的算力集群统一连接起来,去应对AI系统中算力资源紧缺的问题。

因为在资源不足的时候,最好的办法是:第一,把能用的资源都用起来;第二,让每一份算力都用在刀刃上,发挥出最大的转化效率。

当前我们要解决的核心问题就是:如何进一步打造更高效的Token工厂。这方面我们做了很多优化,包括让模型与硬件的显存等各种技术做最优适配,也在探索最新的模型结构与硬件架构之间,是否能发生更深度的化学反应。

但解决当下的效率问题,其实只是打造了一个标准化的Token工厂。面向Agent时代,我们认为这还不够。就像刚才提到的,Agent更像是一个人,我们可以直接交给它一个任务。

我其实很坚定地认为,当前很多云计算时代的基础设施,本质上是为服务一个程序、为服务人类工程师而设计的,而不是为AI设计的。

我们基础设施上的接口是为人类工程师做的,在这之上要再包一层,再去接入Agent,用人的操作能力限制了Agent发挥空间

比如,Agent能够做到秒到毫秒级别的思考和发起任务,这件事情在底层的K8S(Sparse)等能力上,还没有做好准备。

人类发起的任务是分钟级别的,这意味着这些功能需要进一步的能力,我们将它称作Agentic的Infra,即打造一个更智慧化的工厂,这是我们无问芯穹现在正在做的事情。

从更长远的未来来看,真正的AGI时代到来的时候,我们认为连基础设施都应该是一个智能体

我们所打造的这套工厂本身也应该是能够自我进化、自我迭代的,它能够形成一个自主的组织,有一个Agent CEO,可能由一个Claw管理整个基础设施,并根据AI客户的需求,自己去提需求来迭代自己的基础设施。

这样AI和AI之间才能更好的形成耦合,我们也在做一些让Agent-to-Agent之间更好地通信的能力,以及做Cache-to-Cache的复制能力。

基础设施和发展不应该是隔离的状态,而应该产生非常丰富的化学反应,这样才能真正做到所谓的软硬协同,即算法和基础设施的协同,这也是无问芯穹一直想实现的使命。

杨植麟:接下来想问问福莉,最近小米通过发布新的模型以及开源背后技术,对社区也做出了很大贡献。你认为小米在做大模型方面有什么独特的优势?

罗福莉:我们先抛开小米在做大模型方面有什么独特优势的话题,我更想谈一下中国的做大模型的团队在做大模型上的优势,这个话题更具备广泛的价值。

两年前,中国的基座大模型团队已经取得了非常好的突破,在有限的算力做了一些看似是为了效率妥协的模型结构的创新,如DeepSeek V2、V3系列的MoE等。
 

在算力一定的情况下发挥出最高的智能水平,这是DeepSeek给国内所有基座大模型团队的勇气、信心。

在今天,我们自己的国产芯片,尤其是推理芯片以及训练芯片,已经不再受限制。

但是我们也能看到,“限制”催生了我们对更高的训练效率、更低的推理效率的模型结构进行全新探索。

比如最近的Hybrid(混合注意力机制)、Sparse(稀疏注意力机制)和Linear Attention(线性注意力)的结构,包括DSA、NSA、Kimi的KDA,以及小米也有面向下一代结构的HySparse结构,这是区别于MIMO-V2这一代结构,我们面向于Agent时代去思考的如何做更好的模型结构的创新。

我为什么觉得结构的创新如此重要,是因为OpenClaw这个话题。

大家如果真实地用OpenClaw,会发现它越用越好用、越用越聪明。这一前提是推理的Context。

Long Context(长上下文)是我们谈论了很久话题。我们期待模型在Long Context下表现非常好、性能非常强劲且推理成本非常低。很多模型是做不到1兆或10兆的Context,因为它的成本太贵了、速度太慢了。

如果模型能做到在1兆或10兆的Context的情况下,推理的成本够低、速度够快,才会有真正的高生产力价值的任务交给这个模型,激发在Long Context下完成更高复杂度的任务,在10兆甚至100兆Context的情况下,实现模型的自迭代。

模型的自迭代,是指模型可以在复杂的环境里依靠于超强的Context完成对自我进化,可能是对Agent框架本身的,也有可能是对模型参数本身的,因为Long Context本身就是参数的进化。

怎么实现Long Context Efficient(高效长上下文)架构,以及怎么在推理侧做到Long Context Efficient,这是全方位的竞争。在预训练做Long Context Efficient的架构,这是我们一年前就去探索的问题。

而当今如何做到Long Context,在长程距离任务上达到非常高上限的效果,是后训练需要再去迭代创新的一个范式。

后训练正在经历的事是,怎么去构造更有效的学习算法,怎么去采集到真实的在1兆、10兆及100兆上下文里都具有长距依赖的文本,以及结合复杂的环境产生的trajectory。

由于大模型本身在飞速的进步,由于我们有Agent框架的加持,在过去一段时间里,我们能看到推理需求,已经实现了近10倍的增长,今年整个Token的增长有可能到100倍。

这让竞争也进入了另一个维度:算力,或者说是推理芯片,甚至是能源

杨植麟:非常有Insight的分享。下面想问一下黄超,你开发了一些非常有影响力的Agent项目,包括NanoBOT,也有很多社区的粉丝。从Agent的Harness层面,接下来有什么比较重要的技术方向需要大家去关注的。

黄超:把Agent的技术抽象,关键是这几个点:Planning、Memory和Tool use。

Planning现在还是面向于一些长程的任务或者非常复杂的算法,比如500步甚至更长步数的。未来,Planning可能需要把已有的比如复杂任务的知识,固化到模型里去做。

Skill和Harness(控制、治理机制)缓解了Planning里面带来的错误,一些比较高质量的Skill,本质上也是在模型上完成比较难的一些task。

Memory一直存在着信息压缩不准确、搜不准等问题,在长程任务和一些复杂场景,Memory就会暴增,对 Memory 带来压力。

各类的龙虾都采用的是最简单的类似Markdown格式的Memory。未来Memory可能会走向一些分层的设计,包括如何让Memory做得更通用。

现在的Memory机制很难做到很通用,比如说Coding场景、Deep Research、多媒体领域之间,整个数据模态的差别会很大。如何这些Memory进行检索索引,让它更加高效的,我觉得这是在做一个Trade off。

另外,龙虾让大家创建Agent的门槛大幅降低之后,我们可以预见,未来可能不止一个龙虾,可能每个人会拥有一群龙虾。一群龙虾相比于一个龙虾,其上下文的暴增会非常大,给Memory也带来压力。

目前还没有很好的机制来管理一群龙虾,在复杂的Coding和科研发现等场景中,会带来一定的上下文压力。无论是模型本身,还是整体的Agent架构,压力都很大。

Tool use的核心仍然是Skill。此前MCP的质量无法保障以及安全性等问题,在Skill中依然存在。虽然现在看起来Skill 数量很多,但高质量的Skill相对较少,低质量Skill会直接影响Agent任务的完成度。

另外,Skill还存在恶意注入等安全问题,使得整体系统的可靠性受到影响。在Tool use层面,可能需要依赖社区来共同建设和优化Skill,在执行过程中动态进化出新Skill的能力。

杨植麟:刚刚罗福莉和黄超通过不同的视角讨论一个问题,随着任务复杂度的增加,上下文会暴涨,从模型层面可以去提升原生上下文长度;

从Agent Harness层面,刚刚说的Planning、Memory,包括Multi-Agent的Harness,实现在一个特定的模型能力下支持更复杂的任务,这两个方向接下来也会产生更多的化学反应。

最后是一个开放式的展望,想请各位用一个词来描述一下,接下来12个月大模型发展的趋势以及我们的希望。

黄超生态。

现在龙虾让大家这么活跃,未来Agent真的是要去从真正的个人助手转换为打工人。现在可能大家很多时候玩龙虾是新鲜感,未来可能真正得让龙虾们沉淀下来,成为大家的搬砖的工具,或者成为coworker的状态。

这需要整个生态的努力,开源也很重要。相关的技术探索和模型的技术都开源出去之后,需要整个生态一起来共建。无论是对于模型的迭代、Skills平台的迭代以及各种工具,都需要面向龙虾创造更好的生态。

我自己感觉比较明显的是未来的很多软件都不一定会是面向人类的。整个生态不管是GUI(图形界面)、MCP(模型上下文协议)、CLI(命令行界面),还是软件系统、数据和技术,都需要把它们变成Agent Native的模式,让Agent发展更加丰富。

罗福莉:把问题缩小到一年,非常有意义。按照我对AGI(通用人工智能)的定义,5年后已经实现了。

如果要用一个词来描述接下来一年,AGI历程里最关键的是:自进化

虽然这个词有点玄幻,过去一年大家也多次提到,但我最近才对这个词有了更深的体会,或者说对自进化具体怎么做,有了更务实的操作方案,原因在于借助于了很强大的模型。

之前Chat的范式,根本没有发挥出预训练模型的上限。这个上限现在被 Agent框架激活了。当它执行更长时间的任务的时候,我们发现模型可以自己去学习和进化。

很简单一个尝试,当你在现有的框架里,给模型叠加一个可以verify的条件限制,再设置一个Loop(重复指令),然后让模型持续迭代、优化目标。

我们发现,模型会持续拿出更好的方案。这样的一种自进化,现在国内的模型基本能跑一两天,当然跟任务的难度有关。

在科学研究上,比如探索一个更好的模型结构——因为模型结构有评估标准,比如更低的PPL(困惑度)——在这种很确定的任务上,我们发现,模型已经能自主优化、执行两三天了。

从我的角度来看,自进化是唯一可以创造新东西的地方。它不是替代现有的人的生产力,而是像顶尖的科学家一样,去探索出世界上没有的东西。

一年前,我觉得自进化的时间历程会拉到3-5年。但近期,时间历程应该缩小到1-2年,我们就可以让大模型,叠加一个非常强的自进化Agent框架,实现对科学研究成指数级的加速。

我们组内做大模型研究的同学,workflow是非常不确定的,是高度创造力的。我们发现,借助Claude Code ,加非常顶尖的模型,基本上已经能够把我们的研究效率加速近10倍。

所以我很期待,这一种范式辐射到更广的学科和领域。
 

夏立雪:我的关键词叫“可持续Token”。现在AI的发展还在长期持续的过程中,我们也希望它有长久的生命力。

作为基础设施,我们看到的一个很大的问题,就是资源终究是有限的。就像当年的可持续发展概念一样,我们现在作为Token 工厂,能否给大家提供持续、稳定,能够大规模用起来的Token,让顶尖的模型能够继续为更多的下游服务,是一个很重要的问题。 我们现在需要把视角放宽到整个生态:最早的能源,转化到算力,再转化到Token,最终再转换成人的GDP——这样一条链路,要进行持续的经济化迭代。

我们不止在把国内的各种算力用起来,也在把这些能力输出到海外,让全球的资源都能够打通和整合。我想把中国特色的“Token经济学”做起来。

在之前的时代,我们讲“Made in China”。我们能够把中国低价的制造能力,变成好的商品,输出到全球。

我们现在想做的有点像“AI Made in China”。我们能够把中国能源上的优势,直接通过Token工厂,可持续转化成优质的Token,输出到全球,将来成为世界的Token工厂。

这是我今年想看到的中国给世界人工智能带来的价值。  

张鹏:大家都在仰望星空,我就落地一点,未来12个月面临的最大的问题,可能就是算力

所有的技术,包括智能体框架,让很多人的创造力与效率提升了10倍。但前提条件是,大家能够用得起来,不能因为算力不够,导致一个问题让Agent思考半天,也不给我答案。

也是算力的原因,甚至我们研究的进展其实都受阻了。前两年,张亚勤院士说了一句话:谈卡伤感情,没卡没感情

今天又到了这个地步,但情况又不一样了。我们转向了推理的阶段,因为需求真的在十倍、百倍的爆发,还有很大的需求没有被满足,怎么办?我们大家一起来想想办法。

欢迎交流!

简体中文 English