圆桌论坛:2026 科技的这一年 “少数,即浪潮” | 36氪WAVES2026新浪潮
来源:36kr 16 小时前

“2026年,创投圈的浪潮再次翻涌:AI从技术概念走进产业深水区,硬科技创业从“小众赛道” 变成“主流共识”,年轻的创业者们正在用代码和双手,重新定义中国创新的未来坐标。

每一年,由36氪 · 暗涌主办的WAVES大会,都是中国创投圈的年度风向标。今年的 WAVES 2026以“今年盛夏”为主题,落地广州番禺良仓新造创意园,在两天的时间里,我们汇聚了顶级投资人、产业领袖、新锐创业者,用14场深度圆桌、数十场独立演讲,拆解 AI、硬科技、出海、医疗等核心赛道的底层逻辑,见证那些“少数人” 的坚持,如何汇聚成改变行业的浪潮。”

以下为对话内容,经36氪整理编辑:

何思翀丨蚂蚁集团NEXTA创新实验室 项目负责人(主持人)

罗霄恒丨帕西尼感知科技首席战略官

唐旋来丨擎朗智能CTO

朱政丨极佳视界 联合创始人、首席科学家

孟浩|大界机器人 创始人兼CEO

何思翀:欢迎各位观众,各位朋友,大家好!

欢迎来到本场圆桌对话,2026科技这一年“少数,即浪潮”,我是本场圆桌主持人,来自蚂蚁集团NEXTA创新实验室的何思翀。

如果大家关注科技领域,一定会发现2026年,那些曾经被认为少数派的技术方向越来越走近我们的身边,成为定义未来的一个浪潮。不管是具身智能、世界模型、柔性制造还是触觉感知,这些词汇在几年前还是实验室中的概念,但是在今天,它们已经真实地在改变我们的工业生产线、服务场景以及我们和机器的交互方式,所以今天也是非常荣幸邀请到4位站在这场浪潮最前沿的创业者。他们来自不同的赛道,但都在做着同样的一件事情,那就是让这一切变成现实,发生在我们的物理世界。

我们先来认识一下今天的4位嘉宾,首先坐在我旁边的是帕西尼感知科技首席战略官罗霄恒,跟大家打个招呼。

罗霄恒:大家好,我是帕西尼罗霄恒。

何思翀:第二位是擎朗智能的CTO唐旋来。

唐旋来:大家好,我是来自擎朗智能的唐旋来,谢谢!

何思翀:第三位是极佳视界的联合创始人,首席科学家朱政。

朱政:大家好,我是来自极佳视界的朱政,很高兴跟大家交流。

何思翀:还有一位是大界机器人的创始人孟浩。

孟浩:大家好,我是大界的孟浩。

何思翀:欢迎四位,圆桌从一个具体的问题开始。

2026年已经过去了将近半年的时间,在各自领域是否有感觉到一件事情,这个事情真的发生了,对大家非常有触动。一分钟各自分享一下。

罗霄恒:如果说一件事的话,可能发生的事情还挺多的,一个是张雪机车,一个是SpaceX上市,他们俩背后应该是相同的精神,这也是整体创业团队一直在学习的精神。

何思翀:等一下也给我们详细分享一下。

唐旋来:我分享一件日常产品训练中的一件事情,记得大概在3、4月份,因为我们是做具身服务机器人,我们的机器人主要应用在餐饮、酒店、零售、医院等各种生活服务场景中。当时我们在测试人形机器人做咖啡的整个流程,当时我也在陪着他们调试。实际上,整个训练、测试过程中没有其他任务,就是做咖啡,但这个过程中特别有意思。因为抓得不好,咖啡掉了,桌子上撒得全是水,杯子也倒在那里。我们工程师准备出手终止测试的时候,突然发现那个机器人自己触发了另外一个清洁桌面的任务。机器人试图把这个杯子捡起来,试图去抓桌面上的纸来清理桌面的咖啡,这一刻让我特别惊喜,我们讲的具身智能怎么走入社会,怎么产业化、工程化,我一下觉得它好像来了一个智能涌现,就跟我们人一样会根据环境的变化来灵活处理,今天我们探讨具身智能模型怎么进化,其实很多时候的训练、学习过程,给了它很多基础的数据和训练了很多技能,但是很少能够像人一样在遇到突发情况有智能涌现。我们的真实环境是复杂多变的,遇到这种情况怎么智能处理和灵活应对,这是真实的一个挑战。

何思翀:您刚才讲的时候我也是突然冒出“涌现”这个词,没想到机器人它突然涌现出来了。

朱政:我非常赞同两位嘉宾说的,这半年以来,尤其是春节之后。可能春节之前大家都觉得具身智能、机器人在去年的判断里面普遍认为至少需要五年,甚至十年,因为之前大家在自动驾驶里面受过严重的挫折,尤其是L4自动驾驶,大家觉得解决这个问题大概花了十年时间,我们现在仍处在L2、L3的阶段。在去年,大家认为机器人,包括具身智能可能要重新走一遍这样的周期,但是春节之后我感觉大家的信心增加了不少,尤其是随着资本的涌入,随着人才的涌入,大家普遍这个事情会加速,而且不是线性家属,很有可能是非线性的加速,就像语言模型突然的涌现等等,这是我最大的一个感触。

孟浩:可能我个人期待比较高,我这半年一直在关注具身,也在关注所有行业里面在做的事情,我还没有找到那个让我“Wow!”的时刻!

何思翀:就着刚才几位的回答,我还想进一步问一下,因为有些嘉宾有一个“Wow”的时刻让我觉得充满信心,但有些可能觉得还不够,我们能不能再举一些例子,你所在的赛道有什么事情比你预期的快,而有什么时候没有达到你预期的速度呢?还是从罗总先来。

罗霄恒:我所做的赛道会比较多,包括具身智能、人形机器人,具身数据等。我认为投资界,包括政府领导对专业,跨领域或者交叉学科的学习程度和接受度是比我想象中快很多的。很多投资人,包括政府领导人对产业的钻研深度和前瞻性,远超我们的预期。

比我想象得更慢的,是整体社会或者公众,现在整体都是从上往下去推,在各类活动中,人形机器人已经层出不穷。但是公众对此类现象接受度未知。所以让公众真正感受到具身的便利,具身所带来的差异化价值点,会是一个很重要的点。

何思翀:从唐总分享一下。

唐旋来:这半年的趋势让我感觉比较快的,像大模型以及AI Agent,它真正能够快速变为我们工作和生活中的工具助手,这个真的变化挺快的。你会发现今天我们的生活跟工作中,正在被这一系列的工具或者这样的Agent替代。

另一方面,在具身智能的应用和产业化落地的这一块,我们的人形机器人——具身智能这样一个AI+物理载体,它真正走入我们真实的生活场景,解决我们日常真实的问题,出现好的产品和应用场景,这个进度没有想象那么快。

何思翀:朱博士这边呢?

朱政:其实大家对我们极佳视界印象最深的一个词就是我们做世界模型比较早,我们做世界模型做得比较早,大概2023年上半年的时间,从公司刚成立就确定了这个技术路线。

我非常赞同刚才罗总讲的,我感觉进展最快的一点就是公众,包括技术圈,包括工业界、学术界以及投资人对世界模型的关注。2023年的时候当时最大的任务就是说服投资人为什么做世界模型,因为当时不只一位投资人告诉我们,如果你们做语言模型或者语言模型的应用,一定会投你们,但是我实在搞不懂你们做的世界模型究竟是什么?问ChatGPT,跟你们学,但实在搞不懂这是什么词,所以这次不能投你们。去年随着李飞飞出来创业,这个词算是走到大众视野里面。到今年上半年已经有很多投资人过来教育我们,说他们认为世界模型应该是什么样的,建议我们未来应该做什么样的世界模型,已经发展到这种阶段了,我觉得这是大家转变非常快的一个点。

进展比较慢的是,我觉得是现在做具身的,各种工业界、学术界大家的争论仍然停留在所谓的数据、模型结构、训练方法,部署场景,里面噪声还是挺多的,大家很有可能自己做的侧重点不一样,对这个事情的分析也不一样,所以说我觉得还没有像语言模型真正达到一个收敛的状况。

何思翀:孟总跟我们分享一下,你说没有到“Wow”的时刻,是什么不及你的预期呢?

孟浩:其实跟各位嘉宾的想法也一样,资本,人才,技术,迭代肯定是越来越快的,但是具身要比大语言模型难很多,因为要跟物理世界接触,一接触它就要转化成生产力、效率、精度、执行力,现在看目前所有的具身公司在产品的落地上还是偏慢的。我们觉得这里有一个周期,包括具身要收敛,大家也要聚焦在不同的细分领域,去做差异化产品,避免同质化的竞争。

何思翀:因为我刚才听到四位谈起来,整体上大家都还是在逐步提高认知,甚至认知有时候超过了想象,但是具体到落地的层面,未来还有一些待解决的问题。

我也非常好奇的是,在我们去解决这些问题的路上,不管是各自的产品也好或者是各自组织形态也好,包括客户的需求有没有发生哪些变化,大家能不能具体谈一谈呢?

罗霄恒:其实整体的需求是不断提升的,之所以说投资者或政府领导的认知在提高。可能大家在舆论上或者短视频都经常看到机器人开始打工了,要开始进家庭了。这都是一个非常迫切的的期待。然而,智能体需要跟物理世界进行交互的时候,物理世界充满了噪声和不确定的点,机器人怎么像人一样去完成工作,怎么样精准完成任务,这些东西就不再是我们在实验室里抓拿放取这么简单的东西,而是要走到半结构化或者真实的场景里面去完成,这是我认为到今年年底乃至到明年所有机器人公司都要着重去推进的方向。

何思翀:你们具体怎么做?

罗霄恒:实际上目前帕西尼有两个步骤。第一,我们全国布了5个数据采集中心,我们的核心优势是自投自建,全栈自研,自主可控,真实雇佣了1000多个数采员工,戴着数采手套进行采集。采集出来的触觉、视觉、语言、运动轨迹、自体感知等全模态信息等相当于老师傅的手感,里面包括了医疗、康养、医疗、消费、餐饮等15+N种场景数据。相当于洗盘子的数据能够被直接记录下来,这是我们为机器人开的幼儿园或者小学,这些的数据就是机器人的基础动作。就像小孩子一样,现在很多小孩子可能抓筷子都抓不好,最开始小孩子拧一下、扭一下、抓一下,这些基础动作没有练好,导致长程复杂的动作很难学好,这是我们为机器人打的基础。

下一步帕西尼会跟很多海内外产业方,比如说创始人团队以外最大的比亚迪、京东、TCL等等一线产业方合作,走到他们真实场景里,从数采再到部署,这一系列的任务落地我们会滚动完成。

何思翀:唐总分享一下。

唐旋来:擎朗是全球头部的通用+专用具身服务机器人公司,我们在服务行业做了十几年,不断在引领和推动机器人落地到我们的经济生活中,大家今天看到的,比如在餐厅、酒店、商场、医院的配送清洁机器人,其中有一大部分是擎朗的。

这两年我收到从客户层面最大的需求是,经常有朋友会问我,你们机器人搞得怎么样,什么时候能给我洗衣做饭带孩子。我们的客户,像酒店、餐厅客户经常会问我,我还有这么多需求,你能不能用机器人搞定,你的人形机器人或者下一代机器人能不能帮我搞定,我能感觉到大家对机器人的期待、激情与渴望。

刚才罗总也讲到,今天讲具身,大家可能觉得什么时候我真的能拥有一个类似于这样的,像一些朋友跟我讲管家机器人,像人一样的通用机器人。但这里面其实有很大的挑战,第一点是今天看到很多视频里具身智能机器人表现的能力,大都是在稳定环境中表现出来的能力,我给你创造一个稳定的环境,机器人按照这个相对稳定的条件去理解去推理,去把这个任务执行完。大家可以想像在现实环境中,或者是真实服务环境中,或者家庭中,它是一个完全开放的环境,一个随机的环境。这里面就带来一个问题,机器人在这些随机环境中怎么像人一样应对突发事件?就拿我前面举的例子,比如我在做咖啡的过程中咖啡撒了,或者有一个人把它抢走了,我怎么应对,我怎么针对原来的任务去做改变,去适应这个环境带来的变化?真实环境有太多类似的随机和未知,这是真正考验机器人智能程度的地方。再比如我把这个咖啡做完或者把这个桌子收好,或者做一件事情,但是它是单一事件的任务,而现实过程中往往是,我该怎么样把这些任务,根据环境的变化去做不同的组合,如何自主去做应变和适应,这是一个很重要的点。如果这个点能满足,我觉得它会变成一个很好的产品出来。

第二个,大家可能会想到机器人融入我们生活中,一个很重要的就是它自身的稳定性和安全性。我们可以想象我们生活中的很多电子产品,包括汽车等,你肯定希望它是一个田螺姑娘,一个机器人来到我家,什么都不用我管,它可以自己去完成任务, 自己学习,自己保证自身稳定,对我们又友好,这也是大家在商业化落地过程中需要考虑的重要因素。

总而言之,物理世界AI需要面对复杂多变的动态环境,需要更强的智能水平。

何思翀:听听朱博士的世界模型。

朱政:其实我们极佳视界做的事情有两个关键词,一个是世界模型,另外一个是具身的基模,就是所谓具身智能的基础模型,其实从这两个关键词可以看出来,我们还是把自己定义成一家模型公司。既然是模型公司,它的商业化一定是有步骤的,我们可以发现过去大多数机器人的系统可能是通过大量的规则,少量的小模型组合的一种形式,现在落地应该是规则和模型的混合体,我们希望在后面模型可以更多取代规则,直到达成在工业场景或者家庭场景全模型的状态。当然,大家可能都知道,训练模型是一件很难的事情,这个难不仅仅体现在技术角度,还体现在人才密度、组织架构,包括资金是否充裕等等。所以综合几方面来考虑,其实过去几年投资人对这个行业是非常宽容的阶段。

大家都知道,模型的迭代不管是以半年为周期,还是以季度为周期,总而言之不可能一蹴而就。从商业化角度来讲,我觉得相比其他行业的投资人,比如说生物制药或者说可控的核聚变,甚至量子计算等等,我觉得投资人对具身智能这个赛道应该是非常宽容,因为大家并没有要求你立即在工厂里面替代工人,甚至进入家庭里面,像刚才各位嘉宾说的洗衣服、做饭,做一个通用机器人。大家还是希望你能从细分赛道逐步迭代数据,收集数据,改进你的系统等等。当然经过2024、2025年这两年数据、模型的积累,尤其是2026年上半年随着资金的大量涌入,我感觉下半年或者是明年应该是商业化非常关键的一年半的时期,我们还是希望能够在为2028年之前大家做好准备,为2028年大规模不管是工业场景还是家庭场景,大规模商业化的拐点做好准备。

何思翀:听听孟总的。

孟浩:虽然我今年没有“Wow”的时刻,但是我还是非常相信,具身智能,在五年左右时间里,能够变成真正的产品,能够跟人一起协同,创造一个人机共生的社会,当然我觉得家庭机器人产品化会更远,但工业里面其实有大量的场景是需要机器人,从工业机器人到协作机器人,到现在各种形态的具身机器人,能创造更大的价值和生产力。

但本质上我觉得不管投资人和政府怎么看,也不管市场的热度是怎么样的,其实客户的需求永远没变,他就希望机器人能像人一样,对标人的生产力,能把这个事干好。

所以我觉得这个需求是一直在的,也没有变过,无非是大家在各自赛道里面,怎么样围绕真实场景的需求去定义产品,去迭代技术,我觉得这是最关键的。

何思翀:刚刚几位嘉宾谈到了他们期待具身智能有所突破的点,但事实上几位嘉宾在各自行业做出的产品都是可圈可点的,大家如果站在全球的视野来看,我们中国的科技在这几个赛道上大概处于什么样的位置?罗总你先来,因为帕西尼触觉传感器出货量已经排名第一了,可不可以给我们介绍一下,这个第一是怎么得来的,它能保住多久?

罗霄恒:我们不谈保持多久,只争朝夕。

首先给大家介绍一下帕西尼,为什么叫帕西尼?帕西尼是一个小体,我们每个人身体中都有无数个帕西尼小体,它是专门负责感知高频次外部压力与震动变化的人类力学感受器。我们的初心是让机器人拥有人一样的手感和触感。

我们从2021年开始做触觉传感器,“十四五”期间,触觉传感器是工信部列的35项卡脖子技术之一,前四项分别是光刻机、芯片、OS、航空发动机短舱,第五项是触觉传感器。该产品曾经重度依赖进口,只存在欧美象牙塔里面,10万块钱一小片,这是没法产业化和商业化的。所以我们通过不断迭代,运用磁电原理,包括自研芯片和算法架构,最终把它降到199一片,所以这是很适合于产业化、商业化应用的区间。

整体占比在市场上大概是半壁江山,去年黄仁勋亮相的14款人形机器人里面有11款用的是帕西尼的传感器,我们希望真正给机器人带来更加丰富的、直接的触感。

何思翀:请唐总给我们聊聊擎朗,听说擎朗海外营收超过了50%,外国客户怎么看待我们中国的机器人呢?

唐旋来:因为擎朗十几年一直专注商用服务场景在做具身服务机器人,我们真正出海是2019年左右,这里面也是非常有意思的一个过程。

首先我们出海的时候,整个具身服务机器人它的使用跟普及是有三个圈,第一个圈就是中国,中国实际上做得最好,最好,包括应用场景和产业链,大家的接受度是最高的;然后是环中国地区,典型像日韩,可能因为文化相近,大家知道,日本对机器人也是非常喜欢;然后再就是欧美。所以,我们出海的时候就发现,最早你要教育市场,特别是在欧美,我们看美国大片很多机器人都是有点反面角色的感觉,所以你要教育这个市场接受它。

第二点才是出海的产品怎么匹配这个市场,不一定在中国卖得好的在日本就能卖得好,在日本卖得好的不一定在欧美卖得好。我们当时出海有两步,一步叫全球化,第二步叫本地化,你只有先走出去,然后再沉下来,就是海外本地化的过程,最后才让大家真正能接受。而且每个国家讲的机器人价值不一样,有些地方能讲劳动力的替补,但是换一个地方不能讲,其实都是很有意思的过程。在海外,我们这个领域,中国的竞争力是遥遥领先的,因为中国的AI技术加上中国供应链的能力,以及中国大量场景打磨出来的产品成熟度,这让中国的服务机器人产品完全能够遥遥领先全球。

何思翀:听听朱博士,因为极佳视界的模型也是击败谷歌、英伟达,登顶的榜首,这对你来说意味着什么?

朱政:大家都知道,现在全世界的AI竞争大家只用看中国和美国,像日本、韩国或者欧洲暂时还没有进入主流的竞技场。

我们先抛却模型的技术不谈,还有一个非常深刻的问题,我经常在思考,我们中国从过去的制造业的大国到现在所谓的打造业强国,一个非常大的优势就是人,除了工程师以外还有很多产线的工人,第一个数量比较充足,第二个从业经历比较丰富,不管是组装手机,还是各种产线上他们都可以非常熟练的,很好地完成工作,这也就导致美国很多时候他们的产品没有办法跟中国竞争,尤其涉及到人工的产品,很多时候美国没办法和中国竞争。但现在出现了一个新的变量,美国现在的机器人,包括具身产业,他们虽然也很注重家庭产业,但是像Figure或者特斯拉机器人首先要解决的第一个武装就是工业场景,产线的场景。假如说美国的模型或者美国具身智能整体的发展可以领先中国整整一个段位,他们就有可能在替代人这个问题上产生一种新的变量,有可能会很大程度上增加产品的竞争力,我觉得这对中国来讲是一个非常大的隐患。假如说我们要重蹈过去像芯片、操作系统或者光刻机这样的老路的话,有可能会陷入一个很大的问题,这是我觉得除了技术之外一个很重要的点。

再回到技术这个点,大家经常讲中美的大语言模型可能差距在6个月到12个月(半年到一年),可能只差两代旗舰模型,就是如果按照季度来更新旗舰模型的话。在具身行业,大家知道具身都是依赖于本体的,大家没有办法在一个非常公平的场合对比自己的模型,比如像语言模型,我可以在上面刷榜或者刷分,或者让人工去打分等等,现在具身智能是没有这个条件的。但是好在头部的具身智能公司或多或少都开源了自己的一些模型,我们在内部建了一个非常大的测试集,大概覆盖了十几种场景,几十种操作任务。我们测过非常多国外的开源模型,包括国内的开源模型。现在整体感受国内的模型基本上跟国外的模型还是有一些差距的,但是差距大概在一代模型之内,大概差在一个季度上的模型,这是我们初步的一个判断。

最后想谈的一点是,硅谷具身智能大概讲这么几个故事,第一个故事是VLA,第二个故事是强化学习,最近在讲的一个故事是自适应化的具身智能的系统,基本上是完全Follow语言模型最新的三个进展。国内现在跟得也比较紧,甚至有些子领域上已经超过了国外的一些同行,但是现在具身智能中美面临的一个共同问题是仍然受限于语言模型的进展,往往是语言模型成功的一些经验或者一些成果,然后我们搬到具身智能上,这是接下来大家要共同思考的问题。因为具身牵扯到一些算法,牵扯到本体,牵扯到中间的一些协同,它还是跟语言模型非常不一样的,还面临着很多自己的问题,所以需要中美共同来解决的一个问题,就是我们怎么跳出语言模型的圈子,或者超越语言模型来解决属于具身的问题,这是大家共同面临的问题。

何思翀:孟总,因为刚才朱博士也提到了工业领域,工业柔性制造领域你来谈一谈。

孟浩:刚刚朱总聊到特斯拉Optimus,说美国模型变大以后,他们在工业上能够有更大的机会帮助到美国重振工业,但我持保留态度,因为我觉得特斯拉Optimus还没有找到可以商业化的场景,更多还停留在探索和展示阶段,落地需要一段时间。

前段时间我也跟非常多的人形机器人公司聊,大家都非常焦虑,都在琢磨人形机器人进工厂,做分拣、做抓取,做搬运,但本质上车厂他们不需要这些东西。因为车厂的生产线早就被固定式的机械臂覆盖完了,该自动化都自动化了,剩下的那些零碎活,用人形机器人替代人,反而不划算,价值不大。

再看电子行业,其实也不太需要特别智能的机器人,因为电子制造是标准产品的重复性生产,核心工艺其实都被工业机器人以标准的、重复执行的动作做完了,因为它要的是节拍,不需要柔性。

所以现在我们看到人形机器人做搬运其实都是一些边角料的工艺,可能在做搬运的时候工人还要在电脑里录入很多东西,看项目单,记录数据,所以这些其实一直都会需要人,因此我们用机器人去替代好像价值也不高。

那真正的机会在哪?我也在跟很多人形机器人公司交流”,我说你们看看一般工业,我们在做的客户,包括大型金属行业、建筑、船舶、电力,这些都是中国的支柱产业,大概占到整个中国产业一半以上,这里面有大量的场景需要柔性制造,需要工业具身机器人,为什么?因为这些行业都是小批量多批次的,是大规模定制化的,客户的设计一直在变,东西越大,产品的标准程度越低,产能就越小,这里面所有零部件,细分到图纸、数据,都是在动态变化的。

所以在一般工业里面,工业机器人的渗透率其实20%都不到,因为太难了,太碎片化了,太柔性了,编程的工业机器人跟不了。我们在这个行业里干了十年,越来越看到机会,所以也在积极推动那些很Fancy的人形机器人赶紧到我们客户的工厂里面干脏活累活。

现在中国机器人的水平怎么样的?在我们行业里已经完全超越了。我举个例子,我们在给客户,包括几个大船厂提供的型材切割机器人,真的是用一半的价钱去替代了欧洲六七十年的隐形冠军,就是只做硬件,不懂数据,没有大脑和AI的这些传统家族制造业冠军,以前他们全球卖切割焊接的机器人。但到现在因为软件和AI跟不上,加上欧洲的工业在衰落,被我们在两年里就超越了。

为什么?因为中国有大量一般工业场景,我们在里面深耕了快十年,我们懂场景痛点,懂客户需求,市场需要好的产品,好的机器人来提高生产力,加上工人越来越老,技术越来越难干,年轻人不爱去干。所以我也希望跟更多做具身,做人形的公司能在更大市场里面定义真正好的产品。

何思翀:通过刚才4位的分享,我们还是听到了一些振奋人心的答案,在某些技术点上我们中国现在的机器人行业确实是领先的,但是我也听到各位其实还是有非常冷静的判断,我们可能还需要有一些突破的地方,不管是在商业化、标准化、生态化上面还要继续做一些努力。

最后我想问每个人一个问题,比较有挑战性的问题,大家可以简短回答我一下,还是从帕西尼的罗总开始,罗总你们选择的是做触觉,刚才你也提到这是一个卡脖子的方向,具身智能我们看到这么多家公司里面一般都是讲视觉,讲动作控制,实际上讲触觉是很少的,如果一个机器人它也能看,也能动,但它摸着没有触觉,对你们来讲你是觉得它是够用的,还是完全不够用?

罗霄恒:AI的时代,我们团队认为是追溯人性非常好的契机,因为AI给我们带来的不只是工具,而是全方位的一种重新了解自己的方式。人类认知世界,始于与万物的真实“触摸”。今年大家可以看到像大摩、高盛、伯恩斯坦这类顶级投行都在发布关于人形机器人的研报,并且会把触觉作为未来重点关注的部分。真正的AGI绝不能仅停留在虚拟的逻辑演算,它必须像人类一样,通过高精度的触觉去感受、抓取并理解物理世界。具身感知是跨越数字与现实鸿沟的核心钥匙,只有赋予机器人真实的物理交互能力,让AI真正理解人类生存的物质空间。这是技术向生命形态的演进,更是迈向通用人工智能的必经之路。

何思翀:在精细操作的场景里,触觉其实不是最好用的,而是必须有的判断。

听一下唐总的,擎朗是做服务机器人的,现在我们身边也看到很多服务机器人,但大家对它的判断还是一个会动的机器人,不会觉得它是一个具身智能,它好像还差了脑子那一部分。擎朗也提出了“具身智能+”的战略,你们到底是在原有的机器人上面加一个脑子,还是会形成一个全新的产品形态?

唐旋来:这里我纠正一下,今天大家看到的在酒店、零售、餐饮、商超等服务场景看到的机器人,比如配送或清洁机器人,它并不是没有脑子,反而它的大脑能力还是非常强的,因为它要随机处理环境的变化以及人跟它之间的互动,这实际上是需要智能化程度比较高的能力。

你刚才讲到的问题是一个什么问题呢?是专用机器人跟通用机器人的关系。今天我们在生活中看到的那些配送、清洁机器人等我们都归结它属于专用机器人,即在专用场景中解决一系列专用问题的机器人。今天我们看视频,看到人形机器人,我们会把它归类为相对通用一点的机器人,我们称之为通用机器人,差异点在这里。

擎朗有一个观点,未来这个世界,也许50年之后,也许100年之后,当人和机器人和谐相处,遍地都是机器人的时候,我们认为到这个阶段,它也是一个通用机器人跟专用机器人相结合的世界。为什么呢?大家想想,什么是专用机器人,专用机器人就是生活当中落地的,包括刚刚云鲸讲的扫地机器人以及配送机器人,清洁机器人,这类机器人它的优点是什么?跟我们人一样,优点是在自己所属的领域、场景中一定是最高效率的。但是缺点是什么?可能换一个任务就不能干了,这是它的限制。通用机器人则不一样,刚才孟总讲到很多碎片化的事情,很多小众场景需求,实际上大多数需要灵活处理,就跟我们公司一样,很多时候都有一个全栈,需要这样的人串起来处理更复杂的任务。所以说,通用机器人能处理更复杂、更多样的任务,但是相对应的,它处理单一任务一定是效率没有专用高的。

所以从未来发展来讲,它最终一定是“通+专”结合起来的产品形态。擎朗为什么从专用机器人到“通+专”协作路线来的,其实一句话归纳就是,为了满足客户的更多复杂性需求。其实不管是产品形态,还是技术形态的升级,实际上在这个过程中,我们在同一个场景跟客户讲,我希望在这个场景中用“通+专”结合,给你一个更完整综合的解决方案,比如在酒店、餐厅,你有清洁、配送的专用需求,也有更通用的需求,如迎宾、调酒、做咖啡等,而我们的“通用+专用”协作方式,就可以提供一个很好的解决方案,为客户达到效率最大化。

但具身智能不能只讲故事,要交作业。这个我们已经有了标杆案例,在香格里拉盛贸酒店,擎朗人形机器人XMAN-R1已正式担任迎宾员,与配送、清洁等专用机器人协同作业,成为全球首个“通用+专用”机器人协作的落地案例;在挪瓦咖啡,它还以“特聘咖啡师”身份独立完成咖啡制作全流程,充分展示了多任务规划、精细力控与人机安全交互的综合能力。

那在这个过程中怎么商业化落地?擎朗有非常清晰的路径,叫做岗位化。擎朗“岗位化”的落地路径,把复杂的服务形成一个个可执行可评价的岗位,让机器人在真实的劳动中积累数据,在实践中完成迭代。

我再详细解释一下,如今在大厂会有管培生的案例,从技术的角度刚刚朱博士也有讲到,在通用模型共享的基础下,怎么在每一个细分领域去培养一个厨师、调酒师、清洁工等一系列岗位化技能,让他在这个岗位上就能干好这个岗位。而这些能力都是可以迁移复用的,一万台机器人习得了一万个岗位能力,每台机器人就具备一万个岗位的能力。这是基模加垂模的组合,即擎朗自研的全球首个服务行业模型KOM2.0+擎朗岗位化垂域模型KEENON ProS,面向服务场景中的具体岗位,使机器人能够快速掌握岗位技能,实现“上岗即干活”。搭载该模型后,机器人还具备了自主决策能力,比如在咖啡制作过程中遇到人为干扰、咖啡机屏幕不响应等突发状况,都能自主判断并实时解决。岗位化能够加速具身智能的商业化落地,也在不断拓展“通用+专用”的服务边界。

何思翀:也是听到了一个非常坚定的答案。

我们问问朱博士,朱博士讲了这两年是世界模型商业化很重要的时间,想问一下世界模型之于具身智能,是像操作系统之于电脑那样,还是说它是类似像自动驾驶L5?

朱政:因为这是最后一个问题,根据我的经验,现在是要发表一些暴论的时候,不然整场论坛就不会被大家记住,大家以后传播也没办法传播。

我们感觉是这样的,具身智能跟世界模型的关系,现阶段的世界模型我们大家都知道,大家理想中的世界模型应该是一个通用的世界模型,它可以对物理世界进行重建,进行各种演化,然后对它进行各种模拟。但是现在如果大家来做通用世界模型其实是没有一个抓手的,只能按照视频生成的方式,比如类似于Sora或者Seedance这种方式去做,但是如果没有海量的互联网数据训练,其实它是没有办法去理解物理世界的,更不用提我们如何在这里面切入各种物理规律等等高级的操作,所以从这个意义上来讲,现阶段具身应该是世界模型最好的落脚点。反过来意义上来讲,现在具身智能也离不开世界模型。因为大家都知道,之前落地比较成熟的VLA还是有很多缺点的,无论是从监督太稀疏,还是说没有办法生成多任务,或者说它的泛化能力比较弱等等,还是说从语言模型集成来的VLA,还是有很多问题的,它可能只是数字AGI的外挂,外挂的一个语言的操作数字AGI,它并不是一个原生的物理AGI,所以从这个意义上来讲,我觉得具身跟世界模型它们两个是深度绑定的,这也是为什么在很多场合提到世界模型大家一定会提到具身智能,反之也是这样,我觉得现在它们两个谁也离不开谁。

从长远来讲,世界模型大家追求的肯定不仅仅是一个具身场景的世界模型,我们还是追求像大家之前追求自动驾驶场景的世界模型,包括未来影视、游戏、内容场景的世界模型,最后达到一个通用场景的视界模型。

我大概是这么判断的。

何思翀:孟总,最后一个问题,你刚才也介绍了,大界机器人已经做了十年了,您开始做的时候应该还没有具身智能这个词出现,其实你已经经历了一个周期,从冷到热这样一个过程,你觉得在这十年里,机器人行业令你学到最重要的一课是什么呢?

孟浩:我是觉得技术迭代越来越快,尤其是底层的芯片、算法、数据。早在十五年前,我们在研究生阶段就看到这个趋势,尽管当时工业机器人还是编程驱动,视觉刚刚起步,人工智能也在渐进发展,但是我们已经跟着导师在ETH以及国外顶尖实验室,开始研究机器人大脑,以及怎么用仿真,数据和模型,让机器人自适应干活。

后来创业成立了大界,建筑是我们最早切入的场景。这十年我们从建筑拓展到了更多工业制造领域,但贯穿始终的共性挑战从未改变:碎片化,非标、非结构化。不管是在工厂还是工地,对机器人的智能都提出了非常高的要求。所以越是复杂的场景,越能检验真正的产品力。而我们也一直用这份产品力,为中国工业制造创造价值和生产力。

十年了,也是具身老兵了,给大家一些经验和想法。第一,模型和算法的技术壁垒会变低,最终所有的事情还是会落到产品力和商业化上,就是公司做的事情能不能够为社会创造价值,不管你手里有多少钱,最终都要落地变成产品;第二,要去真正热爱这个行业,相信很多事情会变成现实,因为十年里面有非常多的不确定性,包括组织,技术,内部和外部,我觉得创始人的定力,以及对这件事的热爱和坚信是最重要的,不是为了讲故事而讲故事,我们也从来不讲故事,相信,才是是背后最大的推动力。

我本人还是非常相信具身未来是一个非常大的市场,包括在工业,在家庭,只是不同的产品有不同的成熟周期而已。

何思翀:十年创业的Know—how换来了最底层的相信和热爱。

时间关系,今天圆桌对话到这里就要结束了,通过4位嘉宾的分享我们也看到具身智能正在经历一场从实验室的奇迹到工业及生产力范式的重构,当行业退去了舞台表演的幻觉,回归到商业的本质,可能它的拐点才会真正到来。然而在我们面对高度不确定性的物理世界,又想重塑全球生产力标准的时候,这注定了是一场长跑,只有从验证走向复制的能力,或许才是决定企业能够真正跨越周期的关键。

再次感谢4位嘉宾参与我们的圆桌,也谢谢各位观众的参与,谢谢!

简体中文 English