机器人泡沫大讨论:揭秘“虚火”下的真实逻辑
来源:36kr 1 小时前

最近,人形机器人赛道再次被推向了舆论的风口浪尖,依然在“泡沫”与“前夜”的争论中摇摆。

在硅谷,初创公司1X近期发布了Neo的演示视频。在这支拍摄精美的广告片中,Neo似乎能像人类一样自然地做家务,视频瞬间在X和YouTube上引发热议。但赞叹声未落,质疑声便铺天盖地而来——外界指出其流畅动作的背后,其实严重依赖远程操控(Teleoperation),而非机器人的自主智能。这让人不禁联想到2023年那些声称拥有AI能力、实则依赖人工后台处理的初创公司,“人工”智能的幽灵再次出现。

与此同时,高盛在一份最新调研报告中,无情地指出机器人供应链的“现实温差”。尽管资本市场情绪高涨,企业产能规划激进——普遍在年产10万至100万台之间——但实际的大规模订单尚未落地。高盛甚至预测,即便到了2035年,全球人形机器人总出货量或仅为138万台。

尽管面临“造假”质疑与“产能过剩”的风险,具身智能赛道在过去两三年间仍吸引了巨额资本注入,并展现出与AI技术同步演进的强劲势头。

本期《硅谷101》,特约研究员刘一鸣邀请了两位深耕中美市场的资深投资人——华映资本海外合伙人Jonathan邱谆,Shanda Group合伙人/投资副总裁Christine Qing,透过资本的迷雾,审视具身智能赛道的真实格局。当下的繁荣究竟是泡沫的预演,还是技术爆发的前夜?中美企业在战略布局与核心优势上呈现何种差异?在商业化落地的竞赛中,哪些场景有望率先突围?

以下是这次对话内容的精选:

01

当下的机器人赛道

处于泡沫破裂前夕吗?

一鸣:我们先来构建一个全景图。最近 1X 发布的视频引发了很大争议,被称为 “ 人工 ” 智能,同时高盛的报告也指出产能与订单的巨大落差。从投资视角来看, 2025 年的人形机器人赛道,究竟是处于一个类似 “ChatGPT” 爆发的前夜,还是已经明显过热,甚至是泡沫破裂的前夕?

邱谆:我们内部一直也在非常激烈地讨论这个话题。一个核心观点是:一定会有一定的过热,但是我们觉得任何一个大的技术爆发的前夜都会过热。所以作为投资人,我们其实还是希望能够在这个过热当中,找到比较清晰的一些机会,而不是因为过热就完全否定它。

如果你问我现在的具体定位,我是把目前定义成“BERT时期”。

大家可能记得,Transformer架构是2017年刚出来的,然后2018年的时候Google推出了BERT模型。BERT时期的意义在于,我们已经有了一个比较清晰的技术路线了,大致知道是往这个方向走。映射到今天的机器人领域,我们看到了包括VLA(Vision-Language-Action)、RT-2、Pi0等模型,其实都有一个看上去很清晰的技术路线。

我们要区分两个概念,其实所谓的“GPT时刻”有两个阶段。

第一个阶段是GPT-3时刻,发生在2020年。它的标志就是出现了一次“涌现”。简单来说,就是之前积累的大量的互联网数据现在终于能够用上了,被训练进模型里了。其实在BERT时代,大家如果还能记得的话,那时候我们看一堆BERT的项目,它的意义是定义了预训练(Pre-train)这个技术路线——GPT中的“P”(Pre-train)其实从BERT时候就已经定义了。但是因为它不是生成式的,所以很多数据是训练不进去的。

直到GPT-3在2020年出现,才把所有的数据一下训练出来,搞出了一个175B参数量的超级大模型。我觉得这个(数据涌现)是我们现在对机器人领域很期望的一个标志。

我一直的观点就是:所有东西都是训练数据驱动的。今天虽然有这么多种收集训练数据的方法——遥操、动捕、仿真等等——但事实上,行业内还没有训练出来一个真正的、从参数到性能都能够有一定规模的模型。

第二个阶段才是ChatGPT时刻。其实刚涌现的时候(GPT-3),大家并没有真正能大规模用起来,实话说,因为它的回答很多时候其实还是不那么准确的。直到ChatGPT出来,做了RLHF(人类反馈强化学习)等后训练调优之后,大家发现一下子这个效果立刻就很亮眼了,真的能用了。

所以回到机器人,我们还在等第一个时刻,即GPT-3时刻。我们很期待有一个涌现的出现。如果运气好的话,参考当年从2018年到2020年也就两年的时间,可能我们离这个时刻已经很近了。

Neo演示广告片 图片来源:1X

Christine:我非常同意Jonathan的观点,这肯定是分两个阶段爆发的。

我们在第一个阶段的确是做了一些深入到技术节点的思考。如果说第一阶段在技术上有了GPT时刻,它的标志是什么?我觉得可能是这个时候的具身智能机器人,已经拥有了长期动作链的泛化能力。

这就意味着,机器人可以直接通过语言和视觉接收到人类的直接指令,然后将它分解为一系列复杂的动作去完成它。

举个例子,比如说我现在说:“你去厨房拿个杯子,倒水,然后放回桌子上。”这里面的整个能力其实是涉及到从L0、L1甚至有一些L3的能力在里面。这已经不是一个简单的脚本指令操作了,它是一个端到端的泛化。当这个能力出现的时候,我们就可以说非常接近、甚至是达到了GPT爆发的第一步。

第二步,我觉得是一个类似ChatBot甚至iPhone的时刻。它最实质性的标志是:在C端的使用量有了一个在产品上面的规模性爆发。

在机器人上会不会复制软件这种爆发规模?我觉得是有难度的,因为它毕竟是一个软件和一个软硬一体的东西,甚至要落到一个具体的使用场景里面去落地。但是我觉得另外一个可能我们可以去类比的模型是苹果手机。它一开始是慢的,但是一旦开始有了数据,甚至是使用场景建立起来了,它就会变得非常的快,然后它这个市场是非常的稳定且庞大的。

至于“过热”这个问题,我是从两个维度来看的。从产品或者Demo的实际能力(比如1X的视频)以及技术成熟度来讲,的确是不能和今天的估值做匹配的,现在的估值确实有些高。但是,如果我们是向前看,看这个未来的市场规模,那我们现在仅仅是开始了接近“物理AI”的可能性,这个市场的潜力是巨大的。对于风险投资来讲,这种估值绝对是一个可消化的,也是一个必须提前占位的布局。

02

中美机器人故事:

硅谷的“大脑”与深圳的“身体”

一鸣:两位都是经常在中美两边跑,看过很多创业公司和上市公司。大家都在谈中美对比,无论在AI还是在机器人领域。在您看来,美国以特斯拉Optimus、Figure、Pi为代表的公司,跟中国像宇树、智元、优必选这些公司,它们在战略打法或者说一些核心优势上,有哪些异同?谁更领先?

邱谆:我们确实今年投国内的具身项目投得比较多,从二月份开始已经投了八九家了。因为我自己一直在硅谷,跟这边大部分的具身公司也都有交流。

严格来讲,我觉得两边在很多方面还是比较接近的。

不论中美,确实都有不少公司是偏融资属性、营销属性的打法。其实很多视频也是会有很多CGI或者加速在里面,或者用比较糙的办法,拍很多次通过一次这样,这是一类。当然也有潜心不停地发论文、很学院派的,可能很多时候是以论文取胜,会不断地有新的架构、模型能够跑出来。

中美的不同点,可能更多是在技术栈上面的切分。

美国肯定相对还是偏“软”一些,尤其是在大模型这一块。从基座模型(Foundation Model)去驱动具身模型的进步这一块,美国还是会领先的。不管是Pi也好、Skild AI也好,包括李飞飞的公司,都带有很强的学院派色彩,强调从底层模型突破。

而从硬件的迭代上来说,中国是有巨大优势的。但我的观点是,最后肯定是要融合,两边还是要融合的。很多机器人通用基础模型的进步一定也会推动整个技术栈,包括硬件的进步。所以两边的交流我看还是很多的,国内会非常关注美国这边最新的模型进展,美国事实上在很多时候也是需要依赖国内供应链的更加成熟。

Christine:我完全同意Jonathan的看法。美国它肯定是先得要走通用的基础模型,在他们的认知里,硬件这个东西本身只是一个动作的物理载体。

但是在中国,因为今年我在中国完全是一个学习心态,我更多的是回中国去学习,看这个“硬科技”都已经发展到一个什么样的水平了。

这周我刚刚从深圳回来,走访了很多上下游企业,包括做硬件的、软件的、到做整机的。我听到最多的一句话,我觉得很有意思,就是说:产品在深圳这个地方,机器人硬件产品甚至可以一天迭代三次。

我觉得这个速度是在硅谷想都不敢想的一件事情。硅谷既没有胆量去做这件事情,也没有能力去做这件事情。

所以我觉得他们是各有所长。但是这个“长”最后怎么变成一个综合能力,也是我们一直在持续思考的一件事情。具身智能,既有“身体”又有“智能”,最终它落到场景的时候,应该怎么去融合?

在这件事情上,我觉得学得最好的其实还是特斯拉。毕竟埃隆·马斯克在上海超级工厂学习中国生产、学习了那么多年,他肯定是有所得的。他知道如何将极致的制造效率与顶尖的软件能力结合,所以特斯拉的确是目前为止做得最好的。

Optimus机器人 图片来源:Tesla / X

一鸣:其实现阶段因为软件的很多泛化性还没有得到更广泛的运用,可能硬件上的一些创新在这个时间点是能更出一些现成的结果的。在商业化应用上,你觉得是硬件公司会走得更往前一点,还是说两方面都得等互相的进展才行?

邱谆:最后一定是垂直整合(Vertical Integration)。

当然商业化也分几种。第一种是短期的商业化,你手上有啥硬件,你就试图去卖,找短期的客户,这当然也算是商业化。但我们作为风险投资,看的是Long Capital,是一个跨周期的、最后能够实现具身智能爆发性技术突破的商业化。

从这个角度讲,两边肯定还是要一起的。

美国它确实是需要供应链的推动。其实这个已经很多年了,美国从最近才开始说我要供应链回流,自己要有国产替代的供应链。但大概至少在十几二十年时间之内,其实还是严重依赖的。

其实十几年前,美国当时做智能硬件最有名的一个孵化器叫Highway1,还有一个叫PCH。他们每年或者每半年有一个批次,所有的十几二十个初创公司都得拉到中国去。当时其实华人创业者还不是很多,大部分是白人或者本地创业者,都被拉到华强北的一栋楼里面,必须在那边待上三个月。

为什么?因为他所有硬件的迭代都要求:我必须得能够下到楼下,能够买一个他要的零件,去调他新的硬件的架构,去买一个新的电阻、电容。要在美国,你就很难做到这一点。实际上直到今天,很多人还是在淘宝上下单,然后等着转一大圈物流配送到美国。确实,硬件迭代这个事情在美国是挺难的,这个确实会阻碍到它的商业化。

而在国内,虽然硬件供应链很强,但是我一直的一个观点叫“软件定义、软件驱动”——如果你没有基座模型,没有VLA这种大模型的支持,你只靠供应链的进步也是无法实现充分的商业化的。

所以最后两边很可能还是一个互通、并驾齐驱,互相借鉴、互相融合。

图片来源:智元机器人

Christine:中国现在在进入一个商业化的初期,但是结论其实是一样的。谁会进入规模化的商业化?现在很难讲。

中国的供应链、成本、场景、数据这个优势,我觉得最大的一个优势其实是场景和数据的开放性。

我举一个例子,有一家机器人公司在奔驰的产线上面做试点。他们的Demo是怎么做的?因为国外的产线数据非常敏感,所以它是在那个产线上做了一个小的黑屋,就像一个帐篷一样,就让这个机器人在这个小黑屋里面做一个复制性的动作。这就是美国的生产线或者生产场景,它对它的数据、对它执行的任务本身就是这么的敏感。

但是在中国没有这个问题。如果你有能力可以部署一万台这个机器人到我的产线上来干活,那我这个数据是可以开放给你用的,或者这是一个互帮互助的过程。所以那就说明了我们一直在说的数据、数据、数据,那它的数据飞轮是不是就会先于美国第一步开始?

因为我们也知道OpenAI最开始是想要做机器人的基模的,为什么做不下去?因为他拿不到数据,这是一个非常大的问题。

在美国的数据保护,其实对机器人具身数据的使用、收集都是非常的挫败。但是美国的能力确实是在于他们的软件、大模型能力这块。那就注定了他们从开始做这件事情的时候,他们就是以底层能力去定义机器人,就是用软件、用大模型能力去定义机器人,而不是说我要一步一步地商业化去挣钱,把它作为一个里程碑。

另外,说到商业化,我们要看市场在哪里。美国市场的ROI(投资回报率)的确对于机器人来讲是最高的。一旦它替代人了以后,它的市场价值以及它可以去商业化的场景,在物流,如果是To C端的话肯定就是养老的这些场景,它都是有大量的需求,并且付费力是非常强的。

03

投资逻辑大辩论:泛化能力是分水岭

一鸣:现在市场上有一类公司,可能它没有到泛化性的那种智能,它可能用一些原来的那种工业机器人,再结合一些智能化做了一些改进,也许在产线也能用,但这些公司也许它有现金流,也许它能在未来融到更多钱。另一类是讲究全栈、讲究泛化的具身智能。这两派,你觉得哪一派可能更现实一点,或者说更有可能能成功?

邱谆:我不觉得这是两派,这是两个完全不同的投资逻辑。

第一类,我们称之为“先进制造”或者“智能硬件”。比如扫地机器人、协作机械臂、AGV。它们是专用设备,解决特定问题。你可以给它加芯片、跑控制算法去智能化,但它不需要训练那么大个模型,去搜集海量的人类数据。

第二类才是真正的“具身智能”(Embodied AI)。具身其实应该是有一个比较清晰的定义的:具身一定是数据驱动的,而且具身大概率是人形的。

很多人可能不理解为什么要做人形,其实都是因为数据驱动。因为我们最后发现,不管你用什么样的数据,只要你到一定的数据量,大概率都是跟人相关的。不管你是用大量的互联网视频,还是遥操、动捕、示教,其实你会发现画面里都是个人在操作。

如果你只是一个机械臂,那你就不是具身了。

最后区分两者的一个很简单的方法就是:我看他要不要数据?

如果我是一个机械臂,我可以装摄像头,但我不需要那么多人类的数据去训练我这么大个模型,那我就是第一类。

第一类“先进制造”的结果其实还是个专用设备。在很多专用的场合,包括AGV、协作机器人,它们解决的是专用问题。这类公司非常多,上市公司里就有,它们可以产生巨大的投资回报,但是它们的投资策略、逻辑和对团队的评估,和第二类是完全不一样的。

第二类具身智能,是最近这一两年,尤其GPT出来之后才有的。马斯克为什么能做Optimus?也是因为他有大模型,他有Grok、有xAI,所以他才敢做这个事情。

做具身的人,一定不会做“三个手臂”的机器人。理论上讲,三个手臂肯定比两个手臂效率高,但为什么不做?唯一的原因就是:我无法去收集三个手臂的数据。我要遥操,我也找不到一个人能够同时控制三个手臂;我所有的视频训练数据里,都找不到三个手臂的人类。这是个很重要的点。

所以,这是两个不同的赛道。先进制造也能成功,但它不具备具身智能那种通过海量数据训练出的泛化能力。

04

先投“上半身”(大脑/灵巧手)

还是“下半身”(运动控制)

一鸣:这其实也带来了一个很有趣的投资思路上的分阶段。我记得去年行业里还有些讨论,说我们应该是先投“上半身”(包括灵巧手、视觉,解决灵巧性问题),还是投资“下半身”(运动控制,也就是投腿和底盘)?您觉得在不同的年份,可能在今年也许更关注哪一个方向?

邱谆:我刚才提到一个词叫“垂直整合”(Vertical Integration),通俗点说就是全身。

我其实不觉得具身是一个能分成上半身、下半身或者是个腰、腿的。我觉得最后其实都是全身。当然可能最后是个大脑驱动的事,小脑这些都是为大脑服务的。或者我们说技术一点,其实还是一个软件定义、软件驱动的概念,最后还是所有的这些算法和数据决定了这个事情能不能做出来。

具身这个事情是能做出来还是不能做出来,关键在于所谓“大脑”,就是基座模型的研发。所以理论上来讲,最有价值的应该还是集中在这一块。

当然不同的人可能有不同的切入点。比如有的团队偏控制算法(小脑),但他现在也得找人训练VLA,把视觉语言融进来,做成端到端。

如果你只做下半身,那大概率你会变成一个硬件的供应链。这也没有问题,但如果上层的软件定义的逻辑变了——因为它定义你嘛——如果它定义你最后把你定义出去了,那你可能就出局了。就是说你的这个腿到底是怎么做的?其实你要很紧密地跟随着技术栈的上层,最后还是做大脑这一层去。

图片来源:宇树

一鸣:从商业价值上,像宇树在2023年之前,其实它的估值一直是上不去的,可能只有智元的一半都不到。但智元因为它是讲了一个更全栈、更偏软件更强的故事,所以它整体估值一下子涨得很猛。

邱谆:没错。商业价值而言,宇树是不小的。但宇树的一个风险就是说,一旦技术栈发生变化了——当然它好在现在都是科研——但如果下游客户都商业化之后,发现原来的方案不行,它还能不能继续出货量产?这个还没有被完全证实。

就是有可能最后技术路线大家都用你做科研,最后科研完了之后发现其实应该用另外一种方案。所以我认为,大而全也未必是正确的,还是要找一个很清晰的切入点,比如你有一个很强的VLA算法,或者端到端的解决方案。

Christine:我们是做早期投资,所以对于早期我们现在来讲的话,我一定是关注大脑,甚至运动算法都只是为大脑而做辅助的。这个事情是非常非常明确的。如果分成上半身、下半身,我们一定是上半身。

我最近关注的公司基本上一个是大脑、端到端的算法,然后数据的获取。大家都在找一个切入口。但是我觉得大脑从它的基模感知到规划,其实感知到规划已经是机器人的L2定义了,都没太有人真正地做好这件事。Optimus秀了一个Demo,但其他的我觉得还没有真正做好。

另外一个就是它的手,手的灵巧性。我们现在也在关注手它现版的上下游的成熟度,因为指头也是大脑在控制,所以这块操控也是一个从软件到硬件的一整个能力,我们也是在关注的。

05

没有触觉数据

机器人学不会灵巧性?

一鸣:机器人先驱Rodney Brooks最近有一篇论文,观点很犀利。他觉得现阶段的机器人是很难真正学会灵巧性和泛化性的。他的核心论点在于:我们现在都在靠视觉数据来做,但其实人体触觉数据非常重要,而触觉数据现在几乎是零。所以他也觉得这一波的所谓的泛化性是很难在短期内实现的。您怎么看这个风险?

图片来源:1X

邱谆:这个可能是泡沫风险的一部分。但对于早期投资来说,我们就是冒险,其实有风险的地方就有冒险。

我其实非常同意他那篇论文里面说的所有的观点,但这恰恰就是冒险,就是现在想解决的这些问题。

事实上我们不仅是触觉,所有这些力反馈、变形、人类具有的这些传感器的信息,其实都是缺乏的。但是,现实上最后能够实现的这个方案,不会是完全仿生的一种方案,它一定会走一些捷径。就像当年做飞机的时候,人们发现不是把鸟的翅膀的所有的动作全都能够模仿了之后才能飞,那不然当时可能会说飞机永远是造不出来的。但事实上你最后会发现你能走一些捷径。

就比如说现在VLA的一个核心点就是:我最后输出的还是Token,我还是做下一个Token预测。虽然它跟人是很不一样的,但核心点就是说你要怎么样去搜到大量的数据。

我觉得触觉是一个挺难的点,因为历史上也没有这些数据。VLA的好处是视觉(V)和语言(L)都是有的,互联网上有大量数据。如果数据要从0开始,这确实比较难。

但我还是觉得,现在的具身,最后就是把你已经有的这些数据能够灌到一个模型里面。为什么我们在等GPT-3时刻?只要有了这一堆数据,能够训练出来一个规模至少是不错的一个模型出来,这个时刻到了就行了,不用太纠结一定要有触觉数据。如果纠结这个事情上,我觉得GPT可能当年就出不来了。

Christine:我看下来觉得Brooks其实讲了三个比较重要的问题:第一是数据的成本太高;第二是数据的结构太稀缺(尤其是触觉);第三是模型的形态还不到。

但是说机器人还是最终学不会吗?我觉得不是这样子的。这只能说是今天的实际困境,但他不能预测未来一定会卡在这里。

06

数据冷启动的困局

远程操控是“造假”还是“特洛伊木马”?

一鸣:这就回到了我们开头的1X Neo机器人。它进入家庭却依赖远程操控,被质疑是“假智能”。但这是否也是一种数据收集的策略?通过这种手段先进入家庭,收集数据,然后再迭代?

邱谆:这就是最经典的“数据冷启动”问题(Data Bootstrapping)。你没有数据,所以你的效果不好;效果不好就没有人用;没人用你就更没数据。这是一个死循环。

1X想从这突破,其实大方向我是认可的。这就像自动驾驶早期的影子模式。

但事实上,很多自动驾驶公司到今天也没有真正突破。唯独有一家多少算是突破了,就是特斯拉。但是,特斯拉是卖车的。首先很多人买它的车不是说我就为了用你FSD,我就是买一辆很牛的电车。所以你先得有一个“特洛伊木马”,你总得先有一个东西能进到他家里去。

我觉得对1X,它难的点就是说它现在还没有一个“车”这么一个东西。它一上来就跳到了FSD了相当于。特斯拉是经过了至少两个阶段,第一阶段我先卖车,第二阶段再升级FSD。如果你能做到这一点,我觉得是有可能的。

但是,如果第一天就买一个说会自动驾驶的汽车,但这车本身没什么用,而且还需要家里有个摄像头实时被人盯着——这在C端太难以想象了。

Neo演示广告片 图片来源:1X

Christine:其实我对1X这次出这个Neo机器人也是持有一定的保留意见的。我的一个最核心的问题就是说:你有没有足够的数据去支撑它是可以和人共处的?

参考自动驾驶的逻辑,安全是一个渐进的状态。你要证明你的驾驶记录到底有多少人工接管,中间至少花了三四年的时间去监督这个车。有了足够的数据累积了以后,才会跟监管说我可以做无人驾驶了。

那么最后机器人和人的互动,怎么样才能够界定这个安全的边界?如果1X直接推向C端家庭,这是一定要去做的一件事情。现在落地肯定会先落到B端,在一个更结构化的环境里面,风险性更可控,建立安全记录。

一鸣:所以1X那个Neo实际销量怎么样?

邱谆:我没有数据,但我很怀疑,非常怀疑。至少C端我觉得太难以想象了。这不仅仅是隐私问题,它是实时就得有个人在后面盯着你,这已经把隐私推到另外一个层面了。

07

真实的商业化落地:谁在买单?

一鸣:Christine,你最近去深圳调研,像智元跟比亚迪也有合作。你觉得具体的无论小B还是大B,或者工厂这种场景,你有看到什么好的实际落地的应用?之前很多演示都有“拧螺丝”这个环节,这有意义吗?

Christine:拧螺丝我认为可以通过自动化专用设备来完成,不一定非要具身智能。

但是,目前确实有一些场景在尝试。我觉得工业场景肯定是非常有意义的,然后零售场景也是很有意义的。因为在美国和日本,零售场景对于上货、下货以及点货、理货,是有真实需求的。

现在的状态是,大家都在尝试,但能力还没有到。现在全部都是演示阶段,且是一个不稳定的演示,故障率很高。

我在亚马逊那里看到一个场景:翻箱子。这个动作目前应该是亚马逊在物流上用人形机器人在做。

一鸣:翻箱子是为了什么?

Christine:为了贴标签和扫描条形码。它需要必须某一面是朝上的,但箱子进来时不一定完全是那样的,所以就让机器人来翻箱子,依靠视觉判断条形码位置。

一鸣:这听起来跟具身好像也没什么关联,更像个专用设备?

邱谆:拧螺丝我可以补充一下。很多工厂里的拧螺丝,如果位置固定,用专用设备确实可以做。但是很多车厂的拧螺丝其实是需要很强的泛化能力的。因为它那个螺丝的位置、松紧度其实是挺不确定的。

现在哪一家具身说已经把拧螺丝解决了?我感觉好像还没有。这个场景可能他们还是得做。但是这个场景怎么选?现在就是冷启动的问题,你没有拧螺丝的数据。现在很多公司让工人戴着动捕设备、或者用遥操去收集数据。大家确实比较看好这个场景,比亚迪这些车厂也有需求,但目前还在收数据和训练的过程中。

我觉得像Figure这种也不一定真正的能够实现。

Optimus机器人 图片来源:Tesla / X

一鸣:物流场景需要泛化能力的机器人吗?

邱谆:事实上,工业场景和仓储物流的自动化已经做得挺充分了。传送带、AGV都很成熟。但是你会发现中间还是需要人。

这个点就是具身想做的事情。自动化已经做了很多,但直到今天,在很多的环节里面还是需要一个人在那个地方做。新的需求就是希望能代替这个人,这就对泛化能力要求很高了。

Christine:对,这个倒让我想起来了一个案子。我也是在富士康的工厂里面看到的,在他们的物流中心,其实他的内仓库是100%自动化的,但是他外仓库的话永远会占两到三个人。他们要负责抽箱、检查、盖箱、封箱。其实他们是非常希望用具身智能来解决这个问题的,这就是非结构化场景的机会。

08

硬件的未来:

机器人产业链会像手机一样“模块化”吗?

一鸣:我们看到现在机器人有很多核心零部件,比如减速器、灵巧手。目前这个供应链的成熟度如何?未来硬件有没有可能像智能手机产业链那样,大家买个胳膊、买个腿,就能很容易攒出一台机器人?

邱谆:先说一下我的观点:虽然我们在看硬件,其实还是软件定义的这个概念。

硬件一定会进步,但硬件的进步往往是线性的,你很难一下指望它有一个指数性的大的爆发。其实我们今天看减速器或者电机,跟多少年前并没有极其巨大的实质性突破。

最后大部分时候是出现一个什么情况呢?软件会说:无论什么硬件,只要有的,我的算法刚好就能用上。

软件定义的一个核心点就是说:我的突破是尽量去靠软件实现的,我甚至可以把硬件做得很down(低配),甚至有个词叫“现货供应”(COTS),我就买这种最一般的硬件,我也能把这个事情搭出来。

实话说,我们今天看的激光雷达,跟最早那个Velodyne相比,其实原理没变。但为什么当年不行?就是因为现在的软件算法突然能把你的传感器数据用上了,能够进到训练流程里了,这下把你推起来了。

所以,不要太指望硬件本身有巨大的迭代。今天的大模型基本上是在现有的“乐高积木”上去搭。你要突然发明一个新的硬件,它要经过整个量产的周期,其实这个时间成本也是比较长的。

图片来源:UBTECH(优必选)

Christine:我大概是分三步来看这件事情的:

第一个是供应链。我同意Jonathan的点,其实它是已经存在的一个行业,只是我们在做一个重新整合。

第二个点其实就来到了整合,和机器人公司对硬件的设计定义。我觉得现在这个设计其实还没有完全迭代成为我们最终看到的版本。包括其实我今年上半年听说Optimus在硬件设计上的确是有一些短板的,所以它年中推翻了,现在重新设计。所以硬件的设计和定义可能还会进行很快速度的演变。

第三步,最重要的智力(大脑)其实跟本体也是相关的。这是一个互相依靠的关系。做出来的大脑,你要有一个非常可靠的硬件才可以。现在的返修率还很高,下一步其实就是怎么把一个人形机器人做到够坚固、够有鲁棒性。我觉得明年可能会有更好的一个硬件迭代。

一鸣:如果软件统治一切,那投资逻辑是不是应该满仓特斯拉?

Christine:我觉得它有两个绝对的壁垒:第一个软件它是绝对的壁垒,第二个壁垒我认为其实是整合能力。软硬整合、技术到产品落地整合、应用场景整合。这也是为什么特斯拉目前看来最强,因为它是Vertical Integrated(垂直整合)。

邱谆:确实。不过如果我们非常看重软件,其实Google在这方面倒不一定比不过特斯拉。因为对具身来说,更重要的还是基模这一块。Google从DeepMind到Gemini的积累是非常深厚的。如果真的是软件能够决定一切的话,Google可能会有优势;但是如果最后还是靠垂直整合的话,那特斯拉是有优势。这有两面性。

09

大胆预测

未来5年的机器人世界

一鸣:最后我们做一个大胆的预测。我们离机器人真正进家庭、帮人类干活,还有多远?

邱谆:预测越远越不准。如果看5年:

现在我们处于“BERT时刻”。大概2-3年后,我们应该会看到机器人的“GPT-3时刻”。也就是说,我们能看到今天的这么多的具身数据,能够出现一个涌现的状态,能够训练出来一个收敛的模型了。

然后再过个2-3年(即5年后),可能会迎来机器人的“ChatGPT时刻”。

但这不代表机器人满街跑。因为大家看一下今天的ChatGPT,直到今天它也并不是说应用满大街爆发的,实话说真正的一个杀手级应用可能还是ChatGPT自己。

很有可能五年以后,我们看到第一个实际的、泛化的应用场景出现,机器人让大家能够接受它了,它的执行准确率和安全性让你开始用了。我觉得可能五年后能到这一点。

就真的你要等到它能够比较安全、便宜、进到你家里头,那可能真的还要再过蛮久的时间。

图片来源:Figure

Christine:我同意。采用曲线一定是:第一个肯定是到ToB的生产场景里面,非常结构化的环境。

第二个我觉得它应该是到餐厅里面去,可以做一些细碎的工作,但还是在B端,在人控制的半结构化场景。

最后人们开始跟它接触了以后才会对它产生信任感,然后才会说到C端家庭。

我最近可能在往机器人方向看得多一点的是“世界模型”这个方向。通过游戏或模拟环境,让用户互动来标注数据,这可能是解决数据稀缺的一个新颖路径。我觉得明年世界模型会有一个比较明确的收敛方向。

简体中文 English