蔚小理华VS地绝元魔,谁是端到端大模型执牛耳者
2024-12-13 / 阅读约10分钟
来源:36kr
智驾路上,主机厂和供应商激战正酣。

特斯拉提出的端到端理念又一次在自动驾驶领域引起轩然大波。目前,国内蔚小理华,地绝元魔等企业已经在端到端上激战数百回合。端到端也加速了行业的快速发展与出清。在行业端,余凯,曹旭东都认为凭借端到端技术,自动驾驶会在3-5年内迎来大爆发;在企业端,市场也在加速出清技术落后的企业,Momenta疯狂拿单,元戎启行获得巨额融资都说明了这一点。

此时,我们需要对端到端有一些清醒的认知:端到端到底到哪一步了?谁才是目前该技术的执牛耳者?

从目前企业公布的情况来看,我们可以梳理出一些基本信息:

1、主机厂在端到端落地上整体落后于供应商;

2、主机厂在技术先进性上也落后于供应商;

3、端到端之外,企业应该有自己的know-how。

端到端落地,供应商更快一步

这一波的新技术浪潮中,抛开特斯拉的引导作用不谈,国内供应商总体走在主机厂前面。

国内主机厂中,理想最早在公开场合提出端到端的概念,相较于主机厂在端到端上突然发现新大陆的惊讶,供应商们早已在端到端上暗流涌动。

2023年,地平线就作为第一作者提出了Unified Autonomous Driving(UniAD),首次为自动驾驶端到端通用网络架构的设想给出了具体范式,并拿下了CVPR 2023 最佳论文。

如果按照宣发口径来看,商汤绝影是国内第一个提端到端的智驾企业。2022 年底,商汤科技推出行业首个感知决策一体的自动驾驶通用模型 UniAD,2023 年,UniAD 获 CVPR 最佳论文奖。

目前整个行业在端到端上基本是3个思路:一种是非常传统的两端式端到端,感知一个模型,规控预测一个模型,这是目前大部分企业在采取的方案;另一种是三网合一的模型,感知,规控是两个模型,但彼此之间相互交叉,存在交集,再加一个安全兜底的网络,典型代表是小鹏,华为,官方将其称之为“三网合一”;第三种就是完全一段式,感知、规控、预测一个模型。官方的传播口径中,目前只有元戎启行和Momenta和商汤绝影采用了这种架构。

尽管车企一直在强调全栈自研的可控性,但面对巨大的生存危机感,供应商比主机厂展现出更强的内生力,这也反映在端到端的落地上。元戎启行其实在2023年中旬就通过端到端量产了城市领航高阶智驾,并且邀请企业去测试。2024年,元戎也通过激进的技术路线获得了长城汽车1亿美元战略投资。

曹旭东在接受媒体采访时也表示,Momenta在2023年4月就已经落地了两段式端到端,甚至再往前追溯,2019年就开始了规控端到端的研发,只不过当时并没有两段式端到端的概念,也就没有对外提及,今年切换到了一段式。技术上的持续进化让Momenta成为智驾供应商的接单狂魔,目前已经合作的车企包括上汽,广汽,比亚迪,丰田,日产,奔驰等多家国内外车企。

此外,包括地平线,商汤绝影,博世等供应商也都明确表示会在2025年量产一段式端到端无图NOA方案。其中,大部分会集中在明年上半年。

相较而言,主机厂在这方面比供应商要相对滞后。

小鹏选择在520当天推送了两段式端到端架构,算是抢了一个主机厂的首发宣传口径;10月,理想向所有用户推送了“端到端+VLM”双系统,按照7月份的发布会描述应该属于分段式端到端;华为也在今年下半年推送了分段式端到端ADS3.0版本。

最新消息显示,蔚来会在2025年4月份推送分段式端到端架构。《36氪汽车》报道,华为则是在今年7月调集了一票人马研发One Model大模型,并且会在明年推出基于一段式端到端的ADS 4.0智驾系统。

这里还有一个有意思的小插曲,尽管采取多个模型,但小鹏汽车坚持认为自己采用的是一段式端到端结构。小鹏汽车智驾负责人李力耘认为,虽然采用3张网络,但小鹏的系统属于One Model端到端,“这(小鹏的智驾系统)不是一个分段式的架构,因为三张网络是互相交叠、互相重合的,他们在网络原生层面有很多共享的部分,是一个既有侧重、可以分开预训练,又可以联合训练的网络。”

小鹏自动驾驶产品高级总监袁婷婷解释,“分段式是先完成 A,A 的箭头指向 B,B 的箭头指向 C。我们现在做的三网合一模型有三个圆,它们其实是耦合在一起的,既有重合的部分,又有分开的部分,并不是各自做一张网。因此它不是分段式的逻辑。”

但也有技术人员认为,将一个完整的模型拆开,加入rule-based,从逻辑上就应该属于分段式结构。

当然,车企代表中最具争议的还是特斯拉目前的技术状态。尽管一直到今天,特斯拉都没有公布过其技术细节,但是不少人从现有的信息找到了一些蛛丝马迹。特斯拉全球副总裁陶琳近日在微博透露,特斯拉目前的大模型已经实现了“光子进,决策出”的效果,考虑到分段式带来的信息损失,不少人推测特斯拉其实已经实现了一段式端到端大模型,而且大型参数量非常大。

端到端一段式两段式哪个更好

另一个引发争议的点是端到端两段式和一段式的优缺点,保守派和激进派各执一词。保守派认为,端到端具有不可解释性,存在上限高,下限也低的问题,必须采取一定的措施,比如加入大量的rule-based规则兜底。激进派认为,一段式端到端的结构更完整,信息损失更低。

端到端带来的影响巨大,很多车企被迫基于端到端调整组织架构。传统的规则算法到底还有没有生存空间,在长达一年的时间里,双方人员都在激烈“交火”。

李力耘认为,端到端中间的某些部分可能是不可解释的。小鹏通过 “三网合一” 的架构可以通过调试,看问题具体是出在哪个方面。

但技术激进派商汤绝影认为,两段式感知和决策两个模型之间的信息传递仍然会有过滤和丢失,“两段式”端到端方案降低了难度,同时也拉低了能力上限。

整个在处理端到端下限低的常规思路是通过rule-based给他兜底。但曹旭东认为,rule-based根本不能给端到端兜底,把规则比作小脑,端到端比作大脑,小脑很难给大脑兜底,兜不住。因为rule-based能够考虑到的场景有限,而corner case的场景无穷无尽。所以Momenta的解题思路是一个模型走到底,然后通过数据训练的方式去保证系统能力。

曹旭东介绍,Momenta虽然会有少量的规则算法,但并不是用来给端到端兜底。虽然目前或多或少都会有规则存在,但是在AI技术不断演进的趋势下,整个行业都在向着“去规则化”和一段式端到端的方向演进。

端到端之外,智驾公司还需要有更多know-how

端到端优势明显,但它并不是自动驾驶的终极答案,并不是说有了端到端就万事大吉,甚至从大部分企业的反馈来看,端到端可能只是前提条件。

元戎启行CEO周光介绍了其最新的自动驾驶VLA模型,一个将端到端和文本视觉语言模型合二为一的模型。周光表示,VLA才是目前最先进的自动驾驶架构。

有意思的是,这个说法得到了理想汽车的认可,虽然理想今年以来一直在大力鼓吹“端到端+VLM”,但他自己也承认,VLA架构确实更胜一筹,并且理想自己也在默默研发VLA架构。

Momenta独创了长短记忆的逻辑,按照曹旭东解释,短记忆可以理解成一个数据筛选器,海量的数据丢入里面,然后筛选出高质量,对系统有帮助的“黄金数据”输入长记忆,长记忆就像是存储器,把这些高质量数据存储起来,供系统随时调用。两种记忆组成循环神经网络,形成数据飞轮。这和理想的快慢思考完全是两种逻辑。

小鹏汽车则强调了大模型的优势,大概意思是在云端训练更大的模型,然后蒸馏到车端。小鹏认为只有大模型才能解决自动驾驶的长尾问题,但很多自动驾驶公司没有云端芯片和数据量资源,只能采用单个。

端到端能够很好地处理常规场景,但是搞不定复杂罕见的驾驶场景,还需要一个视觉语言多模态大模型(Large Vision-Language Models,LVLM),与端到端模型互为补充,充当驾驶决策的“大脑”。

注意,这里其实包含了2个模型,跟理想的“端到端+VLM”有点像。但地平线的思路是通过Senna系统把这两个模型连接起来,重点解决端到端模型鲁棒性差,泛化性弱问题。

Senna的优势主要有3点:

1、模型层层递进,大模型生成决策指令,并通过端到端模型生成具体的轨迹。并且针对环视和多图做了特殊优化,通过图像token压缩和环视prompt提高多模态大模型对驾驶场景的理解。

2、数据问答。大规模自动标注的面向规划的驾驶问答数据,包括场景描述、交通参与者行为预测、交通信号识别以及自车决策等。

3、三段式大模型训练策略。不仅提升了Senna在驾驶场景的表现,且有效保留了其常识知识而不至于出现模式坍塌的问题。

这就是地平线独创的“大模型高维驾驶决策-端到端低维轨迹规划”的新驾驶范式。这里我的理解应该是大模型负责复杂场景,端到端负责常规场景。

车企在形成基本共识的同时,新问题也在不断涌现:模型种类、大小、参数量,规则算法到底是否还有必要等等,需要时间给出答案。然而一个不争的事实是, 在新一轮的端到端竞赛中,车企总体上已经落后于供应商。