复盘特斯拉FSD进化史:把端到端推向无人驾驶终局
来源:36kr 3 小时前

编者按: 

智能驾驶的发展,并不是一条线性上升的技术曲线,而是一系列技术范式、工程约束与现实场景不断博弈的结果。无图、端到端、世界模型、VLA……每一种路径,都被寄予厚望,也都在落地过程中逐渐暴露出边界。 

随着行业逐渐走出概念验证阶段,单一技术名词已无法解释真实能力差异。算力规模、数据质量、系统架构、工程稳定性,正在共同决定智能驾驶的上限与下限。 

站在工程与产品的交汇点,汽车之心特此策划出“智驾进化论”系列文章,理解不同技术选择背后的现实条件,以期看清技术热词背后的真实进展,理解这场长期竞赛中的关键变量。 

特斯拉 FSD 又在全球秀了波硬核操作。 

一辆搭载 FSD V14 的 Model 3,从美国西海岸的洛杉矶出发,驶向了 2732 英里( 约 4400 公里 )外的南卡罗莱纳州。这是一段横穿美国大陆的行程,穿越 24 个州,跨越沙漠、平原、山地和数不清的高速出入口,并覆盖多种不可预见的天气情况。 

整段行程耗时 2 天 20 小时,全程 0 接管。 

并线、超车、博弈、进出高速、沿途充电,所有驾驶任务,全部由 FSDV14 完成。 

上一次完成类似横跨美国大陆测试的,还要追溯到 2015 年的德尔福。当时,德尔福使用的是一辆深度改装的奥迪 Q5,车身布置超过 20 颗传感器,在极端环境下仍需要人工干预,整段行程耗时了 9 天。 

对比之下,这次特斯拉完成挑战的工具,是一辆只配置 8 个摄像头的量产车 Model 3。 

显然,在 FSDV14 版本上,特斯拉又一次印证其自动驾驶技术的领先性。 

英伟达机器人业务负责人 Jim Fan 提出了一个耐人寻味的判断:FSD V14 可能已经通过了「物理图灵测试」。

也就是说,在真实道路环境中,已经很难分辨这是机器驾驶,还是人类驾驶。 

回顾自动驾驶的发展历程,每一次关键转向离不开 FSD 的「灯塔」效应。 

从 BEV + Transformer 推动「无图化」,到 FSD V12 掀起端到端浪潮。自动驾驶圈里都开始自我调侃:遇事不决,就看特斯拉。 

这两年,国内智驾公司沿着「端到端」这条路径狂奔,也分化出了段式端到端、VLA、世界模型等多条技术支路。 

但追上特斯拉了吗? 

客观点说,还有差距,但差距在缩小。 

卓驭 CEO 沈劭劼在最新一次采访中表态,现在与特斯拉的距离,已经 从最早的三年缩短到一年时间。

具体而言,是与特斯拉 V14 的距离。 

现在,特斯拉 FSD V14 的任务不仅是 L2,还有已经在路上跑的 L4,大量特斯拉 Robotaxi 证明, 它已经将 L2 通往 L4 的进阶路径打通。

特斯拉 FSD,可能是最接近自动驾驶的正确答案。 

当然,特指 FSD 北美满血版。 

所以,站在这个时间点,有必要思考一个课题,特斯拉的自动驾驶,是如何一步步「开悟」的? 

01特斯拉 FSD 三代进化:一场关智能涌现的工程实验

如果把自动驾驶系统看作一颗大脑,那么 FSD 的三代演进,本质上完成了一次大脑进化:从模仿,到具备连续意识,再到思考与推理,FSD 的自动驾驶水平像升级打怪般,开启了智能涌现时刻。 

FSD V12:端到端基础版,让 AI 自己学会开车。

2024 年初,特斯拉推送 V12 版本,自动驾驶决策的主动权,第一次从工程师手中转移到神经网络。 

一个直观变化, 特斯拉约 30 万行自动驾驶相关代码,被压缩到约 3000 行。

过去十多年自动驾驶的主流路线,本质是工程拆解,感知、预测、规划、控制,各模块各司其职,按照规则代码保证秩序,但不可避免陷入极端场景无法穷尽、柔性意图难以解释的难题。 

直到端到端掀桌,让系统通过数据驱动形式学习人类驾驶行为,将各模块统一成整体,输入感知信息后,立刻输出方向盘和踏板动作。 

结果立竿见影。特斯拉智驾负责人 Ashok Elluswamy 曾在 X 上公开表示:几个月训练的 V12,已经全面超过了多年积累的 V11。 

高效的数据驱动方式,让系统在应对复杂交通状况时不再机械反应,而是像人类一样正确博弈。 

何小鹏在试完 V12 版本后直言,这与此前版本完全是两种能力,并称要向其学习。 

正是从 FSDV12 开始,几乎所有 L2 玩家都见识到了端到端的魅力,并相信一点,人类无法手把手教会 AI 怎么开车,但可以让 AI 自己学会开车,这将是通向自动驾驶终局的最优解。 

FSD V13:端到端完整版,让 AI 全程开得稳。

FSD V12 只是证明了端到端的可行性,但要让这套系统稳定、持续得跑起来,还需要解决一个核心问题: 

如何让 AI 真正像人一样,具备短期记忆与上下文理解能力。 

人类司机在复杂路况中,会记住旁车变道激进、前方 500 米有施工区域、左侧车道有大货车。这些信息构成了连续的驾驶意识。 

V13 的核心升级,就是让 FSD 具备了这种能力。 

特斯拉 AI 团队成员曾在 X 上这样介绍 FSD V13,「它看起来很像 Raptor V3,非常干净。」 

这是一个火箭引擎的类比,意思不是单纯强调「推力更大」,而是它终于具备了可规模化、可持续迭代的工程形态。 

最直观一点,FSDV13 在硬件架构上有了全面焕新,开启了 HW4 时代。从该版本开始,马斯克着重强调起 AI 计算能力,将芯片平台 HW4 命名方式改为 AI4。 

HW4 (AI4) 是面向 FSDV13 及后续版本打造的主力硬件平台。相较 HW3,其算力直接提升 5 倍,业内预估约 720TOPS。大算力、大内存、高功耗、高能效都在为 FSDV13 功能拓展提供充分空间。 

提升感知能力:36Hz 全分辨率视频输入,摄像头像素跃升至 500 万;

计算能力跃迁:5 倍训练计算扩展、3 倍模型尺寸缩放;

具备短期记忆能力:3 倍模型上下文长度扩展;

……

简单概括,FSDV13 在同一时间窗口内,能处理更多信息,调用更复杂的决策网络,把端到端从「即时反应系统」升级为「连续推理系统」,相当于一次认知宽带的高密度扩容。 

不容小觑的一点,FSDV13 开始增加「音频输入」,相当于在视觉之外,补全了听觉系统的感知范式,以此应对紧急车辆避让问题,也让端到端模型第一次通过声音这种先验信号,获得提前感知风险的能力。 

体验层面,FSD V13 带来的决定性意义在于:集成退车、倒车和停车功能, 端到端终于覆盖了「车位到车位」的全部驾驶场景。

重点是:无需提前建图,不需要记忆路线。 

FSD V13 能够在多层停车场识别箭头、寻找出口,像人一样「读懂环境」,相比国内玩家普遍提前学习的做法,无疑领先一截。 

FSD V14:端到端成熟版,让 AI 没人看着也能开好。

如果说 V13 版本的特斯拉可以在 L2+层面如鱼得水,但到了 L4 层面,无人驾驶的绝对安全性下,这显然还不够用。 

过去一年,特斯拉基于 Model Y 车型打造的 Robotaxi,从奥斯汀首发,8 月扩至旧金山湾区,累计测试里程超过了 200 万公里。 

而按照计划,特斯拉 Robotaxi 2026 年将覆盖纽约等 30+城市,无方向盘 / 踏板的 Cybercab 车型也将在今年 4 月得州超级工厂量产。 

但特斯拉 Robotaxi 的规模化、商业化蓝图,需要面对安全员下车、控制远程监督人车比、充电自动化、调度与故障响应等系列现实难题。 

这些任务,都交给了 FSD V14。 

没错,依靠 FSD,特斯拉正在打通从 L2 至 L4 层级的通路。 

依然是基于 HW4 (AI4)  平台,但模型再度扩容: 

参数总量提升了 4.5-10 倍;

视觉处理帧率提升至 48 Hz;

上下文窗口增加超过 3 倍

……

这相当于一个「反射型大脑」, 升级成一个「有前额叶的思考型大脑」 。AI 有了更深度的思考、推理、预测能力。 

驾驶层面,可以识别与避让紧急车辆,精准识别路障、轮胎、树枝、纸箱等零散障碍物,误入死胡同也可以自动倒车掉头等。 

这种类人自动驾驶能力,让 FSD V14 可以做到横穿美国东西海岸 0 接管,而更重要一点,是为无安全员 Robotaxi 运营奠定了坚实基础。 

除了驾驶能力本身的提升,FSD V14 真正拉开代际差距的地方,来自于 xAI (马斯克旗下 AI 企业) 的  Grok 大语言模型接入。

此前的 FSD 更像一个「会开车的系统」,不会清晰表达,现在引入 Grok 后,FSD 有了一个清晰的认知接口,带来两项本质升级: 

一是 出现意图理解能力 。将用户模糊指令转译为可执行的驾驶条件。例如「回家路上顺便买个麦当劳」,在系统内部会被拆解为路径规划、兴趣点搜索与时间约束等一系列结构化指令,再由 FSD V14 完成具体行驶。 

二是 建立决策可解释性 。借助 Grok,FSD 的驾驶决策可以被翻译成人类语言,包括为什么出现系统报错、突然减速等。 

这让原本封闭的模型黑箱,第一次对乘客、平台和监管变得可读。站在 Robotaxi 运营角度,Grok 的价值不在于「更会聊天」,而在于把 FSD V14 的黑箱决策,翻译成乘客、平台与监管都听得懂的语言,让自动驾驶第一次具备真正的运营可读性。 

由此,FSD 的三代演进,本质上都带着革命性任务,层层递进,并接连为后续版本更新埋下铺垫: 

V12 垒地基,回归到端到端正确轨道,证明数据驱动优于规则驱动;

V13 建高楼,搭建全场景端到端决策框架,夯实长尾场景泛化能力;

V14 精装修,解决体验稳定性和可靠性,为 Robotaxi 商业化铺平道路。

更值得注意的是,FSD 每一代都在为下一代埋伏笔:V13 版本增加音频输入模型,使得 V14 版本就具备了紧急车辆避让能力,以及 V14 版本也在为后续的 HW5 硬件预留接口等。 

回看 FSD 从 V12 到 V14 的三次迭代,变化不在于功能堆叠,而在于能力曲线的陡然抬升。特斯拉没有在技术路线上来回试错,而是持续沿着端到端这一主线推进,一次次把原本被认为「过于激进」的设想,变成了可落地的工程系统。 

自动驾驶还远没到终点,但至少现在,特斯拉依然是那个把路线图画对了的玩家。 

02兜住端到端的下限,特斯拉早有应对

尽管端到端引爆了自动驾驶的奇点时刻,但它不至于被过于神话。 

这一技术路径更像是一种方法论,某种程度上,特斯拉也是受到了大语言模型,尤其是 ChatGPT 训练范式的启发。 

早期端到端刚盛行时,几乎所有厂商都声称「已经上船」,一度引发了关于端到端真伪的讨论。 

随着热度逐渐回落,行业开始用更理性的视角重新审视这一技术路线: 如何在充分释放端到端优势的同时,解决其长期被诟病的「下限低」问题:

黑盒,可解释性差。为何突然急刹、不避让障碍物,没有明确工作日志解释。

数据噪声导致安全性威胁。学习到错误的驾驶行为产生违反交规、预判错误的低级错误。

国内厂商的主流做法相对一致:通过规则系统作为安全兜底,试图用传统工程方法守住安全下限;在可解释性问题上,要么采用「两段式端到端」作为过渡方案,要么引入大语言模型,通过 VLM、VLA 的方式让 AI 的「思考过程」显性化。 

而最近从 Ashok Elluswamy 发布的长文中,透露了特斯拉的应对招式: 

先解决模型如何理解世界, 让端到端系统始终运行在一个可还原、可验证的世界表征上。

第一步, 先把「黑箱」打开。

Ashok Elluswamy 提到了一项技术:生成式高斯泼溅。它能使系统在约 220 毫秒内,基于多摄像头视频流,重建连续、动态、可推演的三维环境。 

这意味着,工程师可以直接看到,模型当下认为道路结构、周围车辆、遮挡关系各自是什么状态。 

当系统出现异常行为时,不用再费心思盲猜系统为什么这么开,而是知道它当时是如何理解世界。 

此外,特斯拉 FSD 也内置了小型化语言推理模型,用于训练 AI 用自然语言来解释自身行为,据悉一个小型版本的推理模型已经在 FSD v14.x 版本中运行。这与 VLM、VLA 有异曲同工之意。 

第二步, 让模型学会后果,而不是单纯的动作。

FSD 打造了一个 「神经世界模拟器」 ,Ashok Elluswamy 强调:「它并非预测给定状态下的行动,而是根据当前状态和下一步行动来合成未来状态。」 

从演示视频看,它主要能完成两项任务: 

一是 验证新模型是否更好 。在同一段历史数据上,接入不同版本的 FSD,让它们在模拟世界中做出不同决策,并推演出多条物理上合理的未来轨迹,用结果来评估优劣; 

二是 合成低频极端场景 。通过调整计算资源,模型可以实时生成超过 6 分钟的完整驾驶过程,期间 8 个摄像头、每秒 24 帧的画面,全部由神经网络实时合成。 

这其实进一步改变了端到端的学习方式。 

传统仿真训练还是由工程师主导,出现的困难都是人工预想,然后教会系统,遇到某种情况人类通常如何操作。 

而神经世界模拟器,则是强调,不同决策,会把世界推向怎样的演化结果。 

通过生成模型,系统可以批量构造现实中极少遇到、但风险极高的场景,并在其中反复测试不同驾驶策略的后果。所以端到端系统不会只条件反射式模仿,而是形成对因果链条的理解,以此建立对自动驾驶安全性的深度理解。 

当模型既能清楚地「看到自己所处的世界」,又在训练中反复经历过「错误决策会导致什么结果」,系统的行为边界会自然收敛。 

这套机制 一方面减少了端到端在极端场景下的失控概率,兜住了安全下限;另一方面,也为更复杂的长时推理、策略稳定性打下了基础。

实际上,早在 2023 年 AShok Elluswamy 的 CVPR 演讲,这些技术就已经露出端倪。 

彼时他就强调,可以通过「生成式模型」来学习道路车道线、车道拓扑结构,以此适应复杂路况变化和不规则道路结构。 

同时,演讲中也花大篇幅介绍通用世界模型,即构建一个能够理解环境、预测未来、推理潜在变化的连续空间模型,并将其作为训练基础。 

换句话说,在端到端真正走向规模化之前,特斯拉就已经默认,端到端必须生长在一个可生成、可推演、可验证的世界之上。 

正因如此,FSD 的进化路径并不是「端到端不行就打规则补丁」,而是提前重构了系统理解世界的方式,生成式技术与世界模型成为端到端自动驾驶系统得以稳定生长、快速跃迁的基础设施。 

03FSD,国内玩家难以复制的特斯拉模式

一个颇为吊诡的现实是: 

今天无论是 L2 智驾公司、L4 Robotaxi 玩家,还是具身智能初创团队,这三条看似不同的赛道,如果取一个交集,答案几乎一定指向同一家企业——特斯拉。 

大家都在盯着特斯拉,拆解它的技术路径、复盘它的版本迭代,试图从中找到「可复制的方法论」。 

但问题在于,特斯拉并不是在单点突破某一条赛道,而是把自动驾驶、Robotaxi 与人形机器人,放在同一个长期工程语境里统一推进。 

Ashok Elluswamy 公开强调,FSD 的核心能力并不只服务于自动驾驶,其感知、世界建模与决策体系,理论上可以无缝迁移到擎天柱人形机器人上,即一套 AI 架构,覆盖多个物理智能载体。 

这也正符合马斯克一以贯之的长期设想。 

在《埃隆·马斯克传》中,自动驾驶 (FSD) 、Robotaxi 与人形机器人三个主题始终贯穿全文,用通用 AI 接管现实世界的物理任务。 

正因如此,特斯拉从一开始就在为 FSD 铺设一整座「冰山之下的基座」,而这恰恰是国内玩家最难抄走的部分。 

第一层基座: 压强级算力投入。

尽管砍掉了自研 Dojo 超算的规模化落地计划,但特斯拉并没有收缩 AI 投入,而是将重心彻底转向以 NVIDIA GPU 为核心的 Cortex 训练集群,用于 FSD 与人形机器人的大模型训练。 

目前已公开的信息显示: 

Cortex 初始部署约 5 万张 H100 GPU;

2025 年二季度新增 1.6 万张 H200 GPU;

H200 单卡性能约为 H100 的 4.2 倍;

按单张 H100 在 FP8 训练场景下达到数十 PFLOPS 等效算力估算,Cortex 集群整体训练能力已进入 数十至上百 EFLOPS 区间 。这背后,是持续多年的百亿美元级资本投入。 

值得注意的是,这并不包括此前 Dojo 项目已经消耗的数十亿美元沉没成本。 

对比国内玩家,即便是头部智驾公司,云端训练算力大多仍停留在 10 EFLOPS 量级。 

以业务形态最接近特斯拉的小鹏为例,其公开数据为:近 2 万张训练卡;年度 AI 训练投入约 50 亿元人民币;总算力突破 10 EFLOPS。 

显然,这并非「努力程度」的差异,而是资源禀赋的数量级差距。在 AI 时代,算力本质上是一个持续吞噬资本的无底洞,而特斯拉选择了用工业级现金流,长期压住这条曲线。 

第二层基座: 源源不断的高质量数据。

算力决定了模型能跑多快,数据决定了模型究竟能跑多远。 

特斯拉凭借其庞大的车队,拥有如尼亚加拉大瀑布般的海量数据。 

截至 2026 年 1 月 8 日,特斯拉 FSD(监督版)累计行驶里程已达 71.73 亿英里,其中城市复杂路况超过 25.9 亿英里。 

Ashok Elluswamy 也曾透露, 整个特斯拉车队每天产生的数据,相当于 500 年人类驾驶时长。

但真正拉开差距的,并不只是数据规模,而是数据的利用效率。 

特斯拉构建了一套高度复杂的数据引擎流水线,先自动挖掘最有价值的 corner case,再强化稀有、危险、长尾场景的采样权重,最后形成数据驱动闭环。 

更关键的是,随着 L4 线路的开启,Robotaxi 的真实运营数据正在成为全新的数据资产。 

以 FSD V14 为例,其训练中已经整合了奥斯汀 Robotaxi 测试积累的 1200 万小时真实路测数据,并通过仿真与生成式世界模型放大,覆盖了施工区域、临时封路等 80% 的非常规城市路况。 

第三层基座: 统一架构,而不是技术路线之争。

在这套算力与数据之上,特斯拉选择了一种极具工程野心的策略:让同一套世界模型、感知与推理架构,被反复复用、持续放大。 

这也是为什么在特斯拉的技术体系中,端到端、世界模型、生成式建模、强化学习,甚至 VLA 并非彼此排斥,而是可以被同时吸收进来,为自动驾驶服务。 

当国内玩家仍在争论 VLA or 世界模型更先进;是「语言即世界」,还是「空间即世界」是真理时。特斯拉的态度反而异常简单: 只要能提高 FSD 的智能驾驶能力,这些技术路径就没有意识形态冲突。

这种高度工程主义立场,决定了特斯拉不会被单一范式所束缚,也不会在路线选择上频繁摇摆。 

而把视角拉回国内企业,会发现一个并不轻松、但并非悲观的现实。 

特斯拉 FSD 的领先的核心原因,在于它在更早的时间节点,就启动了一套高投入、慢回报、极度吃耐心的长期工程。这套工程的前提条件:全球最大规模的车队、可持续的现金流、跨自动驾驶与机器人的统一战略,本身就难以复制。 

换句话说,国内企业 生在了一张更薄的资源底牌上。

这也是为什么过去两年,我们看到国内智驾公司在技术路径上呈现出高度分化:有人选择「两段式端到端」先稳住下限,有人引入 VLA、世界模型尝试抬高上限,也有人把重心放在中阶智驾质性比层面的极致打磨上。 

这些选择本质是现实条件下的理性博弈。 

但特斯拉的绝对领先,并不意味着国内企业没有机会。 

相反,随着端到端范式逐渐收敛、硬件平台趋于统一、数据闭环开始真正跑通,国内玩家与特斯拉的差距,正在 从「代际差距」转变为「工程效率差距」。

接下来的竞争焦点在于,谁能在有限资源下,把模型、数据与产品磨到足够扎实。 

国内企业真正需要回答的问题,不是如何抄特斯拉的作业,而是在无法复制全部前提的情况下,如何走出一条适合自身资源结构的最优路径。 

是合并资源抱团取暖,实现 1+1 大于 2,还是深度绑定主机厂,获得持续性量产角度保证,亦或者在无人物流、商用车细分场景打造第二增长曲线。 

选择没有标准答案,只关乎现实成本。 

毕竟,智驾开启「大逃杀」后,生存法则之一的确是紧跟特斯拉,但第一条永远是,先好好活下去。 

简体中文 English