复盘特斯拉FSD进化史：把端到端推向无人驾驶终局

来源：36kr 2026-01-13

编者按：

智能驾驶的发展，并不是一条线性上升的技术曲线，而是一系列技术范式、工程约束与现实场景不断博弈的结果。无图、端到端、世界模型、VLA……每一种路径，都被寄予厚望，也都在落地过程中逐渐暴露出边界。

随着行业逐渐走出概念验证阶段，单一技术名词已无法解释真实能力差异。算力规模、数据质量、系统架构、工程稳定性，正在共同决定智能驾驶的上限与下限。

站在工程与产品的交汇点，汽车之心特此策划出“智驾进化论”系列文章，理解不同技术选择背后的现实条件，以期看清技术热词背后的真实进展，理解这场长期竞赛中的关键变量。

特斯拉 FSD 又在全球秀了波硬核操作。

一辆搭载 FSD V14 的 Model 3，从美国西海岸的洛杉矶出发，驶向了 2732 英里（约 4400 公里）外的南卡罗莱纳州。这是一段横穿美国大陆的行程，穿越 24 个州，跨越沙漠、平原、山地和数不清的高速出入口，并覆盖多种不可预见的天气情况。

整段行程耗时 2 天 20 小时，全程 0 接管。

并线、超车、博弈、进出高速、沿途充电，所有驾驶任务，全部由 FSDV14 完成。

上一次完成类似横跨美国大陆测试的，还要追溯到 2015 年的德尔福。当时，德尔福使用的是一辆深度改装的奥迪 Q5，车身布置超过 20 颗传感器，在极端环境下仍需要人工干预，整段行程耗时了 9 天。

对比之下，这次特斯拉完成挑战的工具，是一辆只配置 8 个摄像头的量产车 Model 3。

显然，在 FSDV14 版本上，特斯拉又一次印证其自动驾驶技术的领先性。

英伟达机器人业务负责人 Jim Fan 提出了一个耐人寻味的判断：FSD V14 可能已经通过了「物理图灵测试」。

也就是说，在真实道路环境中，已经很难分辨这是机器驾驶，还是人类驾驶。

回顾自动驾驶的发展历程，每一次关键转向离不开 FSD 的「灯塔」效应。

从 BEV + Transformer 推动「无图化」，到 FSD V12 掀起端到端浪潮。自动驾驶圈里都开始自我调侃：遇事不决，就看特斯拉。

这两年，国内智驾公司沿着「端到端」这条路径狂奔，也分化出了段式端到端、VLA、世界模型等多条技术支路。

但追上特斯拉了吗？

客观点说，还有差距，但差距在缩小。

卓驭 CEO 沈劭劼在最新一次采访中表态，现在与特斯拉的距离，已经 从最早的三年缩短到一年时间。

具体而言，是与特斯拉 V14 的距离。

现在，特斯拉 FSD V14 的任务不仅是 L2，还有已经在路上跑的 L4，大量特斯拉 Robotaxi 证明， 它已经将 L2 通往 L4 的进阶路径打通。

特斯拉 FSD，可能是最接近自动驾驶的正确答案。

当然，特指 FSD 北美满血版。

所以，站在这个时间点，有必要思考一个课题，特斯拉的自动驾驶，是如何一步步「开悟」的？

01特斯拉 FSD 三代进化：一场关智能涌现的工程实验

如果把自动驾驶系统看作一颗大脑，那么 FSD 的三代演进，本质上完成了一次大脑进化：从模仿，到具备连续意识，再到思考与推理，FSD 的自动驾驶水平像升级打怪般，开启了智能涌现时刻。

FSD V12：端到端基础版，让 AI 自己学会开车。

2024 年初，特斯拉推送 V12 版本，自动驾驶决策的主动权，第一次从工程师手中转移到神经网络。

一个直观变化， 特斯拉约 30 万行自动驾驶相关代码，被压缩到约 3000 行。

过去十多年自动驾驶的主流路线，本质是工程拆解，感知、预测、规划、控制，各模块各司其职，按照规则代码保证秩序，但不可避免陷入极端场景无法穷尽、柔性意图难以解释的难题。

直到端到端掀桌，让系统通过数据驱动形式学习人类驾驶行为，将各模块统一成整体，输入感知信息后，立刻输出方向盘和踏板动作。

结果立竿见影。特斯拉智驾负责人 Ashok Elluswamy 曾在 X 上公开表示：几个月训练的 V12，已经全面超过了多年积累的 V11。

高效的数据驱动方式，让系统在应对复杂交通状况时不再机械反应，而是像人类一样正确博弈。

何小鹏在试完 V12 版本后直言，这与此前版本完全是两种能力，并称要向其学习。

正是从 FSDV12 开始，几乎所有 L2 玩家都见识到了端到端的魅力，并相信一点，人类无法手把手教会 AI 怎么开车，但可以让 AI 自己学会开车，这将是通向自动驾驶终局的最优解。

FSD V13：端到端完整版，让 AI 全程开得稳。

FSD V12 只是证明了端到端的可行性，但要让这套系统稳定、持续得跑起来，还需要解决一个核心问题：

如何让 AI 真正像人一样，具备短期记忆与上下文理解能力。

人类司机在复杂路况中，会记住旁车变道激进、前方 500 米有施工区域、左侧车道有大货车。这些信息构成了连续的驾驶意识。

V13 的核心升级，就是让 FSD 具备了这种能力。

特斯拉 AI 团队成员曾在 X 上这样介绍 FSD V13，「它看起来很像 Raptor V3，非常干净。」

这是一个火箭引擎的类比，意思不是单纯强调「推力更大」，而是它终于具备了可规模化、可持续迭代的工程形态。

最直观一点，FSDV13 在硬件架构上有了全面焕新，开启了 HW4 时代。从该版本开始，马斯克着重强调起 AI 计算能力，将芯片平台 HW4 命名方式改为 AI4。

HW4 （AI4）是面向 FSDV13 及后续版本打造的主力硬件平台。相较 HW3，其算力直接提升 5 倍，业内预估约 720TOPS。大算力、大内存、高功耗、高能效都在为 FSDV13 功能拓展提供充分空间。

提升感知能力：36Hz 全分辨率视频输入，摄像头像素跃升至 500 万；

计算能力跃迁：5 倍训练计算扩展、3 倍模型尺寸缩放；

具备短期记忆能力：3 倍模型上下文长度扩展；

……

简单概括，FSDV13 在同一时间窗口内，能处理更多信息，调用更复杂的决策网络，把端到端从「即时反应系统」升级为「连续推理系统」，相当于一次认知宽带的高密度扩容。

不容小觑的一点，FSDV13 开始增加「音频输入」，相当于在视觉之外，补全了听觉系统的感知范式，以此应对紧急车辆避让问题，也让端到端模型第一次通过声音这种先验信号，获得提前感知风险的能力。

体验层面，FSD V13 带来的决定性意义在于：集成退车、倒车和停车功能， 端到端终于覆盖了「车位到车位」的全部驾驶场景。

重点是：无需提前建图，不需要记忆路线。

FSD V13 能够在多层停车场识别箭头、寻找出口，像人一样「读懂环境」，相比国内玩家普遍提前学习的做法，无疑领先一截。

FSD V14：端到端成熟版，让 AI 没人看着也能开好。

如果说 V13 版本的特斯拉可以在 L2+层面如鱼得水，但到了 L4 层面，无人驾驶的绝对安全性下，这显然还不够用。

过去一年，特斯拉基于 Model Y 车型打造的 Robotaxi，从奥斯汀首发，8 月扩至旧金山湾区，累计测试里程超过了 200 万公里。

而按照计划，特斯拉 Robotaxi 2026 年将覆盖纽约等 30+城市，无方向盘 / 踏板的 Cybercab 车型也将在今年 4 月得州超级工厂量产。

但特斯拉 Robotaxi 的规模化、商业化蓝图，需要面对安全员下车、控制远程监督人车比、充电自动化、调度与故障响应等系列现实难题。

这些任务，都交给了 FSD V14。

没错，依靠 FSD，特斯拉正在打通从 L2 至 L4 层级的通路。

依然是基于 HW4 （AI4) 平台，但模型再度扩容：

参数总量提升了 4.5-10 倍；

视觉处理帧率提升至 48 Hz；

上下文窗口增加超过 3 倍

……

这相当于一个「反射型大脑」， 升级成一个「有前额叶的思考型大脑」 。AI 有了更深度的思考、推理、预测能力。

驾驶层面，可以识别与避让紧急车辆，精准识别路障、轮胎、树枝、纸箱等零散障碍物，误入死胡同也可以自动倒车掉头等。

这种类人自动驾驶能力，让 FSD V14 可以做到横穿美国东西海岸 0 接管，而更重要一点，是为无安全员 Robotaxi 运营奠定了坚实基础。

除了驾驶能力本身的提升，FSD V14 真正拉开代际差距的地方，来自于 xAI （马斯克旗下 AI 企业）的 Grok 大语言模型接入。

此前的 FSD 更像一个「会开车的系统」，不会清晰表达，现在引入 Grok 后，FSD 有了一个清晰的认知接口，带来两项本质升级：

一是 出现意图理解能力 。将用户模糊指令转译为可执行的驾驶条件。例如「回家路上顺便买个麦当劳」，在系统内部会被拆解为路径规划、兴趣点搜索与时间约束等一系列结构化指令，再由 FSD V14 完成具体行驶。

二是 建立决策可解释性 。借助 Grok，FSD 的驾驶决策可以被翻译成人类语言，包括为什么出现系统报错、突然减速等。

这让原本封闭的模型黑箱，第一次对乘客、平台和监管变得可读。站在 Robotaxi 运营角度，Grok 的价值不在于「更会聊天」，而在于把 FSD V14 的黑箱决策，翻译成乘客、平台与监管都听得懂的语言，让自动驾驶第一次具备真正的运营可读性。

由此，FSD 的三代演进，本质上都带着革命性任务，层层递进，并接连为后续版本更新埋下铺垫：

V12 垒地基，回归到端到端正确轨道，证明数据驱动优于规则驱动；

V13 建高楼，搭建全场景端到端决策框架，夯实长尾场景泛化能力；

V14 精装修，解决体验稳定性和可靠性，为 Robotaxi 商业化铺平道路。

更值得注意的是，FSD 每一代都在为下一代埋伏笔：V13 版本增加音频输入模型，使得 V14 版本就具备了紧急车辆避让能力，以及 V14 版本也在为后续的 HW5 硬件预留接口等。

回看 FSD 从 V12 到 V14 的三次迭代，变化不在于功能堆叠，而在于能力曲线的陡然抬升。特斯拉没有在技术路线上来回试错，而是持续沿着端到端这一主线推进，一次次把原本被认为「过于激进」的设想，变成了可落地的工程系统。

自动驾驶还远没到终点，但至少现在，特斯拉依然是那个把路线图画对了的玩家。

02兜住端到端的下限，特斯拉早有应对

尽管端到端引爆了自动驾驶的奇点时刻，但它不至于被过于神话。

这一技术路径更像是一种方法论，某种程度上，特斯拉也是受到了大语言模型，尤其是 ChatGPT 训练范式的启发。

早期端到端刚盛行时，几乎所有厂商都声称「已经上船」，一度引发了关于端到端真伪的讨论。

随着热度逐渐回落，行业开始用更理性的视角重新审视这一技术路线： 如何在充分释放端到端优势的同时，解决其长期被诟病的「下限低」问题：

黑盒，可解释性差。为何突然急刹、不避让障碍物，没有明确工作日志解释。

数据噪声导致安全性威胁。学习到错误的驾驶行为产生违反交规、预判错误的低级错误。

国内厂商的主流做法相对一致：通过规则系统作为安全兜底，试图用传统工程方法守住安全下限；在可解释性问题上，要么采用「两段式端到端」作为过渡方案，要么引入大语言模型，通过 VLM、VLA 的方式让 AI 的「思考过程」显性化。

而最近从 Ashok Elluswamy 发布的长文中，透露了特斯拉的应对招式：

先解决模型如何理解世界， 让端到端系统始终运行在一个可还原、可验证的世界表征上。

第一步， 先把「黑箱」打开。

Ashok Elluswamy 提到了一项技术：生成式高斯泼溅。它能使系统在约 220 毫秒内，基于多摄像头视频流，重建连续、动态、可推演的三维环境。

这意味着，工程师可以直接看到，模型当下认为道路结构、周围车辆、遮挡关系各自是什么状态。

当系统出现异常行为时，不用再费心思盲猜系统为什么这么开，而是知道它当时是如何理解世界。

此外，特斯拉 FSD 也内置了小型化语言推理模型，用于训练 AI 用自然语言来解释自身行为，据悉一个小型版本的推理模型已经在 FSD v14.x 版本中运行。这与 VLM、VLA 有异曲同工之意。

第二步， 让模型学会后果，而不是单纯的动作。

FSD 打造了一个 「神经世界模拟器」 ，Ashok Elluswamy 强调：「它并非预测给定状态下的行动，而是根据当前状态和下一步行动来合成未来状态。」

从演示视频看，它主要能完成两项任务：

一是 验证新模型是否更好 。在同一段历史数据上，接入不同版本的 FSD，让它们在模拟世界中做出不同决策，并推演出多条物理上合理的未来轨迹，用结果来评估优劣；

二是 合成低频极端场景 。通过调整计算资源，模型可以实时生成超过 6 分钟的完整驾驶过程，期间 8 个摄像头、每秒 24 帧的画面，全部由神经网络实时合成。

这其实进一步改变了端到端的学习方式。

传统仿真训练还是由工程师主导，出现的困难都是人工预想，然后教会系统，遇到某种情况人类通常如何操作。

而神经世界模拟器，则是强调，不同决策，会把世界推向怎样的演化结果。

通过生成模型，系统可以批量构造现实中极少遇到、但风险极高的场景，并在其中反复测试不同驾驶策略的后果。所以端到端系统不会只条件反射式模仿，而是形成对因果链条的理解，以此建立对自动驾驶安全性的深度理解。

当模型既能清楚地「看到自己所处的世界」，又在训练中反复经历过「错误决策会导致什么结果」，系统的行为边界会自然收敛。

这套机制 一方面减少了端到端在极端场景下的失控概率，兜住了安全下限；另一方面，也为更复杂的长时推理、策略稳定性打下了基础。

实际上，早在 2023 年 AShok Elluswamy 的 CVPR 演讲，这些技术就已经露出端倪。

彼时他就强调，可以通过「生成式模型」来学习道路车道线、车道拓扑结构，以此适应复杂路况变化和不规则道路结构。

同时，演讲中也花大篇幅介绍通用世界模型，即构建一个能够理解环境、预测未来、推理潜在变化的连续空间模型，并将其作为训练基础。

换句话说，在端到端真正走向规模化之前，特斯拉就已经默认，端到端必须生长在一个可生成、可推演、可验证的世界之上。

正因如此，FSD 的进化路径并不是「端到端不行就打规则补丁」，而是提前重构了系统理解世界的方式，生成式技术与世界模型成为端到端自动驾驶系统得以稳定生长、快速跃迁的基础设施。

03FSD，国内玩家难以复制的特斯拉模式

一个颇为吊诡的现实是：

今天无论是 L2 智驾公司、L4 Robotaxi 玩家，还是具身智能初创团队，这三条看似不同的赛道，如果取一个交集，答案几乎一定指向同一家企业——特斯拉。

大家都在盯着特斯拉，拆解它的技术路径、复盘它的版本迭代，试图从中找到「可复制的方法论」。

但问题在于，特斯拉并不是在单点突破某一条赛道，而是把自动驾驶、Robotaxi 与人形机器人，放在同一个长期工程语境里统一推进。

Ashok Elluswamy 公开强调，FSD 的核心能力并不只服务于自动驾驶，其感知、世界建模与决策体系，理论上可以无缝迁移到擎天柱人形机器人上，即一套 AI 架构，覆盖多个物理智能载体。

这也正符合马斯克一以贯之的长期设想。

在《埃隆·马斯克传》中，自动驾驶（FSD）、Robotaxi 与人形机器人三个主题始终贯穿全文，用通用 AI 接管现实世界的物理任务。

正因如此，特斯拉从一开始就在为 FSD 铺设一整座「冰山之下的基座」，而这恰恰是国内玩家最难抄走的部分。

第一层基座： 压强级算力投入。

尽管砍掉了自研 Dojo 超算的规模化落地计划，但特斯拉并没有收缩 AI 投入，而是将重心彻底转向以 NVIDIA GPU 为核心的 Cortex 训练集群，用于 FSD 与人形机器人的大模型训练。

目前已公开的信息显示：

Cortex 初始部署约 5 万张 H100 GPU；

2025 年二季度新增 1.6 万张 H200 GPU；

H200 单卡性能约为 H100 的 4.2 倍；

按单张 H100 在 FP8 训练场景下达到数十 PFLOPS 等效算力估算，Cortex 集群整体训练能力已进入 数十至上百 EFLOPS 区间 。这背后，是持续多年的百亿美元级资本投入。

值得注意的是，这并不包括此前 Dojo 项目已经消耗的数十亿美元沉没成本。

对比国内玩家，即便是头部智驾公司，云端训练算力大多仍停留在 10 EFLOPS 量级。

以业务形态最接近特斯拉的小鹏为例，其公开数据为：近 2 万张训练卡；年度 AI 训练投入约 50 亿元人民币；总算力突破 10 EFLOPS。

显然，这并非「努力程度」的差异，而是资源禀赋的数量级差距。在 AI 时代，算力本质上是一个持续吞噬资本的无底洞，而特斯拉选择了用工业级现金流，长期压住这条曲线。

第二层基座： 源源不断的高质量数据。

算力决定了模型能跑多快，数据决定了模型究竟能跑多远。

特斯拉凭借其庞大的车队，拥有如尼亚加拉大瀑布般的海量数据。

截至 2026 年 1 月 8 日，特斯拉 FSD（监督版）累计行驶里程已达 71.73 亿英里，其中城市复杂路况超过 25.9 亿英里。

Ashok Elluswamy 也曾透露， 整个特斯拉车队每天产生的数据，相当于 500 年人类驾驶时长。

但真正拉开差距的，并不只是数据规模，而是数据的利用效率。

特斯拉构建了一套高度复杂的数据引擎流水线，先自动挖掘最有价值的 corner case，再强化稀有、危险、长尾场景的采样权重，最后形成数据驱动闭环。

更关键的是，随着 L4 线路的开启，Robotaxi 的真实运营数据正在成为全新的数据资产。

以 FSD V14 为例，其训练中已经整合了奥斯汀 Robotaxi 测试积累的 1200 万小时真实路测数据，并通过仿真与生成式世界模型放大，覆盖了施工区域、临时封路等 80% 的非常规城市路况。

第三层基座： 统一架构，而不是技术路线之争。

在这套算力与数据之上，特斯拉选择了一种极具工程野心的策略：让同一套世界模型、感知与推理架构，被反复复用、持续放大。

这也是为什么在特斯拉的技术体系中，端到端、世界模型、生成式建模、强化学习，甚至 VLA 并非彼此排斥，而是可以被同时吸收进来，为自动驾驶服务。

当国内玩家仍在争论 VLA or 世界模型更先进；是「语言即世界」，还是「空间即世界」是真理时。特斯拉的态度反而异常简单： 只要能提高 FSD 的智能驾驶能力，这些技术路径就没有意识形态冲突。

这种高度工程主义立场，决定了特斯拉不会被单一范式所束缚，也不会在路线选择上频繁摇摆。

而把视角拉回国内企业，会发现一个并不轻松、但并非悲观的现实。

特斯拉 FSD 的领先的核心原因，在于它在更早的时间节点，就启动了一套高投入、慢回报、极度吃耐心的长期工程。这套工程的前提条件：全球最大规模的车队、可持续的现金流、跨自动驾驶与机器人的统一战略，本身就难以复制。

换句话说，国内企业 生在了一张更薄的资源底牌上。

这也是为什么过去两年，我们看到国内智驾公司在技术路径上呈现出高度分化：有人选择「两段式端到端」先稳住下限，有人引入 VLA、世界模型尝试抬高上限，也有人把重心放在中阶智驾质性比层面的极致打磨上。

这些选择本质是现实条件下的理性博弈。

但特斯拉的绝对领先，并不意味着国内企业没有机会。

相反，随着端到端范式逐渐收敛、硬件平台趋于统一、数据闭环开始真正跑通，国内玩家与特斯拉的差距，正在 从「代际差距」转变为「工程效率差距」。

接下来的竞争焦点在于，谁能在有限资源下，把模型、数据与产品磨到足够扎实。

国内企业真正需要回答的问题，不是如何抄特斯拉的作业，而是在无法复制全部前提的情况下，如何走出一条适合自身资源结构的最优路径。

是合并资源抱团取暖，实现 1+1 大于 2，还是深度绑定主机厂，获得持续性量产角度保证，亦或者在无人物流、商用车细分场景打造第二增长曲线。

选择没有标准答案，只关乎现实成本。

毕竟，智驾开启「大逃杀」后，生存法则之一的确是紧跟特斯拉，但第一条永远是，先好好活下去。

01特斯拉 FSD 三代进化：一场关智能涌现的工程实验

02兜住端到端的下限，特斯拉早有应对

03FSD，国内玩家难以复制的特斯拉模式

相关新闻