汽车零部件行业报告:从特斯拉迭代历程看智能驾驶算法升级趋势
报告出品方:安信证券
以下为报告原文节选
------
1.特斯拉 FSD 商业化拐点将至,智驾付费模式有望彻底跑通
特斯拉 FSD(Full Self-Driving)是在 Autopilot 的基础上,推出的高阶自动驾驶功能,是特斯拉树立“高端智能化”品牌标签的重要渠道,目前已迭代至 V11.4.6。特斯拉于2020 年 Q3 正式发布 FSD Beta(测试版)版本,随后在 2021 年 7 月特斯拉通过重构后的底层算法,采用纯视觉技术路线初步实现了城市 NOA,并针对不良天气影响、无保护左转等Corner case 进行不断的升级优化。从 2023 年 4 月发布的 FSD Beta 11.3 版本开始,特斯拉统一了城市 NOA 与高速 NOA 的系统架构。根据马斯克在推特上的多次预告,FSD V12 将是一次具有历史意义的重要更新,同时称 FSD V12 将不再是 Beta 版本。
FSD Beta 在北美测试用户已超 40 万,行驶里程加速提升,我们认为特斯拉 FSD 商业化拐点将至,智能驾驶付费模式有望彻底跑通。
测试用户:马斯克早在 2015 年首次官宣特斯拉将推出 FSD 完全自动驾驶,2016 年 Q3 在官网上线 FSD 选装包,彼时尚无具体功能说明。直到 2020 年 10 月 21 日,特斯拉正式发布FSD Beta 测试版本,但仅向北美 Early Access 早鸟用户推送。在 2021 年初举行的财报电话会议上,马斯克表示,截至 2021 年 1 月,已经有近 1,000 名车主在公共道路上参与FSD 测试,至 2021 年 3 月,这一数字已提升至 2000 名。在数千名早鸟用户历经一年的内测,伴随着 2021 年 7 月发布重要版本 FSD Beta V9,在 2021 年 9 月 FSD Beta 在北美开始进行有条件的公测,但仅安全评分达到 100 的车主才可获得测试资格。两个月后,2021 年11 月 FSD Beta 测试者的数量大幅提升至 1.17 万,随后 2022 年 1 月/4 月/9 月测试人数分别达到 6 万/10 万/16 万。随着 FSD Beta 版本持续迭代、系统可靠性不断提升,特斯拉对于获得 FSD Beta 测试资格的安全评分标准不断放松,根据马斯克的推特,2022 年 9 月对安全评分的要求已放宽至 80 分。至 2022 年 11 月 24 日,特斯拉向北美地区所有购买 FSD 用户推送 FSD Beta 测试功能,标志着 FSD Beta 在北美进入全面公测,参与测试人数随之大幅提升,截至 2022 年 12 月末测试人数达到 28.5 万。根据特斯拉官方推特,截至 2023 年 3月 2 日 FSD Beta 测试人数超过 40 万,根据 Marklines 数据,截至 2023 年 2 月底,北美特斯拉保有量约为 185 万,对应渗透率达到 22%。(FSD 软件需要在 HW3.0 平台上才可以启动,特斯拉 2019Q2 之后生产的车辆才搭载 HW3.0,但特斯拉可以为老车主将硬件免费升级至3.0 平台,因此此处渗透率计算按特斯拉在北美全部的保有量计算)
行驶里程:根据特斯拉 2023 年二季度业绩说明会,截至 2023 年 6 月,FSD Beta 累计行驶里程已超过 3 亿英里。其中,自 2023 年 4 月开始 FSD Beta 累计行程里程加速提升,仅 Q2单季度提升约 1 亿英里,主要系 FSD 订阅量的上升及从 2023 年 4 月开始的 V11.3 在高速上启用了 FSD Beta。需要注意的是,在 2023 年 4 月之前,高速场景并未统一到 FSD Beta 技术栈中。
软件付费:特斯拉 FSD 具有“期货”属性,自 2016 年发布以来已经过多轮价格调整,2019年 4 月激活 FSD 功能仅需要一次性支付 5,000 美元,而目前 FSD 买断价格已上涨至 1.5 万美元。同时自 2021 年 5 月起,FSD 同时支持订阅的方式进行购买,基础 AP 用户订阅价格为99 美元/月,已购买加强 AP 的用户订阅 FSD 价格为 199 美元/月。根据 TroyTeslike 调研数据,2019 年以来随着 FSD 购买价格逐步上涨及 Model 3/Y 中低端车型成为销售主力,FSD在北美的单季度渗透率有所下滑。随着 FSD Beta 功能体验逐步完善,2023 年下半年以来特斯拉通过对 FSD 进行有条件优惠等方式扩大用户基数。2023 年 7 月 7 日特斯拉升级引荐计划,如果用户通过推荐购买 Model 3/Y,可以免费试用三个月 FSD Beta;如果通过推荐购买 Model S/X,可以免费试用六个月。同时,马斯克在推特上表示当 FSD 达到足够流畅时会在北美向所有用户免费试用一个月,我们认为这或会在 FSD V12 发布后实现,届时 FSD 订阅率有望实现跃升,智能驾驶付费彻底跑通。
2.算法:BEV+Transformer 确立行业通用感知范式,端到端大模型有望再次引领行业
2.1.2018 年之前:从与 Mobileye 合作到初步尝试自研
2014-2016 年间特斯拉与 Mobileye 深度合作,由 Mobileye 提供感知算法,主要基于传统机器视觉技术,依靠大量人工手写规则。针对每一类 ADAS 任务,Mobileye 都设计了复杂的机器视觉算法,并且在工程层面进行长期的优化,结合专用芯片,最终达到效率和可靠性的平衡。以 Mobileye 的经典测距算法为例,它使用前方车辆的车轮和地面接触点作为检测点,在假定地面水平的情况下,利用镜头的焦距 f、相机离地距离 H、成像高度 y 等易于测量的数据,可以估算出车辆距离本车的距离。在这一阶段,特斯拉基于 Mobileye 方案的AP1.0 系统陆续实现了车道偏离预警、主动巡航控制、自动变道、自动泊车等功能。
2016 年-2017 年特斯拉开始逐步探索自研自动驾驶算法。2016 年特斯拉和 Mobileye 合作关系破裂后在硬件端转向英伟达,同时自研软件算法。2016 年 10 月 HW2.0 量产,而软件层尚未推出,直到 2016 年 12 月 31 日特斯拉发布 Autopilot8.0 版本,辅助驾驶功能才重新上线,但相比于 AP1.0 系统功能上出现了明显的回退,至 2017 年 3 月推送的 8.1 版本 AP2.0系统基本达到了 AP1.0 系统的功能体验。同时,2016-2018 年间特斯拉自动驾驶团队构成也发生了多次变化,2016 年 12 月,特斯拉 Autopilot 原总监 Sterling Anderson 离职,苹果Swift 语言之父 Chris Lattner 接任,带领 AP2.0 的研发,但仅半年后 Lattner 宣布离职。
在这一时期特斯拉几乎不对外披露软件算法技术进展,但值得注意的是,2016 年底开始特斯拉的 vision 小组与机器学习小组也开始在技术上为 Autopilot 的开发提供支持,说明特斯拉已经开始尝试将 AI 引入自动驾驶的应用中。
2.2.2018 年之后:从后融合到特征级融合,大模型赋能下引领行业
2017 年 6 月 Andrej 加入特斯拉后,主导特斯拉自动驾驶算法从基于传统视觉(规则的方式)向神经网络模型、数据驱动的方向发展。Andrej 将传统视觉称之为 Software1.0,指实现某一个功能依靠既定代码逻辑,可以理解为给定目标,程序员设定好一条固定达到目标的路径。以数据驱动、依靠神经网络的模型被称为 Software2.0,给定目标结果,程序员设定网络框架,通过计算资源搜索程序空间的子集(给定目标值,利用反向传播和梯度下降实现),进而找到这条具体的、最高效的路径。特斯拉自动驾驶算法进化过程是 2.0 软件逐步“吞噬”1.0 软件的过程,从一开始规则主导,部分神经网络辅助;到二者交叉,部分模块神经网络、部分规则,再到神经网络完全主导,用“one model”统一全栈。
2.2.1.2018-2019:使用多任务网络提高模型效率,在 BEV 空间下进行后融合
构建 Hytranets 多任务网络提高自动驾驶感知模型效率。在 2018-2019 年期间,行业中应用神经网络完成自动驾驶感知任务的方式是针对单个任务进行网络设计,即一个神经网络结构只对应一个感知任务的实现。自动驾驶中同时存在非常多感知任务(尤其从高速进入城市场景,环境复杂度大幅提升),如果为每一个任务单独设计一个神经网络极其耗费资源。
特斯拉的解决方案是设计一个 Hydranets 多任务网络,有一个共享的 backbone 骨干网络,再输出多个任务。这样设计最核心的好处在于节约计算资源,一方面在训练端,针对单个任务进行微调时不需要对共享网络进行重新训练;另一方面在车端进行推理时不同任务共享特征提取结果从而避免重复计算。
在泊车场景下开始应用 BEV,采用后融合策略对不同视角进行拼接。2019 年 10 月,特斯拉推出停车场智能召唤功能,可控制车辆离开车位、绕过弯角、进行必要的避障到达所选位置。为实现这一功能,车辆需要找到停车场中的可行驶区域,避免碰到道路边缘。特斯拉在不同视角之下完成了车道线边缘的预测,但车辆无法在 2D 透视图中完成后续的规划决策,因此需要将 8 个不同视角下的预测结果“投射”到 BEV 视角下(此时尚未正式提出 BEV 的概念,称其为 Top-down 自上而下的视角)进行拼接,需要特别注意的是,这个拼接过程是用基于数学规则的方式而非神经网络的方式完成的。
2.2.2.2020-2021:特征级融合取代后融合,BEV+Transformer 架构下,进入自动驾驶大模型时代
特斯拉利用基于神经网络的特征级融合取代基于规则的后融合,大幅提升感知效果。2020年特斯拉开始研发 FSD 完全自动驾驶,当自动驾驶从简单的泊车场景向普通城市道路拓展时,后融合的感知结果难以满足要求。一方面基于规则的后融合具有严苛的假设,如地面是完美水平、相机和地面之间不存在相对运动,因此任何的车辆颠簸或者道路有高度变化都会打破这一假设,使得 BEV 输出的图像面临失真。同时,由于透视投影,在 2D 图像中完成不错的感知结果投影到 BEV 空间中精度很差,若要保证远距离区域的精度,就必须要对每一个像素的深度预测非常准确,而这是难以实现的。为解决这些问题,特斯拉希望能直接利用神经网络输出 BEV 感知结果,自动驾驶感知融合从后融合走向特征级融合。具体模型框架如下:1)通过 Backbone 共享骨干网络进行特征提取;2)将不同视角下的 2D 特征图通过神经网络转换至 BEV 空间内融合;3)融入时序信息;4)多任务的输出。
Transformer 交叉注意力机制对于 BEV 空间转换任务适配性较高。利用 Transformer 进行BEV 空间转换的方法没并有显示的深度估计,而是用注意力机制直接进行不同序列(指 2D特征图和 BEV 视图)之间的转换。Transformer 的交叉注意力机制中的 Query 和 Key/Value来源不同,因此天然适配于不同域之间的数据转换。在 2D 特征图向 BEV 空间转换的过程中,首先将 BEV 空间分割成 2D 格栅,之后将它们编码成一组 Query 向量,去不同视角的 2D 特征图中查询对应的点,从而实现空间的转换。根据 2021 年特斯拉 AI Day,通过Transformer 交叉注意力机制在 BEV 空间内做特征级融合的效果远好于基于规则的方法在BEV 空间内后融合。
2.2.3.2022:升级至 Occupancy 解决一般障碍物识别问题,Lanes Network 进一步完善地图模型
从 BEV 升级到占用网络,进一步提升泛化能力。特斯拉在 2022 年 AI Day 中展现了Occupancy Network 感知技术。基本的思想是将三维空间划分成体素 voxel(可以理解为微小立方体),再去预测每个 voxel 是被占用还是空闲,通过 0/1 赋值对 voxel 进行二分类:有物体的 voxel 赋值为 1,表示 voxel 被物体占据;没有物体的 voxel 被赋值为 0。实际中的赋值可以是概率值,表示 voxel 存在物体的概率。
占用网络感知技术本质上是为了解决更多的长尾问题。纯视觉方案被质疑的一大问题在于对于没有在训练集中出现过的物体,视觉系统则无法识别,比如侧翻的白色大卡车,垃圾桶出现的路中,传统视觉算法无法检测到。占用网络模型的基本思想是“不考虑这个物体到底是什么,只考虑体素是否被占用”,则从根本上避免了这一问题,大幅提升了模型的泛化能力。
Occupancy 网络结构与特斯拉 2021 年 AI Day 展示的 BEV 网络结构差异不大,均包括特征提取、利用神经网络进行特征级融合、融入时序信息、多任务的输出四个步骤,事实上Occupancy 可以看作是 4D 的 BEV。从网络结构上看差异主要体现在:1)Occupancy 模型中进行空间转换时的 Query 是 3D 格栅,BEV 模型中是 2D;2)Occupancy 模型可以直接解码出网格的占用情况、速度信息、3 维道路曲面参数和语义信息等。
从 BEV 在线地图升级至矢量地图构建模型 Lanes Network,更有利于下游的规划决策。特斯拉始终坚持无高精度地图的方案,通过车端实时感知+导航地图为下游规划决策提供所需的道路信息,因此特斯拉在线地图的升级方向就是让其提供的信息密度越来越接近高精度地图。高精度地图相比于导航地图定位精度明显提升,并且可以提供车道级的信息(车道线的数量、边缘位置),这一点特斯拉在 2021 年通过在 BEV 空间内对车道线进行完整的在线分割和识别已经实现。但除此之外,高精度地图还可以提供道路拓扑结构,即车道线之间的连接关系,特斯拉将地图模型升级至矢量地图就是为了补足这一信息。
特斯拉矢量地图 Lanes Network 包含视觉、地图、语义三个模块,利用 Transformer 生成车道线的关键节点。从网络架构上来说,矢量地图是 Occupancy 感知网络的一个 decoder,将来自感知网络的视觉特征信息、地图的信息整合起来给到语义模块,这里需要特别注意的是特斯拉所采用的地图是其自己绘制的众包地图,而非高精度地图。语义模型框架上类似 Transformer 中的 Decoder,将来自视觉模块和地图模块的所有信息进行编码,类似于语言模型中单词 token,再以序列自回归的方式预测节点的位置、属性以及连接关系。
2.2.4.2023:规划决策端应用神经网络,实现“端到端”的自动驾驶模
型特斯拉 FSD V12 在规划决策端采用 AI 大模型,更好的处理复杂的交通参与者之间的交互问题,有望实现端到端自动驾驶。在当前自动驾驶模型架构中将驾驶目标划分为感知、决策、执行三个大的模块。目前行业在特斯拉的引领下感知模块均依靠于神经网络实现,但规划决策端依然是基于传统规则,而非神经网络的方式。马斯克在推特上称,特斯拉 FSD V12将采用“端到端”模型,输入数据是摄像头采集的到的视频流 raw-data,输出数据直接是如方向盘转角多少度的控制决策。可以理解为,除了感知模块,特斯拉在规划决策模块也将采用 AI 大模型、数据驱动的方式来实现。
规划决策端应用神经网络模型是当前学界、业界共同关注的发展方向。获得 2023 年 CVPR最佳论文奖的《Planning-oriented Autonomous Driving》提出 UniAD 自动驾驶大模型,UniAD 以“规划”为目标,利用多组 query 实现了全栈 Transformer 的端到端模型。需要注意的是 UniAD 利用 Transformer 统一了自动驾驶感知、规划决策全栈,但模块之间有明显的区隔,并非完全黑盒,具有一定的可解释性。
3.数据:数据闭环+超算中心造就 FSD 极致迭代速度
如前所述,特斯拉自动驾驶模型从大量的程序员手写规则的 Software1.0 向基于神经网络的 Software2.0 迭代,在 Software2.0 时代下,数据是最为重要的生产资料。我们复盘特斯拉对数据闭环体系的构建可以分为以下两个阶段:1)2016-2019 年:首创影子模式,组建千人标注团队,数据闭环体系初步构建;2)2020 年-至今:逐步发展至 4D 自动标注,数据闭环体系趋于完善,Dojo 超算中心投产进一步提升迭代速度。
3.1.2016-2019:首创影子模式,数据闭环体系初步构建
特斯拉早在 2016 年首创影子模式,开始在车端大量收集众包数据,2018 年已初步构建了数据闭环体系。一次完整的数据闭环过程分为以下几个步骤:1)从一个初始数据集开始(seed dataset)训练神经网络并部署在车端。2)设计 trigger 触发机制,回传车端收集到的 corner case(如神经网络结果不准确、司机接入接管等)。3)发现这个 corner case后,写成一个新的 trigger 发送到车端,让车队回传大量的类似数据集。4)对新得到的数据集进行标注,重新训练。在这一过程中,corner case 的挖掘速度(取决于众包车队的数量以及 Trigger 触发机制的设计)、对类似场景数据的收集速度、数据标注的速度和质量、训练模型的计算资源共同决定了自动驾驶模型的迭代能力。
--- 报告摘录结束 更多内容请阅读报告原文 ---
报告合集专题一览 X 由【报告派】定期整理更新
(特别说明:本文来源于公开资料,摘录内容仅供参考,不构成任何投资建议,如需使用请参阅报告原文。)
精选报告来源:报告派
新能源 / 汽车 / 储能
新能源汽车 | 储能 | 锂电池 | 燃料电池 | 动力电池 | 动力电池回收 | 氢能源 | 充电桩 | 互联网汽车 | 智能驾驶 | 自动驾驶 | 汽车后市场 | 石油石化 | 煤化工 | 化工产业 | 磷化工 | 基础化工 | 加油站 | 新材料 | 石墨烯 | 高分子 | 耐火材料 | PVC | 聚氯乙烯 | 绿色能源 | 清洁能源 | 光伏 | 风力发电 | 海上发电