“遥遥领先”的华为自动驾驶,如何让汽车学会看路?

今天我们来聊聊华为的自动驾驶。事情是这样的,前两天华为召开了2023创新和知识产权论坛。会上展示了5.5G适当可变光圈,三维精彩神嗑、精彩意志店等等很多这些不明觉厉的创新成果。当然了还有一个名叫通用障碍物感知GOD的技术。这让我想到4月份华为发布的第二代自动驾驶ADS2.0,也特别提到了这个GOD网络。虽然当时只有短短的一页PPT,但是我觉得这个GOD技术是解决整个自动驾驶感知问题的关键。因为它交给了整个自动驾驶系统怎么去更好的看路。
看过华为发布会的朋友们,都知道一大乐趣就是看余承东说了多少个华为的遥遥领先与同行遥遥领先遥遥领先遥遥领先遥遥领先遥遥领先遥遥领先与同行继续领先,遥遥领先。所以今天这期视频我们就一起来聊一聊,华为这个GOD技术到底是不是遥遥领先。有了它能不能让我们早几年去坐上完全自动驾驶的汽车。哥,对了,结尾还有一波小升华,记得一定要看到最后。
自动驾驶要解决的第一个问题就是看路,这个也应该是自动驾驶要解决的最重要的问题。因为只有看明白路上有什么,才知道下一步要怎么开。毕竟踩油门谁都会,难的是什么时候踩刹车。
看路这两个字听起来简单,但是做起来却并没有那么容易。对于人类驾驶员来说,这涉及到眼挠手脚的协调和配合。科目二、科目三练了这么久,说白了其实就是练这些东西,那么把这个配合练成肌肉记忆。但是如果让一辆自动驾驶汽车学会看路,难度就不止高了那么一点半点了。光光是这个看会有很多的问题。
举个例子,自动驾驶汽车曾经发生过一个非常有名的交通事故,就是有一辆白色的大货车在公路上发生了侧翻,横在了路中间。但是后面好巧不巧的是,一辆开启了自动驾驶模式的汽车。可能是当时驾驶员也走神了,没注意。按理说,后面这辆车的自动驾驶系统看到前面横着一辆大货车,应该赶紧刹车减速,要么打个方向绕开,要么干脆停下来。结果万万没想到的是,这个自动驾驶汽车一点都没减速,反而头也不回的直接干到大货车上了。
后来我们分析事故的原因的时候才发现,自动驾驶系统这个AI在看路的过程中,虽然看到了前面有个白色的东西,但是之前训练的时候从来没学过这个横在地上的白色卡车这个东西,所以就把它当成是一个他学过的东西,也就是白云,所以选择了一往无前开过去。事实上这种情况在比较低的自动驾驶级别里经常会发生。比如说L2级的自动驾驶的感知模型,通常只能识别很有限的物体。比如说正向或者是后向的车辆、行人、车道线、交通标志等等,这些东西就组成了一个所谓的白名单,我们都应该都知道黑名单,白名单其实就是反过来,也就是说自动驾驶系统只认识白名单里有的东西。
从技术上来看,这种感知白名单出现的本质原因是因为传统的自动驾驶本质上都是基于计算机视觉的这种对象检测算法,而检测就非常依赖训练数据里对物体的标注。对自动驾驶这个AI做训练的时候,会喂给它很多这种图片,图片里会标出来这是一辆车还是一个人,还是一棵树等等。那么AI学习这些标注出来的数据,会学得很好。但是反过来,如果没有标注出来的东西,那他就不认识了。不过有一说一样,对于第一级别的自动驾驶或者是驾驶辅助来说,仍然非常需要驾驶员的掌控。所以这种基于白名单的物体识别也还是有用的,它在很多情况下仍然能够辅助驾驶决策。但是随着自动驾驶等级的提升,这种方法肯定越来越不够用了。
实际路上的东西千奇百怪,很大一部分物体都是没有标注过的,或者是标注不完全的。比如我们可能很难找到这种很多侧翻的白色大卡车的图片去训练AI。即便我们能够找到,那么为了保证AI模型的平衡性,我们也会避免让它出现这种所谓的过拟合的情况。说白了就是不想让它看到一个白色的东西,就觉得是翻倒的大卡车。所以这个时候就需要新的看路算法了。这次人们选择了是用魔法打败魔法。那么在2019年的计算机视觉顶会CVPR上就发表了一个名叫Occupancy Network的工作。在去年的CVPR上,特斯拉把这个工作应用在了自动驾驶系统中,并且很好的解决了前面说的这种看路的问题。我总结了这个Occupancy Network的三个主要的优点,分别是避免白名单的依赖,然后细节保留,还有三维空间建模。我们一个一个来看看。
先来看第一个,也就是Occupancy Network最大的好处,就是用占用而不是检测来显示路况的信息。这样就规避了传统方法的白名单检测问题,这是由他的工作原理来决定的,其实也并不复杂。就是把一个三维世界去划分成一个的这种网格的单元。然后通过车辆摄像头和传感器感知到的数据,去判断哪些单元被占用了,哪些是空闲的。这个其实就是这个网络名字里的Occupancy也就是占用的由来。不仅如此,如果我们划分的网格单元足够小,就能分辨看出障碍物的很多细节。比如说树木的分支,卡车伸出来的挂钩等等。相比之下,在传统的算法里检测到的物体都用一个矩形来表示,而这些细节可能就被忽略了,这也非常容易导致事故。
那么3D空间建模其实是又进一步模拟了人类驾驶员的视觉。因为我们看到的真实存在的世界其实都是三维的。但是摄像头拍到和处理的其实都是2D的数据,那么这就需要对三维空间进行重构,来更好的把握物体的体积和形状。这里其实又用到了神经网络,那么根据输入的图片来生成3D空间的模型。不过多说一句,一旦涉及到3D建模,肯定就对算力有更高的需求了。这就需要更大算力的自动驾驶芯片来支撑,同样也拉高了这套算法使用和部署的门槛。
说完三个优点,这个Occupancy Network到底有没有缺点呢?当然肯定也是有的。一个挺大的问题就是输入数据的来源实在是太单一了,完全来自于摄像头。摄像头的好处是技术成熟,能够通过机器视觉算法来判断看到的东西是什么。但是缺点也同样明显,就是3D空间感不强,而且非常容易受到环境的影响,比如说下雨、雾霾,或者是挡住上什么东西,摄像头就看不见了。所以现在除了那位仍然坚守在纯摄像头方案的友商,其他几乎所有的车厂都在采用多模态融合的感知方案。其实就是用各种雷达、摄像头、传感器搞在一起,搞个满汉全席式的方案。
举个例子,华为ADS2.0的首发车型问界M5的支架板就搭载了一个激光雷达,三个毫米波雷达,12个超声波雷达,还有11个摄像头。我自己开车的时候只有两只眼,自动驾驶开车的时候要27只眼。激光雷达最精确,但是成本更高;超声波雷达成本比较低,适合静态或者是缓慢移动物体的测量,但是受到周围环境的影响比较大,感知距离有限,只能覆盖比较近距离的测量。毫米波雷达对于周围环境的变化不敏感,适合高速和复杂环境的测量,但是分辨率不高,无法对物体进行精确的描述。所以把这些传感器搞在一起的好处也非常明显了,那就是能够互相的取长补短,发挥各自的优势。
所以华为的GOD技术中就以视觉为中心,并且融合了多种雷达传感器,这些多模态的输入可以用来去预测真实物理世界3D voxel的占用状态,实现和语义类别无关的通用目标检测。说白了就是解决了目标检测白名单限制的问题。但是GOD网络结合了激光和其他雷达的数据,获取的数据更加的丰富。所以构建起来的这种异形障碍物世界更加的具象,更接近真实的世界。那么在逆光和弱光这些摄像头失效受限的环境里,GOD也能靠雷达和其他的传感器去精确的感知障碍物。因此更加的稳定,安全性更好。还在主动安全测试中获得了优秀的成绩。
不仅如此,在自动驾驶汽车中其实还有一个非常重要的维度,就是速度。障碍物或者静止在那边,或者也在移动中,所以就需要把速度和位置的信息也加到了模型中,成为多维空间的建模。维度越高包含的信息就越多,就越能反映真实的情况。不仅能够刻画当前时刻的三维物体空间,同时还隐含了下一个时刻的三维环境的预测,为预测和决策提供了全面的静态环境和目标运动的信息,降低了事故发生的风险。
除了对模型本身和输入数据的优化,GOD这个技术还打上了不少华为自己的标签。比如说从华为最擅长的集团军作战的角度来看,GOD的训练样本达到了10亿级的量级。这些数据大都来自于搭载了ADS系统的车辆,总量超过了1万台,每台车每天跑上百公里,这样就产生了海量的数据,这些数据在三维云端进行实地重建和自监督训练,每天循环往复,就能让GOD这个模型的智能驾驶感知能力变得更加的强大和稳定,有点大模型的味道了。华为自己也提出,通过GOD技术能让车辆永不碰撞,这个还是挺雄心勃勃的目标。如果没有海量数据和这种长时间的训练,是肯定做不到这一点。当然了,有了算法数据肯定也离不开算力这方面,华为已经布局很久了,几年前的视频我就已经介绍过华为的Ascend,这次我也特别问了华为GOD模型的训练都是用的Ascend算力,并且达到了上千卡的规模。那么GOD是智能驾驶感知的基础,也是高级自动驾驶不可或缺的关键技术。
不过在华为的ADS2.0中,GOD还只是其中的那么一部分,它也需要和其他的技术结合在一起,才能发挥更大的作用。比如这次ADS2.0就抛弃了高清地图,直接用领航辅助功能,结合道路拓扑推理网络,让汽车能看懂路,实现有图无图我都能开。预计三季度持无图城市15座,四季度达到45座。这肯定离不开GOD的智能感知,还有前面介绍的这些大数据训练,还有基础设施的支持。ADS2.0发布之后,其实已经有不少的博主做了线下的实测,是不是遥遥领先不知道,但是口碑好像还不错。如果你也试过,欢迎在评论区留言,说说你的体会和感受。
老于在发布会上总喜欢说华为各种遥遥领先,这也成了大家看华为发布会的一大乐趣。你说遥遥领先就是真正做到才行,靠吹牛逼是不行的。不过我们本来是抱着看热闹的心态来看,结果越看越发现在很多技术领域华为还真的成了领先,有多么遥不知道。但是这至少说明华为一直在做技术的积累。这一方面体现在对单个点技术的持续突破和深入的挖掘,另一方面其实也体现在把多个点技术快速集成在一起,并且快速落地的这种系统的能力上。前者靠一个个人一个小团队或许就能实现,但是后者需要多个团队的统一配合和执行。在我看来,这才是华为在技术上的最大竞争优势。
当前环境充满不确定性,对于华为来说尤其艰难。不过面对不确定的环境,唯有创新,唯有知识和技能的积累才是正道。前不久有新闻说,华为在全球拥有超过12万件专利,已经和29家公司签署了多个专利许可协议,并且在全球范围内开展专利授权业务。专利收入也在增长,过去三年已经达到了12亿美元。专利的重要性不只是授权费用那么简单,更重要的是啊它带来的话语权和影响力,也是让公司坐上谈判桌的重要筹码。由此形成研发投入专利回再投入的正向循环,并且带来很强的示范效应应。那么当这个飞轮转起来之后,就能提升中国产业的整体可持续的创新能力。这么来看的话,华为在专利上的进击之路现在或许才刚刚开始。好了,以上就是本期视频的全部内容,有用请点赞,喜欢请关注。我是老石,我们下期视频再见。