自动驾驶行业观察日记:女性从业者的探索之路

继汽车产业电动化之后,智能化成为又一个历史性机遇。自动驾驶作为“智能化”的核心之一,在监管、技术和商业化方面持续积累、不断完善。数据驱动下的BEV+大模型横空出世,领航辅助从高速向城区不断加速规模化覆盖,自动驾驶不再是人类生活无法触及的想象边界。当科幻照进现实,女性从业者身处其中,又应该如何顺应潮流,抓住机遇窗口呢?
LWT Digitial有幸邀请到两位自动驾驶领域的女性从业者Jinyao和Kiwi,开展圆桌系列第三期,开启第一视角的自动驾驶行业观察日记,探索她们眼中的自动驾驶和职业发展历程。
本期嘉宾:
Jinyao:自动驾驶领域的前沿探索探索者,拥有美国佐治亚理工学院和上海交通大学的学位。参与多个示范区车路协同项目,热衷于多领域交叉应用。她深信科技改变生活,致力于让科技使生活更美好。
Kiwi:毕业于德国柏林工业大学,某头部自动驾驶业务策略团队负责人&资深分析师,猕猴桃小姐@小红书
本期内容:
关于自动驾驶行业的对谈分享
自动驾驶行业观察日记:女性从业者的探索之路
Section 1: 寻路之始
关键词:好奇 技能转移
Jinyao观点:之前在通信相关领域工作,对通信在车联网、物联网和工业界等垂直行业的应用很感兴趣。海投了很多岗位,得到了现在公司给了这个机会,得以切入汽车自动驾驶领域,并通过通信作为切入点,看到了这个行业的发展机会和坚定的各种技术。
Kiwi观点: 我是在小红书上通过分享工作复盘和个人思考的方式吸引了现在老板的注意,得到了工作机会以进入了自动驾驶行业做商业分析岗位。当时正值职业瓶颈期,也是抓住了这个机会,利用了软性技能的转移成功跨行进入了这个行业。
Section 2: 寻踪探路
什么是自动驾驶
关键词:自动驾驶 辅助驾驶 行业标准
Jinyao观点: 我认为的自动驾驶,其实这是一个非常泛的名词,具体来说,它可以分为辅助驾驶或者是自动驾驶,这是两个相衔接以及渐进的阶段。辅助驾驶是指车辆通过提供信息和一些辅助功能来帮助车辆,但车辆仍然负责实际的驾驶行为。而自动驾驶车辆是自动化程度更高的阶段,车辆可以成为主体进行驾驶,此时责任会从车辆转移到车辆本身。在用户体验方面,辅助驾驶可以减轻驾驶疲劳并提供额外的信息,但车辆仍需参与决策和操作。如果实现了自动驾驶,人们在车内的行为可能会更加放松,许多驾驶行为将由车辆自动完成。
Kiwi观点: 我可以从这个行业的这个标准上面来做一下补充。在行业中,普遍使用SSAE(自动驾驶等级划分)来区分辅助驾驶和自动驾驶的本质区别。 L1和L2代表辅助驾驶,其中L1是巡航的辅助功能,而L2则提供更多的辅助功能,例如自适应巡航和方向盘保持等。在这些级别中,驾驶主体是人类驾驶,而功能只是辅助作用。而L3到L5代表自动驾驶系统。L3是有条件的自动驾驶,在特定环境下,系统可以完成驾驶操作,但驾驶员需要保持注意力,并在系统要求接管时做出即时的反馈,L3可以被理解为人机共驾阶段。而L4和L5则更高级别的自动驾驶,其中L5代表完全自动驾驶。目前,行业普遍采用L1、L2或L2+的技术水平。
实现更高的自动驾驶等级,并不仅是技术吸纳的问题,更多的是涉及到法规的完善性,例如人机共驾阶段的责任分配等。因此,实现更高级别的自动驾驶可能还需要技术和法规的进一步发展和完善。
自动驾驶的变化趋势
关键词:高清地图 视觉感知 传感器
Jinyao观点:L3会成为一个所谓的鸿沟,大家现在做的时候一直是L2+,从L2到L3是一个逐步迭代、持续优化的过程,即L3级别在技术上并没有明确的鸿沟需要跨越。但与之相对的法律、社会道德等方面的责任框架仍然是一个且尚未完善的领域。比如,我目前做的车端感知这一方面的工作,我们一直在做的事情就是使这个车端的感知水平接近、达到人类驾驶员的感知水平,甚至会再去超过人类的驾驶员。不同的模块,除了车端的感知,还有规划控制,或者一些功能的处理,L2做不到的,必须到达一个什么程度才能实现才达到L3呢?目前尚未观察到技术上必须涵盖的具体指标,因此需要更多地分析责任和法律方面的问题,以实现平稳过渡到L3级别。
Kiwi观点:今年 L2 自动驾驶汽车的产量有所增加,以及车企宣布增加城市领航辅助,这是由于技术方法发生了转变。此前,发展速度缓慢的部分原因是高清地图的局限性,建立高清地图需要很多先验信息输入,然后给到感知,然后给到下游的归控。又因为高清测绘许可证仅限于有资格的单位,有资格的单位数量有所减少,因此推进进度和速度都会慢很多。然而今年,特斯拉基于变压器的感知融合解决方案的推出,利用强大的车载感知能力,能够用比高清地图更少的元素构建实时地图。这种技术转变加快了开发速度,并摆脱了对高清地图的依赖,能够在不依赖高清地图的情况下实现城市自动驾驶,加速了行业自动驾驶的进展。自动驾驶变得更加流行和容易实现。目前行业已经转向“重感知、轻地图”的方式,重点是增强车辆的感知能力,而不是仅仅依赖高清地图。
Jinyao补充:特斯拉采用的是纯视觉方案,而国内其他车企采用的多传感器配置。特斯拉利用大规模数据和深度学习,通过摄像头进行环境感知和决策,但这在特殊情况下可能存在局限性。国内车企选择多传感器配置,如摄像头、激光雷达和雷达,以在不同环境下提供多样性信息。这些不同的技术路线,其实是在尝试减少地图因素的影响力,通过视觉或者多传感器融合的这种感知法来弥补地图的可能的缺失。
Kiwi补充:关于地图测绘,在行业里还处于一个比较灰色的地带,它存在合规性的问题,因为目前没有非常细的细则来界定合规性,所以各家的方法其实也是不同的,可能会跟有资质的厂商合作去做一些脱敏,通过数据合规性的一些技术方案来解决合规性的问题,比如不是去做一个地图测绘,只是去提取入口的特征,然后在感知融合阶段去弥补更多的信息进去。各家做法其实目前是不太一样的。
自动驾驶技术方案的发展趋势
关键词:算法 BV transformer技术
Jinyao观点:从我了解的信息来说的话,特斯拉有透露一些消息,说考虑将毫米波雷达也装载在车中。也就是说,会考虑视觉加上毫米波雷达的组合方案的这种思路。从我的角度来看的话,驾驶员不是真的只靠眼睛在观察周边,而是会去把它周围收集的信息抽象成为一个知识。也就是说数据是数据,知识是知识。如果是类比人类驾驶员的话,各种传感器、雷达,以及车联网的这种设备,作用都是支持信息获取,相当于车辆的“千里眼”和“顺风耳”。往前演进,可能是说怎么样通过合理的硬件搭配,以及适配的软件算法,以达到一个更高精度的感知。我觉得这是大家统一的目的,但是实现方式上各有各的起点,但是走着走着有可能大家就会互相开始借鉴。
Kiwi观点:特斯拉是非常坚定的走纯视觉的方案,因为它真的是一家非常以终为始的公司,它的目的就是要不断的降低成本,扩大销量。激光雷达成本是非常高的,然而摄像头是很便宜的,所以纯视觉方案最主要的优势它就是成本低,但是劣势也很明显,在一些极端的环境下,如强光、大雾、大雨,摄像头的综合感知能力会受到非常大的限制,所以特斯拉一直不断地优化自己的算法去弥补这个短板,甚至直接用视频原始数据进入到骨干网络去获得更多信息、BV(Bird's View,鸟瞰视角)与Transformer技术等方法。核心还是要降低成本,通过降低售价去卖更多车,获取更多的数据,然后不断的去训练车端模型,让它有更好的感知能力,规划能力等。所以如果从成本的这个角度来考虑,国内现在很多车企用的都是多传感器融合方案,不断迭代算法,让车端有更好的感知能力,但我觉得说未来可能会去高精,去激光雷达,因为车企其实核心还是要降成本。
Jinyao补充:前面提到的Transformer技术,这个方法将环境分解为小格子的颗粒度,并对每个小格子进行建模,而不再仅仅关注物体的识别和Bounding Box。这种方法使得车辆的感知不再是一个个独立的物体,而是基于小格子的占据情况进行的,从而构建出车辆周围环境的整体轮廓。但目前这个技术仍存在训练数据的不充分性问题,因为真实世界非常丰富,收集并标注足够多的训练数据是一项耗时耗力的工作,而该技术的实现结果直接依赖于训练数据的质量和数量。BV(Bird's View,鸟瞰视角)技术则超越了人类驾驶员的视野,可以看到360度的环境。
KIwi补充:传统的视觉物体识别方法需要模型在数据集中学习并认知不同物体,因此它只能识别已经在模型训练数据中出现过的物体。如果遇到模型没有见过的物体,就会导致识别失败,从而可能引发危险。特斯拉的最新技术通过BV和Transformer的组合,以及占据网络的使用,将整个空间划分为小格子,而不是仅仅关注物体的识别。这样就不需要事先了解物体是什么,只需要知道哪些空间位置被占据,从而减少了摄像头漏识别的问题。
占据网络和Transformer技术也能够解决一些传统方法中的问题。例如,传统方法可能使用固定矩形框来框出识别出的物体,但在遇到异形障碍物时,可能会出现框选不完整的情况,导致忽略重要的细节信息。现在的方法不仅仅是简单的框选,而是在3D空间中进行建模,以捕捉更多的细节信息,如车辆的各个部件。这种3D建模的方法有助于在近距离跟车、加塞变道等情况下更精准地识别和感知周围环境。大模型的训练过程会将2D图像映射到车辆的3D坐标系中,以便下游的控制系统能够在这个3D空间中做出更准确的决策。这种转变实际上就是从2D到3D空间的转换,确保信息在车辆自身的坐标系中进行处理,从而更好地支持控制和决策。
Jinyao补充:摄像头传统上使用2D的包围框(Bounding Box)来进行物体识别,也可以使用3D的包围框,前提是要准确估计物体的深度信息(景深)。深度信息的准确性对于3D包围框的绘制非常重要,因为它影响了对物体在空间中的位置和大小的判断。对深度信息的正确估计需要额外的算法模块支持。
传统方法中的Bounding Box的使用也是有其逻辑的。画Bounding Box的目的不仅仅是为了识别物体,更重要的是为了进行物体的跟踪(tracking)。通过给每个物体分配一个ID,可以持续地追踪其运动行为,将其轨迹信息传递给下游的决策模块。因此,传统方法不仅仅是针对静态的每一帧识别物体,更强调了对物体在一段时间内的动态行为的追踪和理解。 聊到这里可以说,在这个领域存在许多“corner case”(边界情况),这些情况可能会超出通用方案的覆盖范围。虽然现有的算法能够解决许多通用场景,但当遇到一些特殊、不常见的情况时,可能会出现问题。这些“corner case”通常对于算法来说是挑战,因为它们就像一个无尽的长尾效应,永远会有新的情况出现。 因此,实现完全自动驾驶(L5级别)在处理这些“corner case”时确实面临着巨大的挑战。这也是为什么在实际部署中,需要对不同的自动驾驶方案进行谨慎的评估和测试,以确保它们可以在各种情况下安全、可靠地工作。
嘉宾个人体验的自动驾驶场景
关键词:固定路线 个人体验
Kiwi观点:更高级别自动驾驶比如L4,现在全国范围内有挺多的,在上海的话比如萝卜快跑。有时候我上班的时候会叫一辆萝卜快跑,目前它其实都是点到点的运行。虽然理论上来说它已经实现了自动驾驶,但目前在驾驶位上还是有安全员。在上车之后,椅背后面的显示屏上,能够实时的看到,比如车辆周围的静态环境和动态交通参与者的信息,它的识别还是相当准的。我自己个人体验感觉在封闭的或者说特定的道路场景里面还是很顺畅的,当然过程中可能还是会触发一些驾驶员的接管,目前体验还可以。
L2+级别的城市领航模式因为城市环境的复杂性而产生差异。城市中存在大量的交通情况和不同的路况,一些公司可能在城市领航方面取得了良好的进展,不同公司之间还是存在差异。
Jinyao观点:我其实主要使用的都是辅助驾驶,比如开高速会使用的ACC功能,就是自动跟车功能辅助驾驶功能,车端的功能是比较谨慎温和的,确实能够在一定程度上减轻驾驶员的疲劳,并提供一种舒适的驾驶体验所以我整体觉得还是比较认可,现在的这个这些功能开发的确实是对车主有帮助。
车联网方面的技术发展程度
关键词:车路协同 政府投入
Jinyao观点:中国的发展是远远快于世界的发展,中国在基础设施建设方面投入和推广了很多,大量的传感器和摄像头在路边部署,城市中的数据通信设施为自动驾驶车辆获取实时信息和环境感知提供了基础,形成车路协同。同时,政府的支持和鼓励也加速了示范区的建设,邀请厂商共同参与,为技术验证和实际应用提供了平台。比如,车在行驶中可以提前的获取远端交叉口信息,或者可以提前获取远处红绿灯的信息,对于驾驶决策起到帮助。这些信息对于优化交通效率,或者是提高单车的体验来说,都是很有帮助的。我觉得是一个挺有意思的方向。
还有一些特殊的特殊的场景,比如园区和矿区。好几年之前百度有过一个DEMO,是一个驾驶员,他的车辆受困,由一个远端的远程驾驶员帮助这辆车驶离了受困区域。所以这种v to X 、v to everything的场景,对于解决一些边缘的场景特别有帮助。我觉得这些场景可能很多厂商都在观察,看有没有机会能够进一步的发展起来,形成有气候的商业模式。
Kiwi观点:道路改建主要是由政府主导,因为改建投入非常大,从长远来看,可能随着技术迭代或规模优势,成本能够分摊,投入会大大降低,但是从短线来看,投入还是非常大的,所以整个车路协同商业模式,个人看来是还在探索期的,并没有完全市场化。目前新能源汽车的渗透率虽然非常高,但是整体的智能化的水平其实是很低的,所以从车厂的这个角度来说,是没有足够的动力去参与到这个道路改建里面的,因为C端并没有足够多的使用者去分摊这个车协同的建设成本。从短中期来看的话,我个人觉得推进不会特别的快,但是从长远来看的话,在安全兜底以及很多其他信息的补充上面是一个非常好的解决方案。
行业发展的宏观变化
关键词:多因素 积累爆发
Kiwi观点:国内整个的新能源汽车发展非常快,我们也从汽车的进口大国,到出现了本土品牌走向世界,很多因素共同作用下推动了中国新能源汽车产业的快速发展和国际竞争力的提升。
第一,产业政策支持。 政府的积极扶持和政策引导是中国新能源汽车产业快速发展的关键因素之一,如出台的税收优惠、购车补贴等政策,降低了新能源汽车的成本,同时推动了整个产业链的发展,使得新能源汽车价格与传统汽车不相上下。
第二,**庞大市场需求。**中国拥有足够大的市场,足以去支撑产业发展。市场对于新技术、新产品的接受程度很高,使得新能源汽车在较短的时间内就实现了较高的渗透率。
第三,技术创新和自主研发。 中国的汽车制造商在技术研发和创新能力上投入了巨大成本也取得了重大突破。中国品牌在新能源汽车的关键领域如电池技术、智能化技术等取得了领先地位。这些创新和技术优势为新能源汽车的质量和性能提升奠定了基础。
第四,国际合作和品牌建设。 如小鹏与大众合作,借助其品牌影响力和市场经验,有助于中国品牌走向国际市场。
总的来说,能走出国门,是多种因素推动下形成的竞争优势所带来的必然的结果。
Jinyao观点:我的直观感受是咱们国家经济和技术上的发展,其实在等待一些爆发点。比如说之前互联网的黄金十年,然后是通信业4G到5G的更新换代。每一个爆发点,大家都是非常渴望的。在这个领域里面积累挺长时间,也有技术的不同的迭代,所以很多因素叠到一起,从根上来说这种爆发点算是期盼已久的。
智能车辆发展的多技术交叉和跨领域创新
关键词:大模型
Jinyao观点:智能车辆是一个非常好的平台,在这个领域最开始的时候,很多人笑称说智能的车辆就是四个轮子上面的智能手机。我们国家在智能手机领域也是有很长时间的积淀。
这种平台的构建在很大程度上推动了智能车辆领域的发展和创新,从最开始的智能娱乐系统和大屏幕,到如今的自动驾驶功能、计算机视觉、人工智能、通信技术等,智能车辆平台的演进是一个集大成的过程。这种平台的特点在于它能够容纳多种技术,为不同领域的应用提供支持。例如,自动驾驶技术就需要计算机视觉和感知、人工智能的决策制定等多种技术,而这些技术都可以在智能车辆中找到应用。
Kiwi观点:行业有一些转变的趋势,从英伟达挖角吴新宙可看,芯片供应商在转向提供整体解决方案,包括算法和软件,这可能引发行业格局变化。汽车行业的AI公司,他们的发展能促进感知能力的提升。人工智能、大模型和深度学习在自动驾驶中是可以带来很多正向结果的:
感知能力提升: 自动驾驶通过人工智能与深度学习,提升感知能力。行业内车企迅速推进L2级别和领航技术,加速自动驾驶发展。
传感器与人工智能的协同: 深度学习的不断演进填补了传感器可能的缺陷,车企可在硬件配置上降低成本,实现数据驱动循环,不断训练模型。
仿真场景与泛化能力: 人工智能在仿真场景方面发挥关键作用,弥补实车数据不足,提升大模型的泛化能力。
决策与拟人化: 通过学习人类驾驶行为,自动驾驶系统可实现更精准的决策和拟人化操控,提升驾驶体验与安全性。
端到端大模型: 预计未来将出现端到端的大模型,涵盖感知、决策和规划,为自动驾驶提供高效控制,推动行业技术和发展空间不断扩大。
Jinyao补充:大模型起源于自然语言处理(NLP),随后被计算机视觉(CV)借鉴,进一步改善图像处理。在自动驾驶领域,大模型是一种通用认知,蕴含世界关系于参数模型中,能够以上帝视角理解环境,不再是由任务驱动,而是全盘抽象表达。这种方法跨越通用和corner case场景,解决之前提到的脱尾效应,有可能成为通用解决方案。但就目前技术进程而言,处理大量参数会引发如何上车应用的难题,可能能带来新问题和潮流。
Section 3: 想要加入
Jinyao观点:认可这个行业的未来是前提,因为每个行业其实都有起有伏的。然后就是不惜一切的机会或尝试去进入进来,进来之后通过各样的各种各样的资源去跟上这个行业的潮流。
Kiwi观点:多面试。通过面试去不断发现自己缺失的部分,补足之后再去面试。一定要主动的出击。
嘉宾:Jinyao、Kiwi
编辑:Freida
【我们是谁】
Ladies Who Tech Digital是基于线上分享活动的科技女性交流平台,全部由志愿者无偿在业余时间组织推广,邀请科技领域各行各业的女性,分享她们的专业项目和经验实例,以增进不同行业、不同资历、不同国家之间的交流学习。目前已成功吸引了数千人次的观看和参与,分享内容涉及软件工程、数据科学、产品、设计、创业、能源、制造业、职业发展等。
【欢迎大家关注我们】
B站:https://space.bilibili.com/1506450
微信公众号:LadiesWhoTech Digital
小宇宙播客:LadiesWhoTech
小红书: LadiesWhoTech
