智能驾驶的中国故事

经典的中国故事,硅谷诞生酷炫吊炸天的高科技,中国不着急,让美国人搞去。我们的特长是搞钱,不见兔子不撒鹰。

后发国家最初并不注重创新,因为富裕国家已开发好了必要的技术,且技术可以被授权使用或借来使用。

激光雷达的人民战争

激光雷达就是这么一个典型的中国故事:美国创新,中国等着,直到有了商业前景,利用中国供应链 + 场景 + 工程师红利 + 牛马加班冲进去,摧枯拉朽,高端科技品干成白菜价,几万美元被卷成几千人民币,卷死了欧美品牌。

  • 2019-2020年,中国新能源车市场突然爆发,中国力量排山倒海而来,傲慢且缓慢的欧美公司,让你见识一下人民战争的汪洋大海。

  • 2019年行业龙头禾赛科技激光雷达平均售价12w人民币,2023年变成了3.2k人民币,还有品牌已经干到千元附近。全球车载激光雷达市占率23年排名前五厂商中,前三都是中国车企,加起来有80%

人类用视觉可行,一部分是因为人类有一颗超强眼睛+超越所有物种的大脑,另一部分是人类没有其它敏锐的传感器了。

但从人工智能的大力奇迹演化路径上,纯视觉方案才有足够的优质训练数据。

几类雷达的区别

类型 作用 优势 劣势
超声波雷达 机械波,需要传播介质 通过超声波发射装置向外发出超声波,再利用接收器接收反射回来的超声波时间差来测算距离。主要用在倒车、自动泊车上 成本低 探测距离短
毫米波雷达 电磁波 把无线电波(雷达波/电磁波)发射出去,根据接收回波与发送之间的时间差测得目标位置距离数据。主要用于高速巡航车距保持功能。穿透雾、烟、灰尘的能力强,可以在糟糕的天气中探测。 穿透能力强,不受恶劣天气(雨、雪、雾、霾)影响,能够全天候工作。适用于交通监控、安防,以及作为自动驾驶系统中的补充传感器 毫米波雷达的探测距离受到频段损耗的直接制约(想要探测的远,就必须使用高频段雷达),也无法感知行人(行人反射波较弱),并且对周边所有障碍物无法进行精准的建模(对高处物体如标识牌,小物体如井盖、锥桶识别效果不佳)
激光雷达 光波也即电磁波 发射的电磁波是一条直线,主要以光粒子(红外线)发射为主要方法。通过测量激光脉冲的往返时间来确定距离和绘制周围环境的3D点云图 探测精度非常高,能够实现高精度的定位和环境建模 受环境影响较大,光束受遮挡后就不能正常使用,因此无法在雨雪雾霾天,沙尘暴等恶劣天气中开启。也不能穿透固体

端到端的模型趋势

一种宣发的说法:一个无限接近人类司机的自动驾驶系统约需要 10 亿行代码,以人力编写规则,几乎是不可能完成的任务。但端到端模型几乎能实现几乎无上限的规则。从 24 年 5 月 16 日,零一汽车披露其端到端自动驾驶系统的进展,宣称系统复杂度降低 90%,研发成本下降 80%,标注任务减少 90%[3]

端到端自动驾驶系统样例

输入:大部分自动驾驶汽车都装载了相机、Lidar、毫米波雷达等各类传感器,采集这些传感器的数据,输入深度学习系统即可。

输出: 可以直接输出转向角、油门、刹车等控制信号,也可以先输出轨迹再结合不同的车辆动力学模型,将轨迹转为转向角、油门、刹车等控制信号

为了降低训练难度,端到端大模型也需要进行拆分,一般分为两个阶段:

  • 一个阶段解决感知问题(看懂世界-输入为各类 corner case 视频+高清采集数据,通过多模态技术将视觉信号与文本信号对齐输出)
  • 一个阶段解决认知问题(驾驶决策-输入为感知结果+驾驶行为,这一阶段可通过量产车进行大规模定向采集,训练结果类比于捧哏的生成式模型,做续写作文预测任务)
    • 人类驾驶汽车不仅依赖历史感知结果,还更多依赖对未来的判断,老司机往往对未来几秒的交通环境有非常好的预判

如此有两个好处:

  1. 可先独立训练,再进行联合 finetue,降低训练难度
  2. 不同阶段可采用不同的数据,大幅降低数据成本

自特斯拉的FSD V12(没有程序员写一行代码来识别道路、行人等概念,全部交给了神经网络自己思考。V12的C++代码只有2000行,而V11有30万行)放出来后,自24年国内的厂商开始转向营销端到端(End to End)智驾了,也开始集中资源开始猛攻。

FSD V12一出场, 国家又开始对特斯拉这条鲇鱼网开一面,在备案落地上开始大开绿灯

HydraNets-融合多个任务的神经网络架构

FSD的硬件平台由特斯拉自主研发,芯片采用三星14纳米工艺制造,集成了多个CPU、GPU和神经处理单元,算力高达144TOPS。相比较国产车采用较多的高通8155,FSD的硬件平台比8155的GPU和NPU算力和高很多,8155采用7nm制程,一种说法是其GPU算力8T FLOPS,NPU算力4TOPS

HydraNets图像预测

马斯克发现,当输入超过100w个视频后,基于神经网络的自动驾驶系统才开始变现良好。这里真正的门槛就是算力+数据。随着自动驾驶技术的不断进步,自动驾驶可能会迎来ChatGPT时刻,只有投身到智驾的公司,才能进入到科技企业的定位,从不断向制造业车企靠拢的估值泥沼中摆脱出来。

特斯拉智能驾驶

上车难题

云端系统为了处理数以百万计的 clips,一般都采用复杂的网络结构,巨大的网络参数(10 亿或更多),再用成千上万张 A100 进行训练,但车端往往只有很低的算力,功耗也不能高,却要求极高的帧率,极低的延迟,这导致只有经过大规模量化剪枝等提效手段后才有可能上车运行。

这些最难的部分,特斯拉还没公开谈过是如何解决的

当前国内智能驾驶走在前面的华为乾崑ADS3.0和小鹏XNGP,应该都还不是全端到端的解决方案,乾崑ADS3.0实现了决策规划的模型化[3],一方面是监管的原因,一方面车载的算力可能也不支持,但相信一旦有同行趟出路来,以上面的中国优势加产业锚定的举国之力,必然又是迎头赶上,且迎头痛击国际同行,就请时间来见证

数据的难题

  1. 端到端范式下想要自动驾驶识别一些 corner case的处理方式,需要大量数据进行训练,远超过了原始的分任务策略范式。例如想要自动驾驶识别塑料袋是可以压过去的,需要喂数据(传统的占用网络遇到塑料袋时,往往会认为空间被占用),而原来可以人为设计一个塑料袋可以压过去的驾驶策略。塑料袋,泡沫等软性材质是可以压过去的。交警的手势优先级高于红绿灯,救护车是要避让的,这些都属于人类社会的世界知识,都是人类经过长期学习后获得的,一种拿来主义借力方式是引入大语言模型辅助,相当于副驾坐一位见多识广的陪练告知你 corner case 如何处理,但 LLM 的幻觉在车规级来看还非常严重,仍然风险巨大
  2. 采集到的数据绝大部分驾驶行为都是雷同的,大部分都是直行,能用的数据少得可怜。平衡数据的长尾(有效性)和数据的规模(成本)是个问题。除了从海量 clips 中提取有效的特征,从哪些维度统计数据的分布,都需要大量的工作。
    1. 为了解决长尾数据问题,业界也在尝试用 AIGC 技术构造数据
  3. 数据泛化问题,不同车型传感器配置差异巨大,采集的数据往往难以复用,国内车企普遍车型众多,最后可能采了一堆数据放那里没法使用,看起来是数据资产,实际都是存储成本。

数据可能占到端到端自动驾驶开发80%以上的研发成本

纯视觉的问题

视觉解决方案在远端的障碍物如果跟背景颜色相近的话,容易出现识别误差。如果墙上车上有车辆的图案,会出现误差,如果碰到团雾,会出现误差,这些都会造成安全隐患。国内最喜欢吹的 FSD,特斯拉内部邮件也承认了目前只能算L2级。L2级意味着驾驶员必须时刻准备接管转向、制动或加速以确保安全。

国内安全标准很高,多数是融合解决方案,激光雷达点云配合双目 800w 像素摄像头,再加上 3-5 毫米波雷达,加全车 11 个超声波雷达,能在全维度识别固体、气体障碍物,安全角度上远远超过纯视觉方案。自动驾驶是中国必须走在前面的事情,中国牵头做了全球自动驾驶的测试标准,叫 ISO34505,是中国作为联合国自动驾驶工作组副主席的单位来牵头做的,全球大概 20 多个国家参与,主要是中德,中国企业如东风,上汽,比亚迪,蔚来在里面做了很多工作(蔚来开放了 30w 公里的智驾数据源给工作组)。纯技术的公司是华为和百度参与较多。标准的建立是为全球自动驾驶树立一个通用化的衡量标准,会成为后来各国自动驾驶立法的基础。未来进口和中国出口的车辆都要经过这个非常严苛的测试。

纯视觉算法,在我们国家的极端测试下,26 台车只有 23%能过,视觉算法比融合激光雷达的整个成功率低 15%左右。中国新能源车的只能驾驶已经远远走在世界前列,中国城市交通复杂程度比美国高 15 倍左右

2010 年之前95%国产车都在 10w 块以下,现在国产车为什么做得越来越好,大家都喜欢去选择,老百姓愿意为更好的品质而掏钱。奇瑞的星纪元 ET 在比利时,墨西哥,墨尔本,应政府要求不能低于 75w 人民币的,你不想挣这么多,你必须这样挣,要不然它本土企业卖不了。

老牌车企的落后

动力+售后全面超越

汽车方面速度一直是一个硬指标,打造速度与激情的荷尔蒙设定是豪车的拿手好戏,也是豪华品牌的基础

现今豪华车企在三电动技术面前就扛不住了,且绿牌怪瞅着BBA的豪华感累积深厚,直接用科技感即正义的全新美学 + 互联网时代的运营手段把你干碎从动力硬实力到豪华感服务售后层面的软实力都给你把规则改了,尤其是 智能化吊打 BBA

欧洲为啥没落

**可人家老牌车企这么有钱,就不能也搞电动车? ** 这种问题在传统互联网转移动互联网时期,欧洲的爱立信和诺基亚也同问过

从全球领先最终却依然在新技术面前无力回天,要弄懂近20年为什么欧洲出不了超一流科技公司说起:

  • 欧洲太享受和强调劳工权益,且缺少语言和文化的统一,欧洲有27个国家,24种语言,每个国家都有各种严苛法规,扩张阻力太大,风投人才储备技术孵化机构都四分五裂,人才钱都不那么容易流通
    • 中美都是铁板一块,且中美两国人民皆有更强的挣钱意识
  • 守和佛导致造出的电动车都平平无奇,续航动力配置还是智能化都被甩在很多中国新能源车后,想赢着实难

今后的格局

东罗马和西罗马并存,共同卷死世界!

成长的反思

端到端之前,基于规则**(rule-based)。这个路线,特别适合中国的工程师红利**,人海战术,堆人处理各种corner case。在裁员和就业难的背景下,HR和猎头针对智驾工程师的挖角,却剑拔弩张,华为,狠角色,大约有7000人规模。另外,小鹏超3000人,比亚迪快速募集 4000 人。正当卷的火热,“端到端”来了,技术路线变了。特斯拉做端到端的团队在200-300人。这路线不堆人,但掀起另一场军备竞赛——数据+算力。2024年底前,马斯克的Dojo 超算中心总算力要提升至 10 万 PFLOPS,中国汽车行业比较领先的,华为的超算中心是3500 PFLOPS,长安1420 PFLOPS,目前是数量级上的差异。但好在以华为为代表的芯片企业正在步步突破半导体的卡脖子问题,NPU 卡自己能生产。

“卷”,曾经是功大于过,卷出了竞争力,助力了产业升级和突围,但是当中国已经来到这个体量,再卷,就是路径依赖,依赖老方法,一叶障目,就会看不清未来的路。卷到我们的生态底层病了,如今我们想栽创新的苗,但是我们的土壤是病的,这怎么搞?

怎么分配,这就是产业价值观尤其是大公司,一年下来,核心精力是很有限的。

  • 特斯拉,分配给“卖车”这事的核心精力,是有限的,赚钱这事,其实耽误了。按照行业规律,快速多出新车,特斯拉会卖的更好。
  • 工作重心如老是降本增效,扣硬件成本;卷,勒紧裤腰带奋斗,鞭子抽在自己和伙伴的身上,大家咬牙冲啊。这一套东西,过去是对的,有功的。但是当下,已经是中国突围的障碍。

小业靠自己卷,大业靠伙伴[4]。我们很多企业已经成功到自己当行业带头大哥了,要做的是领导好生态,建立健康的、尊重知识产权的产业价值观,兄弟们都有合理的利润,大家一起帮中国想想,怎么汇集顶级人才。未来比拼的不是人才的数量,而是人才的高度和厚度,高质量发展,新质生产力离不开创新的苗。

频繁 OTA 在车上不是好事

有些车主很自豪频繁的 OTA,而我国是禁止频繁的 OTA 的,就是担心车企把一个不成熟的功能放车上拿真实用户去进行采集数据和测试。所以中国的智驾升级没有小版本,大规模更新都是备案推送的。

参考