智能驾驶的中国故事

经典的中国故事,硅谷诞生酷炫吊炸天的高科技,中国不着急,让美国人搞去。我们的特长是搞钱,不见兔子不撒鹰。

激光雷达的人民战争

激光雷达就是这么一个典型的中国故事:美国创新,中国等着,直到有了商业前景,利用中国供应链 + 场景 + 工程师红利 + 牛马加班冲进去,摧枯拉朽,高端科技品干成白菜价,几万美元被卷成几千人民币,卷死了欧美品牌。

  • 2019-2020年,中国新能源车市场突然爆发,中国力量排山倒海而来,傲慢且缓慢的欧美公司,让你见识一下人民战争的汪洋大海。

  • 2019年行业龙头禾赛科技激光雷达平均售价12w人民币,2023年变成了3.2k人民币,还有品牌已经干到千元附近。全球车载激光雷达市占率23年排名前五厂商中,前三都是中国车企,加起来有80%

人类用视觉可行,一部分是因为人类有一颗超强眼睛+超越所有物种的大脑,另一部分是人类没有其它敏锐的传感器了。

但从人工智能的大力奇迹演化路径上,纯视觉方案才有足够的优质训练数据。

端到端的模型趋势

一种宣发的说法:一个无限接近人类司机的自动驾驶系统约需要 10 亿行代码,以人力编写规则,几乎是不可能完成的任务。但端到端模型几乎能实现几乎无上限的规则。从 24 年 5 月 16 日,零一汽车披露其端到端自动驾驶系统的进展,宣称系统复杂度降低 90%,研发成本下降 80%,标注任务减少 90%[3]

端到端自动驾驶系统样例

输入:大部分自动驾驶汽车都装载了相机、Lidar、毫米波雷达等各类传感器,采集这些传感器的数据,输入深度学习系统即可。

输出: 可以直接输出转向角、油门、刹车等控制信号,也可以先输出轨迹再结合不同的车辆动力学模型,将轨迹转为转向角、油门、刹车等控制信号

为了降低训练难度,端到端大模型也需要进行拆分,一般分为两个阶段:

  • 一个阶段解决感知问题(看懂世界-输入为各类 corner case 视频+高清采集数据,通过多模态技术将视觉信号与文本信号对齐输出)
  • 一个阶段解决认知问题(驾驶决策-输入为感知结果+驾驶行为,这一阶段可通过量产车进行大规模定向采集,训练结果类比于捧哏的生成式模型,做续写作文预测任务)
    • 人类驾驶汽车不仅依赖历史感知结果,还更多依赖对未来的判断,老司机往往对未来几秒的交通环境有非常好的预判

如此有两个好处:

  1. 可先独立训练,再进行联合 finetue,降低训练难度
  2. 不同阶段可采用不同的数据,大幅降低数据成本

自特斯拉的FSD V12(没有程序员写一行代码来识别道路、行人等概念,全部交给了神经网络自己思考。V12的C++代码只有2000行,而V11有30万行)放出来后,自24年国内的厂商开始转向营销端到端(End to End)智驾了,也开始集中资源开始猛攻。

FSD V12一出场, 国家又开始对特斯拉这条鲇鱼网开一面,在备案落地上开始大开绿灯

HydraNets-融合多个任务的神经网络架构

FSD的硬件平台由特斯拉自主研发,芯片采用三星14纳米工艺制造,集成了多个CPU、GPU和神经处理单元,算力高达144TOPS。相比较国产车采用较多的高通8155,FSD的硬件平台比8155的GPU和NPU算力和高很多,8155采用7nm制程,一种说法是其GPU算力8T FLOPS,NPU算力4TOPS

HydraNets图像预测

马斯克发现,当输入超过100w个视频后,基于神经网络的自动驾驶系统才开始变现良好。这里真正的门槛就是算力+数据。随着自动驾驶技术的不断进步,自动驾驶可能会迎来ChatGPT时刻,只有投身到智驾的公司,才能进入到科技企业的定位,从不断向制造业车企靠拢的估值泥沼中摆脱出来。

特斯拉智能驾驶

上车难题

云端系统为了处理数以百万计的 clips,一般都采用复杂的网络结构,巨大的网络参数(10 亿或更多),再用成千上万张 A100 进行训练,但车端往往只有很低的算力,功耗也不能高,却要求极高的帧率,极低的延迟,这导致只有经过大规模量化剪枝等提效手段后才有可能上车运行。

这些最难的部分,特斯拉还没公开谈过是如何解决的

当前国内智能驾驶走在前面的华为乾崑ADS3.0和小鹏XNGP,应该都还不是全端到端的解决方案,乾崑ADS3.0实现了决策规划的模型化[3],一方面是监管的原因,一方面车载的算力可能也不支持,但相信一旦有同行趟出路来,以上面的中国优势加产业锚定的举国之力,必然又是迎头赶上,且迎头痛击国际同行,就请时间来见证

数据的难题

  1. 端到端范式下想要自动驾驶识别一些 corner case的处理方式,需要大量数据进行训练,远超过了原始的分任务策略范式。例如想要自动驾驶识别塑料袋是可以压过去的,需要喂数据(传统的占用网络遇到塑料袋时,往往会认为空间被占用),而原来可以人为设计一个塑料袋可以压过去的驾驶策略。塑料袋,泡沫等软性材质是可以压过去的。交警的手势优先级高于红绿灯,救护车是要避让的,这些都属于人类社会的世界知识,都是人类经过长期学习后获得的,一种拿来主义借力方式是引入大语言模型辅助,相当于副驾坐一位见多识广的陪练告知你 corner case 如何处理,但 LLM 的幻觉在车规级来看还非常严重,仍然风险巨大
  2. 采集到的数据绝大部分驾驶行为都是雷同的,大部分都是直行,能用的数据少得可怜。平衡数据的长尾(有效性)和数据的规模(成本)是个问题。除了从海量 clips 中提取有效的特征,从哪些维度统计数据的分布,都需要大量的工作。
    1. 为了解决长尾数据问题,业界也在尝试用 AIGC 技术构造数据
  3. 数据泛化问题,不同车型传感器配置差异巨大,采集的数据往往难以复用,国内车企普遍车型众多,最后可能采了一堆数据放那里没法使用,看起来是数据资产,实际都是存储成本。

数据可能占到端到端自动驾驶开发80%以上的研发成本

老牌车企的落后

动力+售后全面超越

汽车方面速度一直是一个硬指标,打造速度与激情的荷尔蒙设定是豪车的拿手好戏,也是豪华品牌的基础

现今豪华车企在三电动技术面前就扛不住了,且绿牌怪瞅着BBA的豪华感累积深厚,直接用科技感即正义的全新美学 + 互联网时代的运营手段把你干碎从动力硬实力到豪华感服务售后层面的软实力都给你把规则改了,尤其是 智能化吊打 BBA

欧洲为啥没落

**可人家老牌车企这么有钱,就不能也搞电动车? ** 这种问题在传统互联网转移动互联网时期,欧洲的爱立信和诺基亚也同问过

从全球领先最终却依然在新技术面前无力回天,要弄懂近20年为什么欧洲出不了超一流科技公司说起:

  • 欧洲太享受和强调劳工权益,且缺少语言和文化的统一,欧洲有27个国家,24种语言,每个国家都有各种严苛法规,扩张阻力太大,风投人才储备技术孵化机构都四分五裂,人才钱都不那么容易流通
    • 中美都是铁板一块,且中美两国人民皆有更强的挣钱意识
  • 守和佛导致造出的电动车都平平无奇,续航动力配置还是智能化都被甩在很多中国新能源车后,想赢着实难

今后的格局

东罗马和西罗马并存,共同卷死世界!

成长的反思

端到端之前,基于规则**(rule-based)。这个路线,特别适合中国的工程师红利**,人海战术,堆人处理各种corner case。在裁员和就业难的背景下,HR和猎头针对智驾工程师的挖角,却剑拔弩张,华为,狠角色,大约有7000人规模。另外,小鹏超3000人,比亚迪快速募集 4000 人。正当卷的火热,“端到端”来了,技术路线变了。特斯拉做端到端的团队在200-300人。这路线不堆人,但掀起另一场军备竞赛——数据+算力。2024年底前,马斯克的Dojo 超算中心总算力要提升至 10 万 PFLOPS,中国汽车行业比较领先的,华为的超算中心是3500 PFLOPS,长安1420 PFLOPS,目前是数量级上的差异。但好在以华为为代表的芯片企业正在步步突破半导体的卡脖子问题,NPU 卡自己能生产。

“卷”,曾经是功大于过,卷出了竞争力,助力了产业升级和突围,但是当中国已经来到这个体量,再卷,就是路径依赖,依赖老方法,一叶障目,就会看不清未来的路。卷到我们的生态底层病了,如今我们想栽创新的苗,但是我们的土壤是病的,这怎么搞?

怎么分配,这就是产业价值观尤其是大公司,一年下来,核心精力是很有限的。

  • 特斯拉,分配给“卖车”这事的核心精力,是有限的,赚钱这事,其实耽误了。按照行业规律,快速多出新车,特斯拉会卖的更好。
  • 工作重心如老是降本增效,扣硬件成本;卷,勒紧裤腰带奋斗,鞭子抽在自己和伙伴的身上,大家咬牙冲啊。这一套东西,过去是对的,有功的。但是当下,已经是中国突围的障碍。

小业靠自己卷,大业靠伙伴[4]。我们很多企业已经成功到自己当行业带头大哥了,要做的是领导好生态,建立健康的、尊重知识产权的产业价值观,兄弟们都有合理的利润,大家一起帮中国想想,怎么汇集顶级人才。未来比拼的不是人才的数量,而是人才的高度和厚度,高质量发展,新质生产力离不开创新的苗。

参考