智能驾驶的中国故事
智能驾驶的中国故事
DiffDay经典的中国故事,硅谷诞生酷炫吊炸天的高科技,中国不着急,让美国人搞去。我们的特长是搞钱,不见兔子不撒鹰。
后发国家最初并不注重创新,因为富裕国家已开发好了必要的技术,且技术可以被授权使用或借来使用。
激光雷达的人民战争
激光雷达就是这么一个典型的中国故事:美国创新,中国等着,直到有了商业前景,利用中国供应链 + 场景 + 工程师红利 + 牛马加班,冲进去,摧枯拉朽,高端科技品干成白菜价,几万美元被卷成几千人民币,卷死了欧美品牌。
-
2019-2020年,中国新能源车市场突然爆发,中国力量排山倒海而来,傲慢且缓慢的欧美公司,让你见识一下人民战争的汪洋大海。
-
2019年行业龙头禾赛科技激光雷达平均售价12w人民币,2023年变成了3.2k人民币,还有品牌已经干到千元附近。全球车载激光雷达市占率23年排名前五厂商中,前三都是中国车企,加起来有80%
人类用视觉可行,一部分是因为人类有一颗超强眼睛+超越所有物种的大脑,另一部分是人类没有其它敏锐的传感器了。
但从人工智能的大力奇迹演化路径上,纯视觉方案才有足够的优质训练数据。
端到端的模型趋势
一种宣发的说法:一个无限接近人类司机的自动驾驶系统约需要 10 亿行代码,以人力编写规则,几乎是不可能完成的任务。但端到端模型几乎能实现几乎无上限的规则。从 24 年 5 月 16 日,零一汽车披露其端到端自动驾驶系统的进展,宣称系统复杂度降低 90%,研发成本下降 80%,标注任务减少 90%[3]。
输入:大部分自动驾驶汽车都装载了相机、Lidar、毫米波雷达等各类传感器,采集这些传感器的数据,输入深度学习系统即可。
输出: 可以直接输出转向角、油门、刹车等控制信号,也可以先输出轨迹再结合不同的车辆动力学模型,将轨迹转为转向角、油门、刹车等控制信号
为了降低训练难度,端到端大模型也需要进行拆分,一般分为两个阶段:
- 一个阶段解决感知问题(看懂世界-输入为各类 corner case 视频+高清采集数据,通过多模态技术将视觉信号与文本信号对齐输出)
- 一个阶段解决认知问题(驾驶决策-输入为感知结果+驾驶行为,这一阶段可通过量产车进行大规模定向采集,训练结果类比于捧哏的生成式模型,做续写作文预测任务)
- 人类驾驶汽车不仅依赖历史感知结果,还更多依赖对未来的判断,老司机往往对未来几秒的交通环境有非常好的预判
如此有两个好处:
- 可先独立训练,再进行联合 finetue,降低训练难度
- 不同阶段可采用不同的数据,大幅降低数据成本
自特斯拉的FSD V12(没有程序员写一行代码来识别道路、行人等概念,全部交给了神经网络自己思考。V12的C++代码只有2000行,而V11有30万行)放出来后,自24年国内的厂商开始转向营销端到端(End to End)智驾了,也开始集中资源开始猛攻。
FSD V12一出场, 国家又开始对特斯拉这条鲇鱼网开一面,在备案落地上开始大开绿灯
FSD的硬件平台由特斯拉自主研发,芯片采用三星14纳米工艺制造,集成了多个CPU、GPU和神经处理单元,算力高达144TOPS。相比较国产车采用较多的高通8155,FSD的硬件平台比8155的GPU和NPU算力和高很多,8155采用7nm制程,一种说法是其GPU算力8T FLOPS,NPU算力4TOPS
马斯克发现,当输入超过100w个视频后,基于神经网络的自动驾驶系统才开始变现良好。这里真正的门槛就是算力+数据。随着自动驾驶技术的不断进步,自动驾驶可能会迎来ChatGPT时刻,只有投身到智驾的公司,才能进入到科技企业的定位,从不断向制造业车企靠拢的估值泥沼中摆脱出来。
上车难题
云端系统为了处理数以百万计的 clips,一般都采用复杂的网络结构,巨大的网络参数(10 亿或更多),再用成千上万张 A100 进行训练,但车端往往只有很低的算力,功耗也不能高,却要求极高的帧率,极低的延迟,这导致只有经过大规模量化剪枝等提效手段后才有可能上车运行。
这些最难的部分,特斯拉还没公开谈过是如何解决的。
当前国内智能驾驶走在前面的华为乾崑ADS3.0和小鹏XNGP,应该都还不是全端到端的解决方案,乾崑ADS3.0实现了决策规划的模型化[3],一方面是监管的原因,一方面车载的算力可能也不支持,但相信一旦有同行趟出路来,以上面的中国优势加产业锚定的举国之力,必然又是迎头赶上,且迎头痛击国际同行,就请时间来见证。
数据的难题
- 端到端范式下想要自动驾驶识别一些 corner case的处理方式,需要大量数据进行训练,远超过了原始的分任务策略范式。例如想要自动驾驶识别塑料袋是可以压过去的,需要喂数据(传统的占用网络遇到塑料袋时,往往会认为空间被占用),而原来可以人为设计一个塑料袋可以压过去的驾驶策略。塑料袋,泡沫等软性材质是可以压过去的。交警的手势优先级高于红绿灯,救护车是要避让的,这些都属于人类社会的世界知识,都是人类经过长期学习后获得的,一种拿来主义借力方式是引入大语言模型辅助,相当于副驾坐一位见多识广的陪练告知你 corner case 如何处理,但 LLM 的幻觉在车规级来看还非常严重,仍然风险巨大
- 采集到的数据绝大部分驾驶行为都是雷同的,大部分都是直行,能用的数据少得可怜。平衡数据的长尾(有效性)和数据的规模(成本)是个问题。除了从海量 clips 中提取有效的特征,从哪些维度统计数据的分布,都需要大量的工作。
- 为了解决长尾数据问题,业界也在尝试用 AIGC 技术构造数据
- 数据泛化问题,不同车型传感器配置差异巨大,采集的数据往往难以复用,国内车企普遍车型众多,最后可能采了一堆数据放那里没法使用,看起来是数据资产,实际都是存储成本。
数据可能占到端到端自动驾驶开发80%以上的研发成本
老牌车企的落后
动力+售后全面超越
汽车方面速度一直是一个硬指标,打造速度与激情的荷尔蒙设定是豪车的拿手好戏,也是豪华品牌的基础。
现今豪华车企在三电动技术面前就扛不住了,且绿牌怪瞅着BBA的豪华感累积深厚,直接用科技感即正义的全新美学 + 互联网时代的运营手段把你干碎,从动力硬实力到豪华感服务售后层面的软实力都给你把规则改了,尤其是 智能化吊打 BBA。
欧洲为啥没落
**可人家老牌车企这么有钱,就不能也搞电动车? ** 这种问题在传统互联网转移动互联网时期,欧洲的爱立信和诺基亚也同问过。
从全球领先最终却依然在新技术面前无力回天,要弄懂近20年为什么欧洲出不了超一流科技公司说起:
- 欧洲太享受和强调劳工权益,且缺少语言和文化的统一,欧洲有27个国家,24种语言,每个国家都有各种严苛法规,扩张阻力太大,风投人才储备技术孵化机构都四分五裂,人才钱都不那么容易流通
- 中美都是铁板一块,且中美两国人民皆有更强的挣钱意识
- 守和佛导致造出的电动车都平平无奇,续航动力配置还是智能化都被甩在很多中国新能源车后,想赢着实难
今后的格局
东罗马和西罗马并存,共同卷死世界!
成长的反思
端到端之前,基于规则**(rule-based)。这个路线,特别适合中国的工程师红利**,人海战术,堆人处理各种corner case。在裁员和就业难的背景下,HR和猎头针对智驾工程师的挖角,却剑拔弩张,华为,狠角色,大约有7000人规模。另外,小鹏超3000人,比亚迪快速募集 4000 人。正当卷的火热,“端到端”来了,技术路线变了。特斯拉做端到端的团队在200-300人。这路线不堆人,但掀起另一场军备竞赛——数据+算力。2024年底前,马斯克的Dojo 超算中心总算力要提升至 10 万 PFLOPS,中国汽车行业比较领先的,华为的超算中心是3500 PFLOPS,长安1420 PFLOPS,目前是数量级上的差异。但好在以华为为代表的芯片企业正在步步突破半导体的卡脖子问题,NPU 卡自己能生产。
“卷”,曾经是功大于过,卷出了竞争力,助力了产业升级和突围,但是当中国已经来到这个体量,再卷,就是路径依赖,依赖老方法,一叶障目,就会看不清未来的路。卷到我们的生态底层病了,如今我们想栽创新的苗,但是我们的土壤是病的,这怎么搞?
怎么分配,这就是产业价值观。尤其是大公司,一年下来,核心精力是很有限的。
- 特斯拉,分配给“卖车”这事的核心精力,是有限的,赚钱这事,其实耽误了。按照行业规律,快速多出新车,特斯拉会卖的更好。
- 工作重心如老是降本增效,扣硬件成本;卷,勒紧裤腰带奋斗,鞭子抽在自己和伙伴的身上,大家咬牙冲啊。这一套东西,过去是对的,有功的。但是当下,已经是中国突围的障碍。
小业靠自己卷,大业靠伙伴[4]。我们很多企业已经成功到自己当行业带头大哥了,要做的是领导好生态,建立健康的、尊重知识产权的产业价值观,兄弟们都有合理的利润,大家一起帮中国想想,怎么汇集顶级人才。未来比拼的不是人才的数量,而是人才的高度和厚度,高质量发展,新质生产力离不开创新的苗。
参考
- 1.易车网 解密端到端背后的数据、算力和AI奇迹 ↩
- 2.CSDN HydraNet—特斯拉自动驾驶强大的人工智能神经网络模型 ↩
- 3.百家号 “端到端”是自动驾驶的曙光吗 ↩
- 4.维科网 “端到端”奇袭:中国内卷到了必须结束的时候 ↩