回看自动驾驶十年，回答毫末智行DriveGPT是怎样炼成的？-邻章的专栏

回看自动驾驶十年，回答毫末智行DriveGPT是怎样炼成的？

2023-02-22 20:04:58栏目：科技 IP属地：IP未知

文｜邻章

“人们总是在短期高估一两年时间取得的成绩，而低估了五到十年能够取得的进展。”

1997年，IMB的深蓝打败俄罗斯国际象棋大师卡斯帕罗夫。

2016年，谷歌Deepmind的AlphaGo打败了人类围棋九段高手李世石。

2023年初，ChatGPT彻底火爆全球，引发大众狂欢，比尔盖茨的这一判断被一再验证。

大众的狂欢非常容易理解，因为AI的每一次出手都超过了大众心理预期。同时人们也很容易将人工智能捧上神坛，甚至很多乐观者认为“奇点”将至，悲观者又认为AI替代人类已近在咫尺。

人工智能是一个长周期回报的技术。

过去数十年间，AI技术经历了由专家系统、知识图谱到机器学习，再到深度学习，以及直到今天的大模型阶段。每一次技术跃迁的时间虽然在缩短，但仍然是一个需要前期积累、长期投入的过程。

自动驾驶，这个被誉为人工智能王冠上的明珠，正是随着2012年深度学习技术的突破，才真正迎来产业化的可能。从过去十年进程来看，自动驾驶同样呈现出技术长周期的特征，并不会因为商业、资本、大众的期望而立即实现或者因为遭遇挫折而停滞不前。

一、你有你的计划，我有我的节奏

经过十年技术的演进，自动驾驶迎来这样一个新阶段。

首先是自动驾驶的算法训练正在从深度学习早期的CNN等神经网络模型转向以Attention注意力机制为特征的Transformer大模型的使用，自动驾驶在感知、认知乃至极端场景的仿真训练、大规模数据标注都有大模型参与其中。

其次是围绕大模型训练的云端算力平台，以及与车端多模态、多数量、高质量传感器以及车端算法适配的高算力计算平台也已经纷纷落地，从理论上已经可以支持完全自动驾驶级别的算力要求。

再次是乘用车辅助驾驶迎来爆发期，大规模多传感器、高算力车型的量产落地，使得“数据驱动”技术升级形成闭环，为自动驾驶算法和算力提供了源源不断的燃料。

十年为期，这一数据闭环是如何发生的？

这几乎是留给自动驾驶从业者的最后一道大题了。

目前，行业里优秀的答案，就是特斯拉的Autopilot和FSD。

尽管行业对特斯拉自动驾驶的故事已经非常熟悉，但这里仍然可以提纲挈领地总结几点成功经验。

首先是Autopilot软硬件系统的快速迭代，确保了特斯拉车型实现规模量产的同时，其车端AP系统的数据积累能够保持同样的高速增长。

而且从Autopilot2.0起，其感知系统就标配了8颗摄像头，确保了采集数据的一致性。为后面数据处理的成本打下基础。

其次是特斯拉车端高端算力芯片的预埋和超算中心Dojo的建设。特斯拉不仅自研了FSD车端大算力芯片，而且实现了车端的预装，并通过软件售卖的模式来实现商业化。这一举措无形中确保车辆具备了实现高阶辅助驾驶的能力。

同时，特斯拉在近两年加快了超算中心的建设，来进一步处理数十亿公里的辅助驾驶的行驶里程数据。这奠定了特斯拉自动驾驶技术的基础设施。

第三就是特斯拉对以Transformer大模型为代表的最新AI技术在自动驾驶上的探索和应用。从连续两年的AI DAY看出，特斯拉找到了让视觉感知能力快速提升的方法，尤其是基于Transformer实现的BEV感知空间，如今已成为当前自动驾驶感知的主流。

简单理解BEV的优势，就是基于BEV空间下的感知结果与决策规划所需的坐标系统是统一的，感知和下游的联系得到进一步增强。

但很快，特斯拉从2D的BEV空间快速提升到带有时序特征的信息，使得FSD系统获得帧间连续的感知结果，从而获得了应对视野盲区和遮挡的能力。

而到去年，特斯拉又带来了Occupancy Network，使得BEV感知又在高度方向进一步扩展，最终形成了带有4D（时序+3D栅格）结构的场景。通俗讲，这就几乎使得自动驾驶的感知系统实现向人类视觉一样的立体视野，可以更好地预测一般障碍物和运动障碍物的意图、速度等信息。

总之，特斯拉的技术路线以及量产模式为全球自动驾驶行业打出一个“样板”。

二、特斯拉的模式是可以复制的吗？

事实上，是可以的。

如果盘点中国自动驾驶行业，我们可以发现一家非常典型的“特斯拉”路线的自动驾驶公司——毫末智行。

今年初，毫末智行有两个动作，一个是发布了自动驾驶行业最大的智算中心，另一个则是发布了自动驾驶版的ChatGPT，毫末称之为“DriveGPT”。

DriveGPT实际上是毫末在自动驾驶认知大模型上的成果，其核心是基于真实人驾数据，特别是将人驾接管数据引入大模型当中，持续优化自动驾驶的认知决策模型。

为什么DriveGPT也能称之为“GPT”呢？

首先，GPT是一个大规模的通用预训练大模型，而DriveGPT正是采用了与ChatGPT一样的具有Attention注意力机制的Transformer架构的大模型，其特点是随着模型参数规模、数据规模增加以及训练方法的提升，模型算法的效果也稳步提升，适应性更好。

其次，DriveGPT与ChatGPT一样，都使用了通过人类反馈的强化学习算法RLHF，都会基于真实数据来训练奖励模型（reward model），最终得到最优结果。不同的是，ChatGPT使用的是人类的语言文本，而DriveGPT使用的是人驾数据。

最后，DriveGPT也和ChatGPT一样，都属于生成式模型，都是基于历史序列预测未来序列，从而能够完成下一步的预测与规划的决策输出。

据透露，毫末目前已经完成DriveGPT的模型搭建和第一阶段数据跑通，现在的参数规模可以对标GPT-2的水平。

事实上，对于毫末智行这样一家自动驾驶初创公司，能够在ChatGPT这种超大模型应用推出之前，就已经开始对于大模型的应用，其技术布局和落地进度已经远超行业认知了。

三、毫末智行是如何将“DriveGPT”练成的？

我们其实可以从刚刚对自动驾驶技术长周期的探索中找到回答这一问题的线索。

第一，毫末用最快速度和最短时间实现了智能辅助驾驶产品的规模量产，同时打通了数据闭环。

要知道，毫末智行仅仅是一家才成立三年多一点的科技公司。入局时间已经是自动驾驶行业跌宕起伏，行至中局的节点。好处是毫末可以避免前面自动驾驶公司踩过的坑，毫末坚定地选择了乘用车辅助驾驶赛道，走渐进式路线，依托长城量产优势，快速实现了L2辅助驾驶的规模落地。

同样，劣势也摆在那里，就是留给毫末进行市场验证的机会没有太多。因此，毫末快速投入了产品的迭代，在21年初推出HPilot1.0之后，很快就推出2.0和3.0产品，并且在3.0产品上实现了类似特斯拉FSD的飞跃式的换代。

依托1.0和2.0的量产，毫末已经积累了3300多万公里的辅助驾驶里程，并且从官方公布数据来看，已经取得中国各大县市的城区、城市快速路和高速的大规模、多样性的数据。这里应该就包括大量的感知数据和真实人驾数据。

我们也知道，毫末一直以来对外技术布道的一点就是率先推出中国首个自动驾驶数据智能体系MANA。大力投入这一体系建设的目的就是加快数据的使用效率，降低数据使用成本，从而实现毫末所说的“数据驱动”。

第二，毫末以非常前沿的技术视野，率先展开对新型的人工智能技术的研究，并且真正推动这些技术在自动驾驶算法上的落地。这一点几乎可以是与特斯拉同步的。

从媒体总结的这张图来看，其实就能看到毫末与特斯拉在技术路线上的“异曲同工”。

根据公开资料，毫末从2021年7月，就开始启动对Transformer的研究和落地尝试，成为中国第一家应用Transformer的自动驾驶公司。

在22年9月的AIDAY上，毫末已经表示可以借助Transformer实时建模能力，对多模态融合感知数据进行数据前融合，搭建具有时序特征的立体场景，让自动驾驶系统具有强大实时感知能力，在城市环境中不依赖高精地图的情况下，实现应对道路模糊、复杂路口、环岛等道路感知挑战。

到今年的1月份，毫末已经在自动驾驶各个领域，都在进行基于Transformer结构的大模型的搭建，而且一次发布了五个。

其中，在数据处理上，基于视觉自监督大模型，可以实现对多模态感知数据的大规模自动标注；基于3D重建大模型，可以实现数据生成，通过仿真模拟极端场景，提升感知效果。

在感知端，基于多模态互监督大模型，可以完成一般障碍物以及通用障碍物的识别，更好地提升感知能力；基于动态环境大模型，可以更精准预测道路拓扑关系，帮助车辆更稳定、合理地规划行驶路线。

在认知端，毫末人驾自监督认知大模型，引入了基于数千万公里的真实驾驶行为数据做预训练，可以使得驾驶策略更加拟人化，同时引入了司机接管数据来不断修正驾驶策略，提升驾驶水平，不断接近优秀人驾水平。

此次升级的DriveGPT正是这一人驾自监督认知大模型的落地应用，接下来DriveGPT会作为云端测评模型，用来评估车端小模型的驾驶决策效果。

第三就是毫末对自动驾驶新阶段自动驾驶技术趋势以及新阶段基础设施的提前布局。

实际上，毫末也在其AI DAY和行业大会上，多次表达了对自动驾驶技术演进趋势的看法。

也就是现在自动驾驶行业正在从小规模数据、小模型的软件驱动的2.0时代向大规模数据、大参数模型为代表的数据驱动的3.0时代的跨越阶段。

毫末实事求是地将自己定位为“3.0时代的冲刺者”，意味着大模型的探索和布局只是一个开始。

毫末CEO顾维灏曾在去年表示，当前，为应对3.0时代的挑战，整个自动驾驶行业要努力解决这三个问题：

1、通过建设智算中心和优化训练效率，降低大模型的云端训练成本；

2、通过改进车端芯片，定制Transformer专用加速芯片来提升计算效能；

3、通过改进车端模型，通过轻量化模型来提升计算效率。

这些问题会考验很多的从毫末最近公开演讲来看，毫末已经在提出自己的方案。

为打造云端的低碳算力。毫末推出了自动驾驶的第一个智算中心，算力高达 67亿亿次/秒。通过一系列的训练框架、性能、通信等优化，可单机实现训练100亿参数规模的大模型的能力，同时执行多任务、多模态并行的训练，大幅提升计算效率。

在车端，毫末在探索和关注更适合具有Attention特点的轻量化模型和Transformer加速芯片，减少车端模型的计算量、耗能，同时增加计算效率，从而实现大模型在车端的应用。

总体看，毫末找到了自己通向自动驾驶终局的“通路”。通过量产辅助驾驶的规模量产，积累海量数据，回到云端大模型实现数据的处理和算法的训练，然后，再经过算法的优化和车端部署，实现更好的产品效果，完成数据闭环，形成毫末特色的技术路线。

这是毫末坚定地冲刺自动驾驶3.0时代的勇气所在。

后记：旁观无解，唯有“过河”

看到这里，我们其实对自动驾驶技术的演进逻辑，应该有了一个清晰的认识。

技术的创新从来不会在一夜之间到来，不会像阿拉伯神灯那样许下心愿就可以实现；技术的突破也不会在遇到难关之后就止步，这又不符合人类认知的经验。

人工智能技术本质是什么？它是一种对于人类智慧的模拟地计算，是通过人工系统的方式去模拟人类神经系统的神秘莫测的运作。

自动驾驶本质又是什么？人类驾驶只不过是人脑当中一种非常基础的能力，人一旦学会操控驾驶系统，大脑就很容易进入一种《思考快与慢》当中的“系统1”的运作状态。

如此类比，自动驾驶其实是人工智能较为初阶的应用场景，在今天仍然需要无数聪明的头脑殚精竭虑地去攻克一个又一个智能难题。

而这个解谜的过程，其实别无他法，只能躬身入局。

对于很多站在自动驾驶蓝海岸边的等待者和批评者，我们可以一起回忆下孩童时学过一个叫《小马过河》的寓言故事。

对于自动驾驶，就像故事中的那条河流，它既不会深到难以逾越，也不会轻而易举就能渡过。

它自有其生长的节奏。我们要亲自“过河”。