Momenta CEO 曹旭东：城市高阶智驾未来五年呈爆发式增长态势

李翊　　2024-10-08 10:31:06

2024年9月29日，全球智能汽车产业大会（GIV2024）在合肥成功举办。Momenta CEO 曹旭东在会上进行了《自动驾驶的可规模化之路》的主题演讲。

曹旭东对行业发展趋势的观察总结出智驾的摩尔定律：其中软件部分会是一个指数级的提升，整个行业的水平两年提升10倍，四年100倍，六年1000倍；硬件的摩尔定律指的是硬件成本在迅速两年减半的速度下降，整个BOM成本两年会减半，在2025年底或2026年初时，实现城市NOA BOM成本可以做到5000块钱左右。正是因为智驾摩尔定律，Momenta预判城市NOA城市高阶智驾未来五年呈爆发式的增长态势，比电动化、新能源化的速度更快。

据曹旭东介绍，Momenta刚成立时就定下一个终极目标，实现规模化的L4。“我们的规模化L4希望上到千万台车、上亿台车，能够在全中国乃至全世界实现可规模化的L4。”曹旭东表示，实现可规模化的L4，最关键的是安全。“至少要实现10倍人类的安全性，而实现规模化L4过程中的关键点在于解决各种各样的长尾问题。”

大会期间，曹旭东就城市高阶智驾、端到端等问题接受了媒体采访，以下为采访实录，有删减。

提问：城市高阶智驾目前主要还是体现在一些高配车型上，但是我们想实现长久的发展需要一定的规模。现在车企也都在打价格战、在降本增效，您怎么看待成本和规模之间的关系？

曹旭东：可能不远的未来，2025年底、2026年的时候，城市高阶智驾就能实现20万以上甚至包括15万以上的标配，标配后面的驱动因素有两方面，我们叫做智驾的摩尔定律。一个是软件的摩尔定律，一个是硬件的摩尔定律。

硬件的摩尔定律就是高阶智驾的硬件的BOM每两年会减半，如果我们回顾一两年之前能够实现城市NOA的话，双Orin-X激光雷达整个BOM的成本可能要到2万多，而现在单Orin-X单激光雷达整个BOM 1万左右就可以了。到2025年底、2026年的话要实现城市NOA的BOM有可能做到4000-5000，5000以内是能够做到的。这是硬件的摩尔定律，可以看到两年减半在快速地下降。

软件的摩尔定律是说产品的体验两年提升十倍，这是行业的水平。行业里面领军企业或者卓越企业进步速度可能更快，可以做到一年提升十倍。比如我们去年后半年到现在提升了不止十倍，我们到明年这个时间点目标也不止提升十倍。可以看到两年至少会提升100倍。产品的体验在迅速地提升，指数级的提升。而硬件BOM的成本会在两年减半，两年减半，这是为什么我们的预判渗透率在较短的五年时间内就会提升到70%-80%。

提问：如何看激光雷达与端到端这两个技术路线？

曹旭东：激光雷达和端到端并不矛盾。

端到端上面完全是可以使用激光雷达的。首先，激光雷达规模化的速度非常快，单位成本在快速降低，所以价格已经变得非常有竞争力了。另外一方面，行业共识是，激光雷达在一些长尾的安全场景，比如说暗光的时候突然有人横穿，夜晚路灯情况下突然有人横穿，效果确实更好。另外，比如说进出隧道的时候，很容易相机过曝，这时激光会有一个光源也可以做到更好的效果。这些情况有激光相比没有激光都能带来安全上的增益。

从行业的趋势来看，我们现在看到的情况是30万以上的车或者25万以上的车激光雷达大概率还是标配，20万左右的车或者10万-20万的车因为有强大的竞品特斯拉在，大家如果再对标特斯拉，包括体验上、成本上，很多车企可能还是会选择不用激光雷达。这是激光雷达和端到端的关系。

提问：端到端会是自动驾驶的终极方案吗？

曹旭东：我觉得端到端仅仅是自动驾驶大模型的开始，不是终点。

熟悉深度学习的人都知道，其实深度学习一开始就是一个端到端的模型。自动驾驶的话，大概是2016年、2017年整个行业刚刚兴起的时候，大家第一个想到的也是用端到端的方案来做自动驾驶。但是当时就遇到了“上限还可以，下限比较低”的问题，所以才逐渐地变成一个分模块化方案。不是说端到端的方案不OK，只是说在那个时间点大家并没有找到一条正确的路径做出来一个好的结果。所以后来更务实地选择分模块的方案。

Momenta在端到端的整个架构探索上比较早，在2020年的时候其实就已经用深入学习的方式去做自动驾驶的规控。现在行业里面发明了一个新词叫两段式端到端。两段式端到端一个叫感知端到端，一个叫规控端到端。如果套用这个概念的话，我们做规控的端到端其实2020年就已经开始了，到2023年上半年就已经成功量产。如果用现在的两段式端到端的话，其实我们两段式端到端量产时间点应该是去年上半年，应该是比较早的，比特斯拉做端到端的方案还要早一年。我们在今年上半年就已经实现了一段式端到端。我们今年高阶智驾的提升速度是非常快的。我们现在水平相比于去年后半年的水平提升了不是只10倍，可能达到小几十倍的水平。

为什么说端到端仅仅是一个开始，我们可以类比整个深度学习。深度学习其实在2012年就已经是一个端到端模型，只是那时候模型的架构还是AlexNet，从2012年到2015年整个模型架构持续升级和演进，到2015年的时候出现ResNet，ResNet再往后渗透到了2018年，那时候出现了Transformer，到最近比如2022年又有了GPT，你可以看到基本上每三年都会有一个比较大的进步。我们的判断，端到端仅仅是自动驾驶的一个开始，未来不管是在端到端的模型架构上，还是在训练监督的方式上，包括训练的数据，再加上自动驾驶大模型，生成一些更多的数据。我们自己平时不太叫我们的端到端，更多说的是我们是一个智驾大模型方案。因为这个大模型可能是端到端的，另外大模型它有无限的升级的可能性和潜力。

提问：目前自动驾驶关于替代人工的讨论比较多，您觉得自动驾驶对于岗位和就业带来什么影响？

曹旭东：我觉得AI更多的是会让人的效率更强。比如Robo Taxi不是100%地去掉人工，它是把人从车上挪到后台，会有一个云端安全员的概念。云端安全员的能力是一个人看十辆车。之前一个人开一辆车，一个人就赚一辆车的钱，之后一个人开十辆车，这十辆车的收入会使得在后台的云端安全员的工作环境会更舒适一些，也会使得云端安全员的收入相应地提升。

不过，可能社会上关于云端安全员的需求总量会减少，相比于现在的司机来说可能会减少到原来的1/10甚至到1/100，释放出来的这些人有没有新的工作机会呢？我相信是有的。

扩展来看，无人驾驶可以理解为给每个家庭提供了一个专职的司机，未来AI可能还会给每个家庭提供一个增值的阿姨、厨师、医生、老师等等。同样的工作方式的情况下这些机器人的背后它可能都会有一个云端的驾驶员，或者云端的操作员。

比如说这个阿姨背后可能就有一个云端的操作员，这个云端的操作员可能在90%的情况都不需要操作，因为机器人靠人工智能就可以做了，但可能有10%的一些长尾困难的问题它仍然需要云端操作员的操作。通过这样的方式他会创造出来很多新的就业的机会，而这些新的就业的机会和前面讲到的自动驾驶的云端是一样，通过AI的方式把一个人的能力放大10倍，他原来可以只开一辆车现在可能开10辆车；原来的阿姨如果每个家庭去跑的话，那可能只能服务一个家庭，但是如果有了机器人再加AI终端的话可能同时服务10个家庭，这样的话生产效率会提升，同时对于个人的收入也会提升。

整个的过程不是一个无痛的，它肯定是一个起起伏伏的过程，但是最终走向的方向我相信一定是效率提升，大家的收入会提升的一个终极的结果。