首页资讯热点聚焦材料市场行情厂家进口出口滚动

首页>热点 > >正文

城市NOA，一场陆地上的“登月竞赛”|环球精选

2023-05-18 18:33:26 来源：面包芯语

2021年4月，一段极狐阿尔法S华为HI定制版在城区复杂场景中自行驾驶的视频刷爆全网。在视频中，车辆灵活地穿梭在路况复杂的城市里，司机全程没有接管。

在此之前，量产车的智能驾驶最高水平，只能做到在高速路上巡航、变道、超车，在低速场景下跟车，占据普通人80%以上出行场景的城市路段，驾驶任务还得扔回给人类。很少有用户愿为如此孱弱的功能付费。

(资料图片仅供参考)

而极狐的这则视频，在一片“华为牛逼”、“Demo而已”的弹幕对垒中，勾勒出了一副真·智能汽车的景象：乘用车在城市中实现点到点的自动驾驶，过程中只需很少的人类驾驶员接管甚至零接管。

对大多数行业外的中国人来说，这是他们第一次感受到自身能力被智能驾驶汽车挑战。

而在行业内，城市NoA（城市高阶智驾）的暗战已经开启，包括华为、小鹏在内的多个国内团队立项，尝试将其落地成一个可以交付的产品。两年时间中，造车新势力，传统车企的智能电动汽车品牌，智能驾驶供应商，不断有企业加入战局。

今年，城市NoA的竞逐在极短时间内，从水下进入白热化。十余家车企与供应商齐声宣布将在今年开启城市NoA功能量产。

这背后，一场行业的集体共谋，一次技术范式的全面革新，一个史无前例的超级工程，已然接连拉开序幕。

在智能汽车的叙事中，城市NoA被认为是通往自动驾驶的最后一块拼图，也是技术与商业的高地。

技术上，足够难的城市场景能够倒逼智驾能力进步，赋能其他场景；商业上，能解放80%行车时间的功能，将会成为车主愿意付费的刚需，让智能驾驶商业闭环成立。兵家必争之地，势必吸引来各方势力向其发起冲锋。

而在之前，冲向高地的最短路径是，硬件堆料。

2021年，小鹏尝试在搭载英伟达Xavier的P5上实现城市NoA（小鹏内部称为CNGP），但30T的算力很快成为天花板，团队必须进行大量算法适配与优化工作。小鹏智驾团队后来将这段经历看作他们的“工程地狱”，并在第二年转入G9高配车型的计算平台开发，后者算力为508T。

高阶智驾的硬件军备竞赛在去年达到顶峰。

然而，拼硬件参数行业风风火火，讲功能落地大家唯唯诺诺。

去年一年，仅有华为（极狐/阿维塔）、小鹏在少数城市开通了试点性质的城市NoA，无论是车企还是消费者，对这样的进度都难言满意。

高精地图在今年被推到台前充当罪魁祸首。

4月中旬，在问界M5智驾版发布会上，余承东透露，如果要做有高精地图的城市智驾全域覆盖，上海需要采集3.6万公里道路高精地图，但直到目前也只采集了2.2万公里，并且道路在持续变化。

在此前的高阶智驾技术栈中，高精地图提供了上帝视角与先验信息，能够为智驾车辆提供指引、为其感知系统减负。但囿于成本、技术和强监管，其采集与更新速度赶不上趟，拖累了车企高阶智驾进城的步伐。因而在今年，车企们开始集体抛弃高精地图（具体可参见我们的文章，高精地图红与黑：从智驾必备到车企累赘），卷向重感知、轻地图城市NoA。

随着上海车展的临近，这场竞赛陡然提速。

1个月之内，小鹏、华为、理想相继公开城市NoA规划：小鹏今年下半年将在无图城市实现自动变道超车与左右转，华为年底将在45城实现无图城市智驾，理想将这一数字提升至100城。蔚来、智己紧随其后，连以蔑视智驾著称的比亚迪都开始集结重兵。

一大批智驾供应商也摩拳擦掌，低算力需求的方案是他们争夺订单的利器。在他们口中，无图城市NoA的算力门槛，可以降到254T（Orin X），128T（地平线J5），乃至80T（大疆车载方案）。这些方案基本会在今年登上量产车。

在行业集体奔涌的热潮中，乐观的声浪一波接着一波：这将是城市NoA的大规模量产元年。

冷静的声音显得稀缺而寂寞。

3月底，在电动汽车百人会上，地平线创始人余凯劝诫行业保持理性：“目前L2++城区NOA还存在技术挑战，基本几十公里就需要接管一次，在研发上至少三年才会有较好的进展，因此到2025年时高速NOA仍会是量产主力。”

但没人愿意克制，包括余凯的合作伙伴和客户们。

今年3月，原本以L4自动驾驶为主营业务的轻舟智航，发布了基于单片地平线征程5的城市NoA方案，计划今年量产。地平线的重点客户理想，也在加速测试验证城市NoA功能——CEO李想带头成为001号测试用户，而在旅客客流创下近年纪录的五一假期，其智驾团队选择了加班冲刺以保证进度。

今年，伴随ChatGPT的大火，泛人工智能领域的竞争再度升级，具体到智能驾驶行业，所有人都在关注特斯拉的节奏。今年初，特斯拉向北美用户全量推送了FSD（Full Self-drving，实为高级辅助驾驶）。“FSD入华在即”的传言随即频繁响起，百度智能汽车事业部总经理褚瑞松认为，FSD会在2024年进入中国，并在2025年规模化开放。

没人愿意赌FSD是否会涌现成为智能驾驶的ChatGPT。在一定程度上，ChatGPT与城市NoA现在的技术栈同源，它们都采用了眼下让整个AI行业沸腾的神经网络模型，Transformer，名自变形金刚。

而在汽车行业，特斯拉最先将Transformer应用于量产车智能驾驶，比其他人早一到两年。

2021年8月，特斯拉举办的第一届 AI Day打响了如今城市NoA竞速赛的发令枪。

在那次AI Day上，特斯拉发布了基于Transformer的BEV（Bird Eye View，智驾车辆在鸟瞰视角下的环境感知建模），这项技术让智驾汽车的感知能力脱胎换骨，如今几乎被所有无图城市NoA方案采纳。

在此之前，量产车辅助驾驶的感知算法模块主要运行卷积神经网络CNN，其主要工作是一帧一帧地对图像进行分类、识别、追踪，将感知结果交由下游决策、规划、控制等模块。

作为已经商业化应用超10年的神经网络，CNN成熟、易用，但构筑在CNN基础上的智驾感知天花板也十分明显——

在它的世界里，空间是二维的（缺少“距离/深度”维度）、时间是断裂的（感知系统缺乏上下文记忆），各个传感器是各自为政的（各传感器时空坐标系不同，导致数据融合困难）。如果以人类作比，这将是一个双眼散焦、“声画不同步”且注意力时刻涣散的糟糕驾驶员。这是辅助驾驶此前只能胜任简单场景的重要原因。

而特斯拉最早意识到，Attention is All You Need。在2021年夏天，特斯拉团队在连续试错后，选择了这样一条技术路径：

设计更庞大、更复杂、参数更多的感知算法模块，利用Transformer的注意力机制，将各个传感器统一到同一个连续的四维（三维空间+一维时间）时空中。车辆进行驾驶决策的基础，不再是健忘症看二维图像，而是正常人看流畅三维视频——智能驾驶迎来了一次“时空观”的飞跃。

上图为基于CNN的二维感知，下图基于Transformer的BEV感知

一个高度巧合的例子是人类婴儿的成长。刚出生的几个月里，婴儿眼中的世界与成人有明显区别，他们无法理解深度，也缺乏空间记忆。但大约在半岁的时候，随着看过的物体越来越多，大脑中神经突触间建立的联系爆炸式增长，婴儿会开始“涌现”出视觉深度的概念和对被遮挡物体的记忆。

然而，婴儿只能慢慢成长，智能驾驶则在开挂进化。

2022年，特斯拉在新一届AI Day上推出了能够检测通用障碍物的Occupancy Network占用网络。同年，国内新势力车企相继完成了激光雷达的批量装车，智驾车辆的感知能力变得前所未有地强大，近乎成年人类——众所周知，人类开车并不需要高精地图。

由此，伴随着Transformer+BEV、占用网络的声名渐响，系统感知能力的史诗级提升，智能驾驶摸索出一条可以大规模、批量化进城的道路——大模型。西风东渐，国内企业纷纷跟进，高精地图逐渐从智能驾驶的小甜甜变成了牛夫人。

（关于高精地图的生死去留，其实远比一刀切地扔掉要复杂。后续我们将推出相应文章，欢迎添加微信讨论）

只不过，与技术的大跃进一同到来的，是骤然拉高的门槛。

无论是对特斯拉还是对其他企业，大模型都是一枚沉甸甸的硬币。

正面，是智驾系统上限的提升，反面，则是智驾整个体系架构的更改，形式上不能完全说推到重来，但工作量与难度绝对是超级加倍。

原因并不难理解：基于相对轻量CNN的二维感知，升维到了基于Transformer的四维感知，升维的条件是，需求的数据与算力指数级增加，智驾数据收集、云端算法训练、车端算法部署三个重点环节需要全部革新。

一个AI行业的热知识是，Transformer对数据规模有硬性要求，如果数据量达不到要求，其性能反而会比CNN更差。因此，向Transformer切换的前提是，能获得足够的数据喂养它。

对此，智驾车辆保有量高的车企往往有更大优势，但实际上，智驾功能激活后的行驶里程才是真正的关键数字，这些里程中捕捉到的那些系统应对不佳的瞬间，被行业称为Corner Case，才是更有价值的数据，它们是智驾系统的“错题本”。

对这些数据进行标注仍是刚需，但数据形式切换后，纯人工标注无力应对上万小时的视频以及人眼并不熟悉的点云，这必须启用半自动/自动化标注——在接稳方向盘之前，神经网络会先取代数据标注员。

这只是开始。因为收集更多、更高质量的数据是一码事，用它们训练出足够强大的模型则是另一码事。

一方面，在向大模型切换后，由于数据从图像为主转向了视频流为主，其体积呈幂次方膨胀，将达到PB乃至EB级别（1EB=1000PB=1000000TB）。

另一方面，基于Transformer的智驾大模型结构空前复杂，其训练模型参数量通常上百亿乃至上千亿，比如毫末智行的智驾模型总参数量就达到1200亿。

在海量数据中训练海量参数的大模型，需要的是天量算力，只有大型云计算中心才能胜任。

在2022年，特斯拉为了训练占用网络，使用了14.4亿帧视频数据，数据量超过30PB，需要10万个A100 GPU训练小时。

而其自研的DOJO超算仍处于开发状态，为应对快速膨胀的数据处理需求，特斯拉去年将其最大的GPU超算集群提升至7360张A100 GPU，这些GPU总算力将近2.4 EFLOPS。这在当时是全球第七大GPU超算集群，仅硬件成本就超过1亿美元。

由于自建算力成本过于高昂，国内企业大多选择与云服务大厂共建云计算中心。

在已经公开信息中，小鹏与阿里云在乌兰察布共建了600PFLOPS超算——对应约2000块A100，毫末智行与字节火山引擎共建了670PFLOPS算力，理想出于供应安全拒绝透露自身拥有的云端算力数据，但表示在国内车企中领先。

小鹏与阿里云共建的智算中心

更多国内智驾企业没有披露自身掌握的云端算力。但游戏规则对所有人都适用：算力不够，则训练更慢，算法迭代更慢，被竞争对手拉开差距的可能性就越大。

而在算法训练之后，最难的部分在于算法部署——在云端，训练算法的算力可以通过堆叠数千乃至上万块GPU获得，对实时性并不敏感；但在车上，算法必须实时推理，而运行神经网络的芯片只有一两块，算力通常在数百T。

并且，车端目前的智能驾驶芯片，并不是为Transformer准备的。

由于CNN仍在智能驾驶中占绝对支配地位，市面上已量产的智驾芯片，其计算架构几乎都为适配CNN高度特化。表现在硬件上，芯片普遍内建大量相同的MAC阵列（一种适合并行计算的运算单元），对CNN进行硬件加速；在软件上，芯片主要支持CNN使用的算子（可粗略理解为计算公式）。

然而，相对于更轻量、简单的CNN，Transformer不仅仅是模型更宽、更深、参数更多，其算子复杂度也更高，计算单元需要频繁地从存储单元中存取数据与指令——要运行这样的算法，芯片不仅算力要更大，存储与带宽性能要更强，还要同时具备较强的串行与并行计算能力，支持更多元化的计算类型。

算法快速演进的结果是，“英伟达对Orin在软件层面做了大量的优化与弥补，但本质上并没有解决硬件加速的问题”，理想汽车自动驾驶副总裁郎咸朋告诉我们。同样的情况对其他智驾芯片企业也大致成立。

芯片企业试图尽力满足变化的需求，英伟达去年发布了舱驾一体芯片Thor，地平线则在上海车展期间推出了下一代智驾芯片架构纳什。它们都有更大的算力，更强的带宽/存储，更均衡的计算能力，对Transformer有更好的硬件级支持。

这些芯片量产上车的时间将在2025年乃至更晚，但车企们等不及。

地平线下一代智驾芯片架构

在更强大的芯片问世前，车企、供应商、芯片公司必须在软件上加倍努力，将复杂的算法压缩到条件有限的芯片上。一个有能力将Transformer轻量化部署的团队，此时将表现出更强的竞争力。

大疆车载今年公开表示，有能力在80T算力平台上实现城市NoA。而此前行业传闻称，大疆车载已经获得比亚迪城市NoA项目定点。

高阶智驾通向城市的道路上，大规模、高质量的数据收集，天量算力下的算法训练，资源受限下的算法部署，环环相扣，又难度递增。

如果要保证体验领先，这对一家车企的要求会是：在台前，有一个强大的产品与销售团队，打造并卖出了一大批智驾功能保持常驻的车队，以收集有效数据；幕后，需要一个质量极高的智驾团队，一边自行打造部分不成熟的工具，一边搭建起一条高度自动化的数据管线，对算法快速迭代。

这将是一场名副其实的销金游戏。李想今年三月在公开演讲中表示，要做好城市NoA，投资要20亿美金起，有不少公司会在中途选择放弃。

2022年7月，特斯拉人工智能高级总监Andrej Karpathy选择离职，并在今年2月回到了Open AI。他的离职在业内引发了一阵不小的轰动，数家国内车企的智驾负责人发文回顾他的贡献，连马斯克也罕见地送出顶格彩虹屁，“与你共事是我的荣幸。”

任何一个怀有AGI理想的人都难以抗拒Open AI的吸引力。这里有微软提供的数万块GPU，已经训练出了GPT4，后者在多项技能测试中超越了大多数接受过高等教育的人类，而后续还会有更强大的GPT-5——顶级天才们有机会在这里成为硅基生命的上帝。

并且，活在物理世界的人类对活在赛博空间的ChatGPT仍有着极大的宽容度。

即使是持续地胡说八道，ChatGPT也可以谦卑地认错并取得使用者的谅解，因为它在物理上并不会对使用者造成即刻的影响（尽管它正在全球各地迅速消灭相当一部分人类赖以生存的岗位）。

相比之下，人们对智能驾驶汽车则严格得多，因为一个错误的输出可能就会让车辆径直撞向路边。过去五年，全球媒体没有放过任何辅助驾驶伤亡案例，特斯拉首当其冲，蔚小理也相继被推上过风口浪尖。

不对等的责任与前景，让行业已经出现AIGC吸引智能驾驶人才转行的迹象。毕竟，在前者的工作像是充当下一个世代的造物主，而在后者的工作，则更像是在众人的密切注视下，翻越一座比一座高的大山。

面对还看不见终点的征途，付出真金白银的用户与顶级人才团队都急需确切的目标和时间节点。

企业们纷纷许下诺言，随着系统能力的提升，驾驶员接管车辆的次数将会越来越少——马斯克会不时在推特上宣传一些零接管的智驾体验，小鹏计划2025年实现城市NoA百公里小于1次接管的目标，华为则声称其高阶智驾系统ADS2.0的平均人工接管里程已经从100km提升到200km。

但当下的现实是，人们对城市NoA需求最确切、最能减负的场景，如复杂十字路口通行（含转弯、掉头）、早晚高峰/节假日拥堵，仍然是智驾系统的弱势场景。

在我们体验过的城市NoA功能中，一旦上述场景叠加车流密集、人车混行等路况，系统的应对将变得不稳定，此时无论是出于安全还是效率考虑，都更适合人类接管。

美好许愿与现实的落差之间，是城市NoA接连不断的工程挑战。

一个事实是，即使是Transformer、BEV和占用网络这些让业界竞相追逐的突破，目前主要解决的仍是智驾车辆的感知问题，在完整的智能驾驶技术架构中，这之后还有依旧困难的决策/规控环节。

在城区的复杂交通流下驾驶，需要建立对不同类别交通参与者的交互策略，理解人-人、人-车、车-车关系，作出预判、进行博弈、即刻修正。只是截至目前，尚无任何企业的城市NoA功能可以普遍而连续地做到这一点，这仍是老司机的专属技能。

一些企业选择彻底皈依大模型——他们正在用神经网络取代基于规则的决策/规控算法，利用大模型涌现出来的常识与推理能力，让智能驾驶表现得更像老司机乃至超越人类司机。

智驾系统所有算法都交由神经网络负责的方案，行业称之“端到端”，理论上它将有更强大的适应性与性能上限。

特斯拉在这条道路上一马当先。目前特斯拉的FSD算法绝大多数已经神经网络化，根据马斯克画下的饼，FSD V12将更进一步，实现端到端的智能驾驶，只是时间未知。

更多企业对端到端仍充满顾虑——这将把智能驾驶整个系统“黑盒化”，缺乏可解释性，对问题的追溯与修正将变得困难。

小鹏智驾负责人吴新宙与理想智驾负责人郎咸朋都认为，端到端的方案在一段时间内都将处于技术探索而非实用的状态。吴新宙要求团队，能用数学方法解决的问题，就不用深度学习。

不过，神经网络在智能驾驶算法中占比越来越高的趋势已难以逆转。

小鹏与理想的智能驾驶产品经理都放出风声，两家企业将在今年上线的城市NoA功能中，上线基于神经网络的预测算法，这将显著提升智驾车辆在城市道路的博弈能力。

然而，现实的复杂度依然远超神经网络的拟合能力。

小鹏的智驾产品经理在分享时提到，他们发现一套智驾算法原封不动地去适应每个城市不太可能。比如，上海是立体化的城市交通，有大量会对视野和定位造成干扰的高架桥；广深则可能有更多行为难以预测的行人与电动车。因此，在进入一个城市之前，算法会针对性地吸收当地数据进行小比例地微调。

而特斯拉那些令人惊叹的FSD全程无接管视频，也大多出现在大本营湾区，而不是纽约的曼哈顿。

这意味着，城市NoA的扩张计划会是一场持续且绵长的开城活动，而不是北上广算法团队一阵加班，车辆就能在千里之外的二三线城市齐刷刷开通功能的“Coding Changes World”式浪漫故事。

工程的世界里没有银弹。

早两年，智能驾驶行业有过攀登珠峰南坡还是北坡的争论——选择从辅助驾驶到自动驾驶的渐进式路线，是攀登稍微平缓的南坡；选择直接突破L4自动驾驶，是挑战陡峭的北坡。

后来随着特斯拉证明渐进式路线更能规模化，争论偃旗息鼓，似乎所有人都看到了一条最终通往自动驾驶的可行路径。然而，当高阶智驾要真正大规模进城，无论是从南坡出发的企业还是由北坡改道南坡的公司，都会直面严肃的问题：他们的任务难度远远不是登山，而是登月。

作为能对物理世界即刻造成影响的人工智能，城市NoA将要对抗沉重的现实引力：它们不止是性能、成本、可靠性的不可能三角，还有人机共驾过程中艰难的用户期望管理、几乎不可避免的伤亡，以及相应的强力监管。

对所有城市NoA的参与者来说，坏消息是，他们将要挑战的，很可能是民用工业有史以来复杂度最高、约束条件最苛刻、实现难度最大的超级工程。

—END—

标签：

市场

行情