21对话|卓驭陈晓智:用有限算力做极致性能,这是我们血液里的东西
21世纪经济报道记者 焦文娟 报道
自比亚迪将驾驶辅助下放到7万级市场后,主机厂追逐智驾上车,供应商频频走向台前,车市掀起智驾热潮。
与市场其他智驾方案供应商相比,卓驭科技是一位典型的追求“价性比”玩家,即用低算力实现更极致的驾驶辅助功能。
去年3月,卓驭科技(原“大疆车载”)提供的7V(7摄像头)+32TOPS配置已经开始成为8万~15万元级别车型标配,最低8万元车型就可以具备城市记忆领航、高速领航驾驶等功能,彼时的量产车型已经包括宝骏云朵、iCAR 03。
与市场相比,要实现城市记忆领航、高速领航驾驶等功能,车企和智驾方案供应商们的方案通常基于英伟达Orin-X芯片平台,至少需要254TOPS算力。
“今年卓驭的重点还是把极限算力落地,在有限硬件、有限算力上做极致的功能和性能。”卓驭科技首席AI技术官陈晓智告诉记者,“这是我们血液里的东西。”
卓驭科技(下称“卓驭”)的极致成本控制能力体现在自研硬件和软件两方面,他们将自己定位为软硬一体的供应商。
在硬件成本上,以上海车展推出的知周补盲雷达为例,其成本能控制在千元以内。在软件方面,通过自研模型,卓驭也降低了成本。
这些能力的锻造来自于“大疆车载”时期的积累。
没有独立之前,卓驭的前身是大疆内部一支专注于智能驾驶技术研发与探索的团队。该部门成立于2016年,早期依托大疆在无人机领域的传感器、计算机视觉和导航算法积累,逐步向车载智能驾驶系统延伸。在此期间,团队已开始布局双目视觉、BEV感知等核心技术,也锻炼了卓驭的视觉技术强项。
2024年11月,卓驭推出了“成行平台”,提供7V和9V两种方案,涵盖高速领航、城市无图领航、跨楼层泊车等功能。其特色在于通过BEV技术和双目视觉降低对高精地图与激光雷达的依赖,实现低成本高阶驾驶辅助功能。
2024年,中国一汽、大众汽车、上汽通用五菱、奇瑞汽车、东风汽车都已经成为他们的客户。5月9日,卓驭首次对外完整公布了9大合作客户,除了上述五大车企外,包括比亚迪、长城汽车、奥迪和北汽集团都已经携手卓驭。卓驭官方公布的数据显示,目前已有20余款车型已量产,还有30多款车型即将量产落地。
此前有智驾公司高管向21世纪经济报道判断,2025年,中低端市场将会成为更大的市场。这是卓驭擅长的领域。去年下半年上市的宝骏云海,全系标配了大疆车载的灵眸智驾2.0 Max,已经把智驾带入10万元级市场。
但这也意味着,更下沉的市场拥有更多虎视眈眈的目光,卓驭的压力不小,这种压力不仅来自于智驾方案供应商同行,还有不断推动自研智驾下沉的主机厂。
在同等成本下,卓驭还在做更大的算力进化。在今年的上海车展上,卓驭展出了基于英伟达Thor的VLA大模型。即使是高算力的英伟达Thor平台,陈晓智认为,Thor域控虽算力大、成本会提升,但与双OrinX方案相比,单颗Thor域控的成本更低,属于降本方案。
根据卓驭官方此前透露的信息,在英伟达高算力的赋能下,卓驭将进一步推动世界模型在智能驾驶领域的产品化探索。
在世界模型的赋能下,卓驭“千人千面”的智驾方案成为可能。陈晓智认为,今年卓驭将重点推进强化学习与世界模型的落地,后者运用的是思维链推理、慢推理技术,若能实现,将显著提升安全性。
从3月底至上海车展期间,我们与卓驭科技首席AI技术官陈晓智博士进行了两次交流,他向我们分享了卓驭科技今年的技术重点、路线,以下是采访实录,经摘编:
21世纪经济报道:今年我们看到,比亚迪在推动全民辅助驾驶普及,华为也在提L3有条件自动驾驶。卓驭也在做生成式辅助驾驶,往更高阶的体验去靠近。在卓驭看来,今年的主战场会在哪里?
陈晓智:今年我们的技术和产品重点会放在极致的L2组合辅助驾驶的功能上和Thor旗舰的平台上,从安全性和智能化两个维度去发力,把它的辅助驾驶功能做到极致。
21世纪经济报道:今年上海车展上,卓驭推出了补盲雷达知周,你们的成本大概在什么范围?
陈晓智:知周补盲激光成本是千元以内。
21世纪经济报道:在之前视觉的方案之外,卓驭现在又推出了激光雷达的方案,这种路径上的拓展是出于什么样的考虑?
陈晓智:我们对于激光的看法一直也没有变,一直认为它就是一个安全冗余的作用。过往我们项目用的激光确实不多,但是今年也会有一些项目搭载激目1.0的系统也会量产。
过往做的不多是因为我们觉得视觉本身还有非常大的挖掘空间,所以我们重点还是放在视觉的方案挖掘。
21世纪经济报道:卓驭一直在成本控制很有优势,最近卓驭推出了带有Thor大算力的域控、带激光雷达和视觉融合的激目2.0,卓驭是不是还会延续之前成本上的优势?
陈晓智:只看传感器本身,我们认为还是有成本和价性比的优势,我们激光+惯导三目整体的总成方案成本不会比分离式的单个激光成本更高,所以我们认为它的成本是有优势的。
而Thor的域控它的算力大,确实成本会更高,但是它对标的是现在比较常见的两个500TOPS的OrinX方案,它可以用一个700TOPS的Thor-U 平替掉它,算力大了一点,成本更低。所以从这两者对标来说,它其实也是一个降本的方案。
21世纪经济报道:未来卓驭的成本是否还会继续下探,推动更多平价车型搭载辅助驾驶系统?
陈晓智:我们现在比较关心的像城市领航的功能,它的成本肯定能做到更低。比如卓驭目前用的7V摄像头,再加32TOPS的算力平台就可以跑城市领航,这对于目前大家常见到的动不动跑城市领航要有激光、要有几百TOPS算力的平台还会有比较大的成本节省。
但要下放到更低价位区间的车型还是会有一些压力和挑战,我们能支持更简单的硬件就能跑城市领航,对于我们的客户来说推动标配会更容易一些。
21世纪经济报道:我们现在已经公布的定点企业主要是自主品牌和大众,但豪华品牌现在也在找本土化的智驾供应商,接下来卓驭是否有合作的可能性?
陈晓智:除了我们目前正在合作的客户,我们也一直在跟一些全球客户在深入交流,相关的合作未来一定还会有增加的,我们也一直在拓展这些海外客户,包括他们在本土化的车型、海外车型。
21世纪经济报道:华为前段时间发布了L3有条件自动驾驶商用的方案,卓驭有没有L3的规划?
陈晓智:我们今年要做的事情是会把L3、L4的硬件做出来,包括控制器、传感器,满足L3、L4冗余的架构需求,这个传感器除了视觉摄像头,还会增加激光雷达来满足冗余。今年更多要做的事情就是先把硬件预埋。
21世纪经济报道:你认为L3落地具体还需要多久?
陈晓智:我们认为前提还是得先把L2组合辅助驾驶做得足够好,再去落地L3有条件自动驾驶,但时间点我们暂时还看不到。
21世纪经济报道:前一阵工信部对智驾的监管收紧,你怎么看?这件事对卓驭有什么影响?
陈晓智:工信部的新规,对技术和产品其实没有什么影响,我们觉得其实是好事情,行业一直以来有很多浮躁的声音,但实际上大家在说这些词的时候,背后到底代表了什么,实现了什么东西,没人知道。
21世纪经济报道:今年卓驭的技术重点是什么?
陈晓智:今年我们重点会做的事情一是强化学习,二是世界模型,或者叫思维链推理、慢推理的技术,这两种技术我们认为如果能落地的话,对安全性有比较大的提升。
21世纪经济报道:这类技术具体在安全性能上如何提升?
陈晓智:对于过往长尾场景没有见到的数据,模仿学习可能会做出一些意料之外的行为,但是强化学习是自己可以去探索一些没有见过的状态,从而能够去做出更合理的决策,我们认为安全性会有一个数量级的提升。
21世纪经济报道:前段时间卓驭发布了生成式智驾功能GenDrive,能够实现个性化的驾驶,你们如何做到“千人千面”?
陈晓智:“千人千面”的智驾能力,它背后的技术关键在于我们在研发端到端的世界模型。
21世纪经济报道:它跟传统的端到端世界模型有什么区别?
陈晓智:传统的端到端是基于模仿学习,你从大量的驾驶员数据中学习他的行为,但因为数据里面各种风格的司机都有,你学出来的风格其实就是一个平均的司机,没有区分度,所以它很难做到千人千面。并且它的推理过程也是基于直觉式的端到端,它看到一个传感器输入就做一个驾驶动作,它是直觉式的一次性动作的预测。
21世纪经济报道:你们用世界模型做到“千人千面”的思路是怎样的?
陈晓智:做到千人千面,其实要有一些推理的能力,并且要区分不同的风格,我们通过世界模型,世界模型的特点是有推理能力,它可以生成未来可能发生的N种情况,就类似N个平行宇宙,这里面可能有非预期的,有一些不符合用户驾驶意图的,你可能需要一个推理过程结合用户意图选择最有可能的驾驶轨迹。
这背后的技术核心是世界模型的推理能力,在训练过程中会引入强化学习去克服模仿学习本身的局限性。
21世纪经济报道:训练这样的模型,它的数据需求量很大吗?
陈晓智:数据量其实没有太大区别,更多是算法上的创新,引入强化学习之后,在长尾数据积累,这种数据还能减少,因为模仿学习,你要模仿一些极端场景的行为,你得采集这个场景的数据,有一些场景数据又是很难覆盖的,强化学习可以通过仿真手段生成这种场景,它可以降低数据采集的需求。
21世纪经济报道:现在很多车企推出一些端到端版本可能代表的是模仿学习路线,今天卓驭又推出了世界模型,代表的是强化学习路线,你觉得这两种路线接下来哪一种会成为主流?
陈晓智:会是结合的,我们说强化学习也不是纯强化学习,模型训练还是会分两个大的阶段。
第一个预训练阶段,预训练阶段本质上就是模仿学习,有很多数据来去做预训练,预训练可以做到80分这么一个通用能力,大部分场景表现不错;
但是在80分到95分的时候,再继续用模仿学习成本就会比较高,爬坡边际收益递减,这时候用强化学习效率是更高的,安全性各方面的指标也能有更大提升。
强化学习做出来之后不是抛弃模仿学习,而是结合,即在不同训练阶段用方式。明确一点,用模仿学习一直从头到尾训肯定不是最好方案。
21世纪经济报道:最近大家对驾驶辅助的安全性关注度很高,卓驭在使用世界模型生成场景的时候要怎么保证数据和场景准确性?
陈晓智:准确性要从两个维度去评价,一个就是逼真度,一个是几何或者物理准确度。
逼真度就是仿出来的图像,或者视频真不真,这块儿技术上已经解决相对好了;关于几何或者物理的准确度,我们可以用几何模型,比如说深度估计模型,或者持续重建来判断几何一致性,这种一致性是可以通过跑一些几何模型,深度估计模型,持续重建来去发现它有没有问题。
21世纪经济报道:很多友商也在做世界模型,世界模型什么时候将成为行业追逐的共识?
陈晓智:我们认为世界模型确实会是下一代更加好的架构,我们认为它会是在今年到明年的技术升级的方向。
21世纪经济报道:应用到消费者体验上,会有什么变化?
陈晓智:现在车位到车位功能其实做得都不太好,现在车位到车位是有一个提前记忆的路线,甚至比较看重整个停车场的地图去找车位。
但人开车却不是这样,人开车是看地面箭头,看指示牌,端到端的世界模型也会具备这种能力,通过看这些箭头或者这些信息自己去找车位,我们认为点到点应该是这种方式。
今年应该能做到这种程度,它还是一个L2组合辅助驾驶,但是体验上应该会给大家更自然的感觉,更聪明、更连续的体验。
更多内容请下载21财经APP