2025年10月31日
TE2025年10月30日
罗克韦尔2025年10月24日
采埃孚2025年10月24日
兆易创新2025年10月24日
欣旺达2025年10月27日
魏德米勒
2025年10月22日
倍福
2025年10月16日
罗克韦尔
2025年10月16日
明珞装备
2025年10月11日
EMAG
2025年10月31日
海克斯康
2025年10月24日
Melexis
2025年10月24日
倍加福
2025年10月23日
科尔摩根
2025年10月23日
海康机器人
01 市场需求&技术契机
从高速NOA到城市NOA,rule based 方法和特定任务AI的技术天花板,已经不能满足越来越复杂场景的需求。为了解决该问题,自动驾驶的技术栈正在全面迈向AI可学习化,使得端到端全神经网络自动驾驶成为必然的趋势。但如何让端到端自动驾驶能够更加高效、有效的学习,并最终具备人所具有的common sense 和因果推理能力,自动驾驶的学习范式就必须进一步变革。生成式大模型的出现,使得对人类知识和现实世界运行规律的压缩成为可能,并可基于端到端自动驾驶神经网络和生成式大模型构建全新的学习范式,从而使得自动驾驶从特定任务AI迈向通用AI时代。

02 鉴智的思考和做法
自动驾驶功能模块的 AI 化趋势
鉴智机器人由始至终地相信、践行着视觉传感器 + 强 AI 范式的技术路线:在成立后两年半的时间内,鉴智逐步实现了自动驾驶感知、预测等功能模块的 AI 化,并在每次迭代升级中做到了速度领先和效果领先,彰显了鉴智对自动驾驶系统的深刻理解和对AI算法的设计实现能力。具体来讲:
· 2021年底首次提出基于 BEV 空间的三维障碍物感知范式 BEVDet,在自动驾驶权威评测集上获得世界第一;
· 2022年中首次提出基于 BEV 空间的多任务统一模型 BEVerse,将障碍物感知、地图感知、运动预测等三大任务高效地涵盖于单一模型;
· 2023年初首批提出基于周视相机的三维占用网格预测算法 TPVFormer、OccFormer,基于双目相机的三维占用网格预测算法 StereoScene,三维占用网格标注流程 OpenOccupancy。

从 BEV 感知到 Occ 感知
在刚刚发布的7V标准视觉感知产品 PhiVision 2.0中(详情点击:鉴智机器人发布基于地平线征程®6的7V标准视觉感知产品),鉴智基于地平线征程®6实现了量产级别的多任务 BEV 感知与双目 Occupancy 预测,实现了上述 AI 模块的迅速应用落地。得益于双目立体匹配对于三维几何结构的准确理解,双目视觉可以提供激光雷达 10x 稠密的三维信息表达,这使得PhiVision 2.0能够提供准确、稳定的三维占用网格预测。三维占用网格能够对传统的障碍物实例感知起到重要的补充作用,使得自动驾驶系统能够更好地应对截断、形状不规则、语义模糊、长尾类别等复杂情况,从而极大地提升系统安全性。
端到端自动驾驶算法的研发落地
尽管模块 AI 化能够不断提升各个子任务内的端到端性能,但整个系统的性能表现仍然受限于人工设计的模块接口定义与前后处理,这使得信息传递局限于预定义的数据结构、从而产生无法弥补的累积误差;另一方面,问题驱动的规则迭代使得系统不断趋于复杂、系统维护和问题解决会愈发困难。为了克服这些系统性问题,端到端自动驾驶算法应运而生,致力于通过单一模型实现自动驾驶感知、建图、决策、规划等所有功能模块,并使用共享场景特征和隐式向量特征实现无损的上下游信息传递。

范式对比:模块化自动驾驶系统 与 端到端自动驾驶系统
相对于传统的自动驾驶系统(规则化、模块化),端到端自动驾驶系统一方面使用数据驱动的 AI 算法实现了所有功能模块,从而极大地提升了性能上限和系统的可维护性;另一方面基于 query 和 transformer 设计在模型内实现了所有模块的信息串联和联合优化,这使得规则繁重的各模块后处理不再需要,而决策模型得益于端到端优化和信息冗余产生了更加稳定、优异的预测结果。在端到端自动驾驶算法的基础上,量产性能的提升即可通过大规模的道路测试和模型微调来不断提升,而不再需要设计各种瞻前顾后的规则方案来处理各种案例。
在端到端自动驾驶算法方向,鉴智机器人自主研发了基于自动驾驶场景图的 GraphAD 算法。GraphAD 采用了感知决策统一、时空联合建模的端到端网络架构,并提出了一种基于 Scene Graph 的图结构建模方式,将自车、障碍物、矢量地图等驾驶元素组织为图网络上的节点,并通过动态的局部图对其进行连接,从而实现更加有效的信息传递。在主流端到端开环规划评测上,GraphAD 在感知、建图、预测、规划等任务上均达到领域最佳性能,规划任务上拟合误差和避障指标更是远超此前的最佳方案。

鉴智机器人端到端自动驾驶算法 GraphAD
基于端到端算法与生成式大模型的通用 AI 范式
尽管端到端自动驾驶算法展现了一种更高上限的技术路线,要想达到这种上限仍然需要大规模的驾驶演示数据、尤其是各类复杂危险场景。然而,危险条件下的驾驶数据在真实世界是非常罕见的,在伦理上算法也应该减少对这些数据的依赖性。另一方面,鉴智机器人秉承着利用 AI 构建通用机器人的愿景,希望从端到端自动驾驶算法出发、逐步迭代出适用于通用场景的 AI 范式。
针对以上两个问题,鉴智机器人提出了一种基于端到端算法与生成式大模型的通用 AI 范式,其核心思路是利用多模态大模型构建起通用视觉场景的自编码器。从视觉-文本多模态大模型出发(人类知识)、并在大规模通用视觉场景(物理定律)上进行自编码器训练后,生成式大模型能够实现对人类知识和世界运行规律的充分理解和信息压缩,并在闭环训练中将这种通用知识传递给端到端算法,从而实现通用场景下的 AI 任务能力。

基于端到端算法与生成式大模型的通用 AI 范式
在上述通用 AI 范式中,鉴智机器人认为依托于生成式大模型的闭环重建能力是不断迭代端到端算法的终极方案。通过两步走的战略:(1)构建理解人类通识和物体定律的生成式大模型,这也使得通用场景之间的信息能够相互验证、提炼出普适定律;(2)利用闭环重建将生成式大模型的知识赋能给端到端算法,避免了直接获取大规模丰富场景开环数据的巨大成本。
03 阶段性进展与应用成果
· 模块化 AI 自动驾驶方案的量产落地
鉴智机器人构建的 PhiVision 2.0 方案目前已获得国内头部车企量产定点,包含基于BEV的障碍物感知与建图多任务方案、基于双目视觉的地面预瞄和占用网格预测等一系列智驾功能。
· 端到端自动驾驶方案实车部署
2023年底,鉴智机器人自动驾驶端到端大模型方案 GraphAD 获得国内头部车企定点,双方将基于该方案实现点对点领航辅助驾驶NOA的完整功能,完成业内首个端到端自动驾驶模型的实车部署。截止2024年4月,鉴智机器人端到端算法方案 GraphAD 已经完成高速场景下点对点领航辅助驾驶NOA功能的阶段性演示验收。端到端方案在实车部署过程中极大地减少了系统模块数量、降低了规则设计的复杂性,并且取得了优异的实车感知、预测、规划效果。

04 长期规划
鉴智机器人将始终坚持视觉传感器 + 强 AI 的技术路线,以实现自动驾驶作为阶段性目标、以实现通用 AI 机器人作为最终目标。2024年底,鉴智机器人将实现端到端自动驾驶从演示场景到一般驾驶场景的迁移,通过构建大规模演示数据+实车影子模式微调不断提升端到端规划能力,助力端到端算法方案的大规模量产。同步地,鉴智机器人将投入大数据和大算力构建起基于端到端算法与生成式大模型的通用 AI 范式,并不断迭代生成式大模型对于人类知识和物体定律的建模能力,对通用场景下的端到端机器人算法实现闭环优化,在2025年底实现通用 AI 范式。