2025 年 3 月 18 日,理想汽车自动驾驶技术研发负责人贾鹏在 NVIDIA GTC 2025 上,分享了理想汽车下一代自动驾驶技术 MindVLA 的最新进展。贾鹏称,MindVLA 作为机器人大模型,成功融合空间智能、语言智能和行为智能,一旦打通物理与数字世界结合的范式,将有望为众多行业赋能。它将把汽车从单纯的运输工具,转变为贴心且智能的专职司机,使其能听得懂指令、看得见环境、找得到目的地,赋予汽车类似人类的认知与适应能力。
理想全栈自研的 MindVLA,基于端到端 + VLM 双系统架构的实践及对前沿技术的洞察而诞生。VLA 作为机器人大模型的新范式,赋予自动驾驶强大的 3D 空间理解、逻辑推理及行为生成能力,让自动驾驶可感知、思考并适应环境。MindVLA 并非简单组合端到端模型和 VLM 模型,而是全新设计所有模块。3D 空间编码器借助语言模型与逻辑推理结合,输出合理驾驶决策及 Action Token,再通过 Diffusion 优化出最佳驾驶轨迹,且整个推理过程在车端实时运行。
MindVLA 具备六大关键技术,打破传统自动驾驶技术框架。它采用能承载丰富语义、具有优良 3D 几何表达能力的 3D 高斯作为中间表征,通过海量数据自监督训练提升下游任务性能。理想从零设计并训练适合 MindVLA 的 LLM 基座模型,采用 MoE 混合专家架构和 Sparse Attention 实现模型稀疏化,在保证模型规模增长的同时,不降低端侧推理效率,训练中加入大量 3D 数据以赋予模型 3D 空间理解与推理能力,并通过加入未来帧预测生成和稠密深度预测等任务,激发模型空间智能。为提升逻辑推理能力,训练 LLM 基座模型学习人类思考过程,实现快慢思考自主切换,通过小词表结合投机推理及并行解码技术,提升实时推理速度,平衡模型参数规模与推理性能。MindVLA 利用 Diffusion 解码 Action Token 为优化轨迹,通过自车行为生成和他车轨迹预测联合建模提升复杂交通环境博弈能力,采用 Ordinary Differential Equation 采样器解决 Diffusion 效率低问题,还通过建立人类偏好数据集及应用 RLHF 微调模型采样过程,提升安全下限。基于自研重建 + 生成云端统一世界模型,MindVLA 融合重建与生成模型能力构建仿真环境,实现基于仿真的大规模闭环强化学习,通过工程优化显著提升场景重建与生成的质量和效率。此外,通过创新预训练和后训练方法,MindVLA 具备卓越泛化能力和涌现特性,在室内环境也展现出适应性。
MindVLA 将为用户带来全新体验。“听得懂” 体现在用户能通过语音指令改变车辆路线和行为,如在陌生园区找超市,对理想同学说指令,车辆就能自主找到目的地;“看得见” 指其具备强大通识能力,可识别商店招牌,还能依据用户发送的照片找到用户;“找得到” 意味着车辆能在地库、园区和公共道路自主漫游找车位,不依赖地图或导航。总之,MindVLA 赋能的汽车不再只是驾驶工具,而是能与用户沟通、理解用户意图的智能体,它将重新定义自动驾驶,为汽车行业及人工智能领域开拓新方向,有望推动多行业协同发展。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
“我命由我不由天”,《哪吒2》的这句经典台词深入人心,其“不服输、不认命”的精神内核,在当下内卷激烈的新能源汽车市场,尤...
“油电同智,全球同行!”3月18日,奇瑞“智能之夜”即将璀璨开场,奇瑞星途旗下高端新能源车型——“超能智享SUV”全新星...