理想汽车VLA司机大模型发布：从动物智能到人类智能

2025年5月7日，“理想AI Talk第二季——理想VLA司机大模型，从动物进化到人类”活动举办。理想汽车董事长兼CEO李想在活动中分享了对人工智能的前沿思考，深入解读了VLA司机大模型的关键作用、创新训练方法、面临的挑战，以及对创业和个人成长的见解。

从信息工具到生产工具，从动物智能到人类智能

李想将AI工具细致地划分为信息工具、辅助工具和生产工具三个层级。在当下，大多数人仅仅把AI当作获取信息的工具，然而，这种应用方式往往伴随着大量无效信息、无效结果和无效结论，其价值主要局限于参考层面。当AI进阶为辅助工具时，它能够显著提升效率，例如当前的辅助驾驶技术，虽然在一定程度上减轻了驾驶员的负担，但仍然离不开人类的实时参与和监督。

李想指出，只有当AI发展成为生产工具，能够独立承担专业任务，才是其真正爆发的时刻。他形象地比喻道：“就像人类会雇佣司机，人工智能技术最终也会承担类似职责，成为真正的生产工具。” 这一观点清晰地描绘了AI未来的发展方向，即从单纯的辅助角色转变为能够独立完成复杂任务的关键生产力。

VLA（Vision-Language-Action Model，视觉语言行动模型）的诞生标志着AI在自动驾驶领域的重大突破，它使得AI能够真正成为司机，成为交通领域的专业生产工具。李想强调，VLA的实现并非一蹴而就的突变，而是一个循序渐进的进化过程，这一过程经历了三个阶段，与理想汽车辅助驾驶的发展历程紧密相连，生动地诠释了技术的迭代与升级。

第一阶段，自2021年起，理想汽车自主研发的辅助驾驶系统依赖规则算法和高精地图，这一阶段的智能水平类似于“昆虫动物智能”。它如同昆虫遵循本能和既定规则行动一样，虽然能够在一定程度上完成任务，但对环境的理解和适应能力相对有限。规则算法如同昆虫简单的神经系统，只能处理相对简单和固定的情况，面对复杂多变的交通环境，往往显得力不从心。

第二阶段，从2023年开始研究，并于2024年正式推送的端到端 +VLM（Vision Language Model，视觉语言模型）辅助驾驶，已经接近“哺乳动物智能”。端到端模型通过学习人类的驾驶行为，能够在大多数常见的交通场景中应对自如，就像哺乳动物通过观察和模仿来学习生存技能一样。但在处理复杂问题时，它仍然存在明显的局限，例如在面对从未遇到过的特殊路况或突发情况时，可能会出现决策困难或错误。尽管可以借助VLM视觉语言模型提供一定的辅助，但由于VLM使用的是开源模型，在交通领域的专业能力受到很大限制，同时端到端模型在与人类沟通方面也存在障碍，无法准确理解和执行人类的指令。

为了突破这些瓶颈，提升用户的智能体验，理想汽车自2024年起全力开展VLA研究，并在多项顶级学术会议上发表论文，为VLA的发展奠定了坚实的理论基础。到了第三阶段，VLA开启了 “人类智能” 的崭新时代。它能够通过3D和2D视觉的完美组合，全面、完整地感知物理世界，这与VLM仅能解析2D图像形成了鲜明对比。VLA还拥有一套完整的脑系统，具备强大的语言能力和CoT（Chain of Thought，思维链）推理能力，不仅能够精准地感知周围环境，还能深入理解交通规则和人类意图，并真正地执行各种驾驶行动，其运作方式与人类高度相似，展现出了高度的智能和适应性。

VLA的训练过程：模拟人类学习，对齐人类价值观

VLA的训练过程如同人类学习驾驶技能一样，分为预训练、后训练和强化训练三个紧密相连的环节，每个环节都模拟了人类学习驾驶的不同阶段，确保模型能够为用户带来卓越的舒适性和安全性体验。

预训练环节，就像是人类学习物理世界和交通领域的基础知识和常识。在这个阶段，模型通过海量的高清2D和3D Vision（视觉）数据、丰富的交通相关的Language（语言）语料，以及与物理世界相关的VL（Vision Language，视觉和语言）联合数据进行深度训练，从而构建出云端的VL基座模型。随后，通过蒸馏技术将其转化为在车端高效运行的端侧模型，为后续的学习和应用奠定坚实基础。

后训练环节，则类似于人类进入驾校进行专业的驾驶学习。随着Action（动作）数据的融入，即对周围环境和自车驾驶行为的精确编码，VL基座模型逐渐演变为VLA司机大模型。得益于短链条的CoT，以及Diffusion扩散模型对他车轨迹和环境的精准预测，VLA具备了出色的实时性特点，能够在复杂多变的交通环境中灵活应对，实现高效的博弈能力，就像一个熟练的驾驶员能够根据路况做出及时、准确的判断和决策。

强化训练环节，类似于人类在社会中实际开车练习，不断积累经验、提升技能。其目标是让VLA司机大模型更加安全、舒适，与人类价值观高度对齐，甚至在某些方面超越人类驾驶水平。强化训练包含两部分：一是通过RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）完成安全对齐，使模型严格遵守交通规则，充分贴合中国用户的独特驾驶习惯；二是将纯强化学习模型放入世界模型中进行训练，进一步提升舒适性，有效避免碰撞事故，始终遵守交通规则。经过这一系列严谨、科学的训练过程后，VLA司机大模型即可部署至车端，为用户提供安全、智能的驾驶服务。

VLA司机大模型以“司机Agent（智能体）”的创新产品形态呈现，用户可以通过自然语言与司机Agent轻松沟通，就像与人类司机交流一样便捷自然。简单通用的短指令可由端侧的VLA直接处理，快速响应；复杂指令则先由云端的VL基座模型进行深入解析，再交由VLA进行精准处理，确保用户的每一个指令都能得到准确、高效的执行。

超级对齐与世界模型，解决AI的安全与黑盒问题

在追求AI技术进步的同时，理想汽车高度重视VLA司机大模型的安全性和模型黑盒问题。随着模型能力的不断提升，职业性约束变得愈发重要，它如同为模型划定了一条清晰的底线，确保其行为始终符合安全和道德标准。

为了保障VLA司机大模型能够实现职业司机般的安全和舒适，避免出现学习加塞等违规行为，理想汽车在强化训练环节投入了大量的资源。2024年底，理想汽车组建了超过100人的超级对齐团队，这个团队就像是为司机Agent注入了专业的职业素养，从多个维度对模型进行约束和优化。在法规常识方面，确保模型严格避免实线变道、闯红灯等危险错误行为；在行为一致性方面，保证模型在安全、舒适和与人的驾驶习惯一致性上达到高标准，无论是加减速的平稳性，还是转弯、变道的合理性，都能让用户感受到如同人类司机驾驶般的安心和舒适；在技术安全一致性方面，全力避免车辆被远程恶意入侵操作，同时在恶劣天气等特殊情况下，能够及时、准确地向用户反馈传感器的状态，确保驾驶安全。

为了解决模型的黑盒问题，理想汽车创新性地结合重建和生成两种路径，打造了真实、符合物理世界规律的世界模型。这个世界模型涵盖了所有交通参与者和要素，就像一个虚拟的真实交通世界。基于世界模型强大的仿真能力，VLA可以在这个虚拟环境中低成本、准确地验证现实问题，大大提升了解决问题的效率，有效应对了模型黑盒带来的诸多挑战。通过在世界模型中进行大量的模拟测试和优化，VLA能够不断改进自身的决策和行为，确保在实际驾驶中的安全性和可靠性。

判断司机Agent是否是一个优秀的司机，有三个关键标准：专业能力、职业能力和构建信任的能力。VLA司机大模型通过先进的训练技术和算法，显著提升了专业能力；超级对齐团队的努力则增强了其职业能力；VLA通过对自然语言的精准理解和具备的记忆能力，有效提升了构建信任的能力，让用户能够放心地将驾驶任务交给它。

在人工智能时代，理想汽车实现技术快速跃迁的背后，是对从研究、研发到能力表达，再到将能力转化为业务价值这一完整过程的扎实积累。李想强调，研究是其中的关键环节，只有在研究上取得突破，研发的效率才能大幅提升，并且注重将研究成果转化为实际的业务价值，最终实现技术的落地应用和商业成功。

理想汽车始终坚持自主研发的道路，通过持续的技术创新为用户创造更大的价值。在辅助驾驶领域，面对英伟达Orin X芯片无法直接运行语言模型的难题，理想汽车凭借自有编译团队，自主研发底层推理引擎，成功使芯片可通过INT4（4比特整型）量化的方式运行VLM，展现了强大的技术实力和创新能力。同时，凭借在芯片、控制器设计和自研汽车操作系统等方面的综合优势，理想汽车实现了让双Orin-X芯片和Thor-U芯片运行同等规模的VLA司机大模型，为用户提供更加稳定、高效的智能驾驶体验。

李想表示，大型企业的基本功和能力是其立足市场的根本，是无法被轻易逾越的。得益于DeepSeek的开源，理想汽车在VLA司机大模型的语言能力研发上取得了显著的提速，节省了近9个月的时间和数亿元成本。尽管如此，理想汽车并未满足于此，而是选择加大投入，在基座模型上投入超预期3倍的训练卡，专注打造适配多场景的自研模型。李想坚定地说：“我们可以站在巨人的肩膀上，但它只是其中的一部分。” 在受益于开源技术的同时，理想汽车也积极回馈社会，将自研的汽车操作系统——理想星环OS开源，为行业的发展贡献自己的力量。

创业与成长，在痛苦中保持正能量

今年7月，理想汽车将迎来成立十周年的重要时刻。回顾这十年的创业历程，李想感慨万千，他表示创业路上充满了艰辛与挑战，苦多于甜，但他始终选择保留那些有价值的美好片段，用这些温暖的回忆激励自己保持积极向上的正能量。他以乐观豁达的心态看待创业中的困难与挫折，将企业遭遇的打击视为必须面对的挑战，正是这些挑战促使理想汽车不断成长和进步，赋予了企业更多的能力。也正是凭借这份积极乐观的创业心态，理想汽车才能在激烈的市场竞争中快速崛起，成长为千亿营收规模、百万交付量的新势力企业。

谈及如何成为更有能量的人，李想认为，关键在于关注自我，深入了解自己的优点和不足，并以成长的心态替代单纯的改变。成长意味着不断增强自身的能力，在面对各种挑战时能够从容应对。李想还特别强调亲密关系的重要性，他认为关注他人的成长同样能为自己带来强大的能量，家人和同事能够与他形成互补，在工作和生活中相互支撑，共同前行。“我需要家人和同事甚至超过了他们需要我，首先是我需要他们，然后才是他们需要我，我们在一起能够形成非常强的脑力和心力。” 李想深情地说。

回顾几次创业经历，李想感慨地说，从高中创办个人网站至今，自己的思维方式始终保持着一致性：遇到问题积极解决问题，勇于挑战他人不愿解决的难题，致力于解决用户的痛点，并不断向他人学习。不同的是，如今面临的问题更加复杂多样，服务的用户群体日益庞大，公司规模和组织也更加庞大，需要承担更多的责任和使命。“几次创业一路走来，最难时有人相助，遇坑也能迅速爬出，一帮人齐心协力变得更好，这是种幸运，也没什么可后悔的。” 李想充满感恩地说。

面对AI的迅猛发展，李想认为，在AI面前所有的人性都应被尊重和保留，无论好坏。因为一切人性都是文化、生命、性格和能力的独特特质，也是人类真正的生命力所在。AI技术的发展应该是为了更好地服务人类，而不是取代人类的独特价值。

从使用增程电动和5C超充技术解决电池成本高、充电难、充电慢的行业难题，到自研汽车操作系统攻克传统汽车操作系统性能差、开发缓慢、芯片匹配周期长等挑战，理想汽车始终以技术创新为核心驱动力，勇敢地解决行业无法解决的问题。在自研VLA的征程中，理想汽车更是踏入了人工智能的无人区，展现出了无畏的勇气和坚定的决心。当前，辅助驾驶正处于新的十字路口，理想汽车将继续挑战成长的极限，持续为行业和用户创造更大的价值，引领智能汽车行业迈向更加美好的未来。

理想汽车的VLA司机大模型不仅是技术上的重大突破，更是对未来交通和人工智能发展的一次深刻探索。随着这一模型的不断完善和应用，我们有理由期待它将为人们的出行带来更加安全、智能、便捷的体验，推动整个行业迈向新的高度。

---------------------

不保证以上内容的准确性和真实性。市场有风险，投资交易需谨慎。所涉标的不做任何推荐，据此投资交易，风险自担。

科记汇，资深财经媒体人创办，财经报道先锋，年阅读观看量数亿。关注研究重大财经动态、企业家精神、商业文明发展历程，报道大型企业、上市公司、创业公司关键发展节点。内容同步数十家网络平台。欢迎提供报道线索和采访机会。