理想汽车VLA司机大模型发布:从动物智能到人类智能
2025年5月7日,“理想AI Talk第二季——理想VLA司机大模型,从动物进化到人类”活动举办。理想汽车董事长兼CEO李想在活动中分享了对人工智能的前沿思考,深入解读了VLA司机大模型的关键作用、创新训练方法、面临的挑战,以及对创业和个人成长的见解。
从信息工具到生产工具,从动物智能到人类智能
李想将AI工具细致地划分为信息工具、辅助工具和生产工具三个层级。在当下,大多数人仅仅把AI当作获取信息的工具,然而,这种应用方式往往伴随着大量无效信息、无效结果和无效结论,其价值主要局限于参考层面。当AI进阶为辅助工具时,它能够显著提升效率,例如当前的辅助驾驶技术,虽然在一定程度上减轻了驾驶员的负担,但仍然离不开人类的实时参与和监督。
李想指出,只有当AI发展成为生产工具,能够独立承担专业任务,才是其真正爆发的时刻。他形象地比喻道:“就像人类会雇佣司机,人工智能技术最终也会承担类似职责,成为真正的生产工具。” 这一观点清晰地描绘了AI未来的发展方向,即从单纯的辅助角色转变为能够独立完成复杂任务的关键生产力。
VLA(Vision-Language-Action Model,视觉语言行动模型)的诞生标志着AI在自动驾驶领域的重大突破,它使得AI能够真正成为司机,成为交通领域的专业生产工具。李想强调,VLA的实现并非一蹴而就的突变,而是一个循序渐进的进化过程,这一过程经历了三个阶段,与理想汽车辅助驾驶的发展历程紧密相连,生动地诠释了技术的迭代与升级。
第一阶段,自2021年起,理想汽车自主研发的辅助驾驶系统依赖规则算法和高精地图,这一阶段的智能水平类似于“昆虫动物智能”。它如同昆虫遵循本能和既定规则行动一样,虽然能够在一定程度上完成任务,但对环境的理解和适应能力相对有限。规则算法如同昆虫简单的神经系统,只能处理相对简单和固定的情况,面对复杂多变的交通环境,往往显得力不从心。
第二阶段,从2023年开始研究,并于2024年正式推送的端到端 +VLM(Vision Language Model,视觉语言模型)辅助驾驶,已经接近“哺乳动物智能”。端到端模型通过学习人类的驾驶行为,能够在大多数常见的交通场景中应对自如,就像哺乳动物通过观察和模仿来学习生存技能一样。但在处理复杂问题时,它仍然存在明显的局限,例如在面对从未遇到过的特殊路况或突发情况时,可能会出现决策困难或错误。尽管可以借助VLM视觉语言模型提供一定的辅助,但由于VLM使用的是开源模型,在交通领域的专业能力受到很大限制,同时端到端模型在与人类沟通方面也存在障碍,无法准确理解和执行人类的指令。
为了突破这些瓶颈,提升用户的智能体验,理想汽车自2024年起全力开展VLA研究,并在多项顶级学术会议上发表论文,为VLA的发展奠定了坚实的理论基础。到了第三阶段,VLA开启了 “人类智能” 的崭新时代。它能够通过3D和2D视觉的完美组合,全面、完整地感知物理世界,这与VLM仅能解析2D图像形成了鲜明对比。VLA还拥有一套完整的脑系统,具备强大的语言能力和CoT(Chain of Thought,思维链)推理能力,不仅能够精准地感知周围环境,还能深入理解交通规则和人类意图,并真正地执行各种驾驶行动,其运作方式与人类高度相似,展现出了高度的智能和适应性。
VLA的训练过程:模拟人类学习,对齐人类价值观
VLA的训练过程如同人类学习驾驶技能一样,分为预训练、后训练和强化训练三个紧密相连的环节,每个环节都模拟了人类学习驾驶的不同阶段,确保模型能够为用户带来卓越的舒适性和安全性体验。
预训练环节,就像是人类学习物理世界和交通领域的基础知识和常识。在这个阶段,模型通过海量的高清2D和3D Vision(视觉)数据、丰富的交通相关的Language(语言)语料,以及与物理世界相关的VL(Vision Language,视觉和语言)联合数据进行深度训练,从而构建出云端的VL基座模型。随后,通过蒸馏技术将其转化为在车端高效运行的端侧模型,为后续的学习和应用奠定坚实基础。
后训练环节,则类似于人类进入驾校进行专业的驾驶学习。随着Action(动作)数据的融入,即对周围环境和自车驾驶行为的精确编码,VL基座模型逐渐演变为VLA司机大模型。得益于短链条的CoT,以及Diffusion扩散模型对他车轨迹和环境的精准预测,VLA具备了出色的实时性特点,能够在复杂多变的交通环境中灵活应对,实现高效的博弈能力,就像一个熟练的驾驶员能够根据路况做出及时、准确的判断和决策。
强化训练环节,类似于人类在社会中实际开车练习,不断积累经验、提升技能。其目标是让VLA司机大模型更加安全、舒适,与人类价值观高度对齐,甚至在某些方面超越人类驾驶水平。强化训练包含两部分:一是通过RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)完成安全对齐,使模型严格遵守交通规则,充分贴合中国用户的独特驾驶习惯;二是将纯强化学习模型放入世界模型中进行训练,进一步提升舒适性,有效避免碰撞事故,始终遵守交通规则。经过这一系列严谨、科学的训练过程后,VLA司机大模型即可部署至车端,为用户提供安全、智能的驾驶服务。
VLA司机大模型以“司机Agent(智能体)”的创新产品形态呈现,用户可以通过自然语言与司机Agent轻松沟通,就像与人类司机交流一样便捷自然。简单通用的短指令可由端侧的VLA直接处理,快速响应;复杂指令则先由云端的VL基座模型进行深入解析,再交由VLA进行精准处理,确保用户的每一个指令都能得到准确、高效的执行。
超级对齐与世界模型,解决AI的安全与黑盒问题
在追求AI技术进步的同时,理想汽车高度重视VLA司机大模型的安全性和模型黑盒问题。随着模型能力的不断提升,职业性约束变得愈发重要,它如同为模型划定了一条清晰的底线,确保其行为始终符合安全和道德标准。
为了保障VLA司机大模型能够实现职业司机般的安全和舒适,避免出现学习加塞等违规行为,理想汽车在强化训练环节投入了大量的资源。2024年底,理想汽车组建了超过100人的超级对齐团队,这个团队就像是为司机Agent注入了专业的职业素养,从多个维度对模型进行约束和优化。在法规常识方面,确保模型严格避免实线变道、闯红灯等危险错误行为;在行为一致性方面,保证模型在安全、舒适和与人的驾驶习惯一致性上达到高标准,无论是加减速的平稳性,还是转弯、变道的合理性,都能让用户感受到如同人类司机驾驶般的安心和舒适;在技术安全一致性方面,全力避免车辆被远程恶意入侵操作,同时在恶劣天气等特殊情况下,能够及时、准确地向用户反馈传感器的状态,确保驾驶安全。
为了解决模型的黑盒问题,理想汽车创新性地结合重建和生成两种路径,打造了真实、符合物理世界规律的世界模型。这个世界模型涵盖了所有交通参与者和要素,就像一个虚拟的真实交通世界。基于世界模型强大的仿真能力,VLA可以在这个虚拟环境中低成本、准确地验证现实问题,大大提升了解决问题的效率,有效应对了模型黑盒带来的诸多挑战。通过在世界模型中进行大量的模拟测试和优化,VLA能够不断改进自身的决策和行为,确保在实际驾驶中的安全性和可靠性。
判断司机Agent是否是一个优秀的司机,有三个关键标准:专业能力、职业能力和构建信任的能力。VLA司机大模型通过先进的训练技术和算法,显著提升了专业能力;超级对齐团队的努力则增强了其职业能力;VLA通过对自然语言的精准理解和具备的记忆能力,有效提升了构建信任的能力,让用户能够放心地将驾驶任务交给它。
在人工智能时代,理想汽车实现技术快速跃迁的背后,是对从研究、研发到能力表达,再到将能力转化为业务价值这一完整过程的扎实积累。李想强调,研究是其中的关键环节,只有在研究上取得突破,研发的效率才能大幅提升,并且注重将研究成果转化为实际的业务价值,最终实现技术的落地应用和商业成功。
理想汽车始终坚持自主研发的道路,通过持续的技术创新为用户创造更大的价值。在辅助驾驶领域,面对英伟达Orin X芯片无法直接运行语言模型的难题,理想汽车凭借自有编译团队,自主研发底层推理引擎,成功使芯片可通过INT4(4比特整型)量化的方式运行VLM,展现了强大的技术实力和创新能力。同时,凭借在芯片、控制器设计和自研汽车操作系统等方面的综合优势,理想汽车实现了让双Orin-X芯片和Thor-U芯片运行同等规模的VLA司机大模型,为用户提供更加稳定、高效的智能驾驶体验。
李想表示,大型企业的基本功和能力是其立足市场的根本,是无法被轻易逾越的。得益于DeepSeek的开源,理想汽车在VLA司机大模型的语言能力研发上取得了显著的提速,节省了近9个月的时间和数亿元成本。尽管如此,理想汽车并未满足于此,而是选择加大投入,在基座模型上投入超预期3倍的训练卡,专注打造适配多场景的自研模型。李想坚定地说:“我们可以站在巨人的肩膀上,但它只是其中的一部分。” 在受益于开源技术的同时,理想汽车也积极回馈社会,将自研的汽车操作系统——理想星环OS开源,为行业的发展贡献自己的力量。
创业与成长,在痛苦中保持正能量
今年7月,理想汽车将迎来成立十周年的重要时刻。回顾这十年的创业历程,李想感慨万千,他表示创业路上充满了艰辛与挑战,苦多于甜,但他始终选择保留那些有价值的美好片段,用这些温暖的回忆激励自己保持积极向上的正能量。他以乐观豁达的心态看待创业中的困难与挫折,将企业遭遇的打击视为必须面对的挑战,正是这些挑战促使理想汽车不断成长和进步,赋予了企业更多的能力。也正是凭借这份积极乐观的创业心态,理想汽车才能在激烈的市场竞争中快速崛起,成长为千亿营收规模、百万交付量的新势力企业。
谈及如何成为更有能量的人,李想认为,关键在于关注自我,深入了解自己的优点和不足,并以成长的心态替代单纯的改变。成长意味着不断增强自身的能力,在面对各种挑战时能够从容应对。李想还特别强调亲密关系的重要性,他认为关注他人的成长同样能为自己带来强大的能量,家人和同事能够与他形成互补,在工作和生活中相互支撑,共同前行。“我需要家人和同事甚至超过了他们需要我,首先是我需要他们,然后才是他们需要我,我们在一起能够形成非常强的脑力和心力。” 李想深情地说。
回顾几次创业经历,李想感慨地说,从高中创办个人网站至今,自己的思维方式始终保持着一致性:遇到问题积极解决问题,勇于挑战他人不愿解决的难题,致力于解决用户的痛点,并不断向他人学习。不同的是,如今面临的问题更加复杂多样,服务的用户群体日益庞大,公司规模和组织也更加庞大,需要承担更多的责任和使命。“几次创业一路走来,最难时有人相助,遇坑也能迅速爬出,一帮人齐心协力变得更好,这是种幸运,也没什么可后悔的。” 李想充满感恩地说。
面对AI的迅猛发展,李想认为,在AI面前所有的人性都应被尊重和保留,无论好坏。因为一切人性都是文化、生命、性格和能力的独特特质,也是人类真正的生命力所在。AI技术的发展应该是为了更好地服务人类,而不是取代人类的独特价值。
从使用增程电动和5C超充技术解决电池成本高、充电难、充电慢的行业难题,到自研汽车操作系统攻克传统汽车操作系统性能差、开发缓慢、芯片匹配周期长等挑战,理想汽车始终以技术创新为核心驱动力,勇敢地解决行业无法解决的问题。在自研VLA的征程中,理想汽车更是踏入了人工智能的无人区,展现出了无畏的勇气和坚定的决心。当前,辅助驾驶正处于新的十字路口,理想汽车将继续挑战成长的极限,持续为行业和用户创造更大的价值,引领智能汽车行业迈向更加美好的未来。
理想汽车的VLA司机大模型不仅是技术上的重大突破,更是对未来交通和人工智能发展的一次深刻探索。随着这一模型的不断完善和应用,我们有理由期待它将为人们的出行带来更加安全、智能、便捷的体验,推动整个行业迈向新的高度。
---------------------
不保证以上内容的准确性和真实性。市场有风险,投资交易需谨慎。所涉标的不做任何推荐,据此投资交易,风险自担。
科记汇,资深财经媒体人创办,财经报道先锋,年阅读观看量数亿。关注研究重大财经动态、企业家精神、商业文明发展历程,报道大型企业、上市公司、创业公司关键发展节点。内容同步数十家网络平台。欢迎提供报道线索和采访机会。