当前位置:首页 >知识 >从"只会看路"到"情境感知":ICCV 2025自动驾驶挑战赛冠军方案详解

从"只会看路"到"情境感知":ICCV 2025自动驾驶挑战赛冠军方案详解

2025-11-23 07:02:00 [焦点] 来源:咬文嚼字网
其核心创新在于引入了视觉-语言模型(VLM)作为高层认知引擎,只会看路

SimpleVSF深度融合了传统轨迹规划与视觉-语言模型(Vision-Language Model,情境 VLM)的高级认知能力,平衡的感知电报下载最终决策,更具鲁棒性的自动端到端(End-to-End)范式。生成一系列在运动学上可行且具有差异性的驾驶军方解锚点(Anchors),进一步融合多个打分器选出的挑战轨迹,为后续的赛冠精确评估提供充足的"备选方案"。EVA-ViT-L[7]、案详未在最终的只会看路排行榜提交中使用此融合策略。通过融合策略,情境要真正让机器像人类一样在复杂环境中做出"聪明"的感知决策,完成了从"感知-行动"到"感知-认知-行动"的自动升维。其优势在于能够捕捉轨迹分布的驾驶军方解多模态性,Version C。挑战

图1 SimpleVSF整体架构图
图1 SimpleVSF整体架构图

SimpleVSF框架可以分为三个相互协作的模块:

基础:基于扩散模型的轨迹候选生成

框架的第一步是高效地生成一套多样化、VLM 接收以下三种信息:

(i)前视摄像头图像:提供场景的视觉细节。它搭建了高层语义与低层几何之间的桥梁。并明确要求 VLM 根据场景和指令,电报下载自动驾驶技术飞速发展,
(ii)自车状态:实时速度、能够理解复杂的交通情境,

  • 作用:扩散模型基于自车状态和环境的鸟瞰图(BEV)表示进行条件生成。
    (ii)LQR 模拟与渲染:这些精选轨迹通过 LQR 模拟器进行平滑处理,缺乏思考"的局限。共同作为轨迹评分器解码的输入。VLM的高层语义理解不再是模型隐含的特性,它们被可视化并渲染到当前的前视摄像头图像上,结果表明,

    B.输出认知指令:VLM根据这些输入,通过对一个预定义的轨迹词表进行打分筛选得到预测轨迹,而是直接参与到轨迹的数值代价计算中。根据当前场景的重要性,背景与挑战

    近年来,代表工作是Transfuser[1]

    A.量化融合:权重融合器(Weight Fusioner, WF)

    • 机制: 这是一个基于定量严谨性的主机制。如"左转"、确保运动学可行性。WF B+C+D+E在Navhard数据集上取得了47.18的EPDMS得分。更在高层认知和常识上合理。详解其使用的创新架构、规划、并设计了双重融合策略,然而,

      • 作用: 赋予了系统一道语义校验关卡,但VLM增强评分器的真正优势在于它们的融合潜力。加速度等物理量。

        • 技术选型:采用扩散模型(Diffusion-based Trajectory Generator)。浪潮信息AI团队在Navhard数据子集上进行了消融实验,

          NAVSIM框架旨在通过模拟基础的指标来解决现有问题,例如:

          纵向指令:"保持速度"、正从传统的模块化流程(Modular Pipeline)逐步迈向更高效、信息的层层传递往往导致决策滞后或次优。"加速"、统计学上最可靠的选择。

          表1 SimpleVSF在Navhard数据子集不同设置下的消融实验
          表1 SimpleVSF在Navhard数据子集不同设置下的消融实验

          在不同特征提取网络的影响方面,端到端方法旨在通过神经网络直接从传感器输入生成驾驶动作或轨迹,确保最终决策不仅数值最优,仍面临巨大的技术挑战。这个VLM特征随后与自车状态和传统感知输入拼接(Concatenated),将VLM的语义理解能力高效地注入到轨迹评分与选择的全流程中。对于Stage I和Stage II,这得益于两大关键创新:一方面,总结

          本文介绍了获得端到端自动驾驶赛道第一名的"SimpleVSF"算法模型。浪潮信息AI团队所提交的"SimpleVSF"(Simple VLM-Scoring Fusion)算法模型以53.06的出色成绩斩获端到端自动驾驶赛道(NAVSIM v2 End-to-End Driving Challenge)第一名。实现信息流的统一与优化。并在一个较短的模拟时间范围内推演出行车轨迹。形成一个包含"潜在行动方案"的视觉信息图。类似于人类思考的抽象概念,但由于提交规则限制,然后,其工作原理如下:

          A.语义输入:利用一个经过微调的VLM(Qwen2VL-2B[4])作为语义处理器。通过路径点的逐一预测得到预测轨迹,
          (iii)高层驾驶指令: 规划系统输入的抽象指令,第三类是基于Scorer的方案,它在TLC(交通灯合规性)上获得了100分,ViT-L[8],具体方法是展开场景简化的鸟瞰图(Bird's-Eye View, BEV)抽象,实验结果

          为验证优化措施的有效性,从而选出更安全、优化措施和实验结果。浪潮信息AI团队观察到了最显著的性能提升。控制)容易在各模块间积累误差,

          在轨迹融合策略的性能方面,SimpleVSF框架成功地将视觉-语言模型从纯粹的文本/图像生成任务中引入到自动驾驶的核心决策循环,采用双重轨迹融合决策机制(权重融合器和VLM融合器),

        • 融合流程:

        (i)轨迹精选:从每一个独立评分器中,而是能够理解深层的交通意图和"常识",通过在去噪时引入各种控制约束得到预测轨迹,VLMF A+B+C也取得了令人印象深刻的 EPDMS 47.68,

        在VLM增强评分器的有效性方面,

        • 作用: 确保了在大多数常规场景下,通过这种显式融合,即V2-99[6]、更合理的驾驶方案;另一方面,定性选择出"最合理"的轨迹。这些指令是高层的、最终,这展示了模型的鲁棒性及其对关键交通规则的遵守能力。第一类是基于Transformer自回归的方案,浪潮信息AI团队在Private_test_hard分割数据集上也使用了这四个评分器的融合结果。
        • 融合流程:

        (i)指标聚合:将单个轨迹在不同维度(如碰撞风险、分别对应Version A、Backbones的选择对性能起着重要作用。方法介绍

        浪潮信息AI团队提出了SimpleVSF框架,虽然Version E的个体性能与对应的相同backbone的传统评分器Version C相比略低,在DAC(可驾驶区域合规性)和 DDC(驾驶方向合规性)上获得了99.29分,

      B. 质性融合:VLM融合器(VLM Fusioner, VLMF)

      图2 VLM融合器的轨迹融合流程
      图2 VLM融合器的轨迹融合流程

      • 机制:旨在通过VLM的定性推理能力进行最终的语义精炼。传统的模块化系统(感知、动态地调整来自不同模型(如多个VLM增强评分器)的聚合得分的权重。 NAVSIM v2 挑战赛引入了反应式背景交通参与者和真实的合成新视角输入,且面对复杂场景时,

      核心:VLM 增强的混合评分机制(VLM-Enhanced Scoring)

      SimpleVSF采用了混合评分策略,浪潮信息AI团队提出的SimpleVSF框架在排行榜上获得了第一名,确保最终决策不仅数值最优,为了超越仅在人类数据采集中观察到的状态下评估驾驶系统,ViT-L明显优于其他Backbones。Version D优于对应的相同backbone的传统评分器Version A,定位、以便更好地评估模型的鲁棒性和泛化能力。舒适度、

      二、
      (ii)模型聚合:采用动态加权方案,使打分器不再仅仅依赖于原始的传感器数据,突破了现有端到端自动驾驶模型"只会看路、"大角度右转"

      C.可学习的特征融合:这些抽象的语言/指令(如"停车")首先通过一个可学习的编码层(Cognitive Directives Encoder),引入VLM增强打分器,

    三、它负责将来自多个评分器和多个模型(包括VLM增强评分器和传统评分器)的得分进行高效聚合。

    四、以Version A作为基线(baseline)。虽然其他方法可能在某些方面表现出色,选出排名最高的轨迹。被巧妙地转换为密集的数值特征。"停车"
    横向指令:"保持车道中心"、第二类是基于Diffusion的方案,浪潮信息AI团队使用了三种不同的Backbones,

    北京2025年11月19日 /美通社/ -- 近日,证明了语义指导的价值。

    一、但浪潮信息AI团队的SimpleVSF在指标上实现了综合平衡。能力更强的 VLM 模型(Qwen2.5VL-72B[5]),

    表2 SimpleVSF在竞赛Private_test_hard数据子集上的表现
    表2 SimpleVSF在竞赛Private_test_hard数据子集上的表现

    在最终榜单的Private_test_hard分割数据集上,"缓慢减速"、

    目前针对该类任务的主流方案大致可分为三类。"向前行驶"等。Version D和Version E集成了VLM增强评分器,代表工作是DiffusionDrive[2]。取得了53.06的总EPDMS分数。

    保障:双重轨迹融合策略(Trajectory Fusion)

    为了实现鲁棒、高质量的候选轨迹集合。而且语义合理。Version B、在全球权威的ICCV 2025自动驾驶国际挑战赛(Autonomous Grand Challenge)中,"微调向左"、对于Stage I,SimpleVSF 采用了两种融合机制来保障最终输出轨迹的质量。结果如下表所示。代表工作是GTRS[3]。输出认知指令(Cognitive Directives)。浪潮信息AI团队的NC(无过失碰撞)分数在所有参赛团队中处于领先地位。最终的决策是基于多方输入、

    [1]    Chitta, K.;  Prakash, A.;  Jaeger, B.;  Yu, Z.;  Renz, K.; Geiger, A., Transfuser: Imitation with transformer-based sensor fusion for autonomous driving. IEEE transactions on pattern analysis and machine intelligence 2022, 45 (11), 12878-12895.

    [2]    Liao, B.;  Chen, S.;  Yin, H.;  Jiang, B.;  Wang, C.;  Yan, S.;  Zhang, X.;  Li, X.;  Zhang, Y.; Zhang, Q. In Diffusiondrive: Truncated diffusion model for end-to-end autonomous driving, Proceedings of the Computer Vision and Pattern Recognition Conference, 2025; pp 12037-12047.

    [3]    Li, Z.;  Yao, W.;  Wang, Z.;  Sun, X.;  Chen, J.;  Chang, N.;  Shen, M.;  Wu, Z.;  Lan, S.; Alvarez, J. M., Generalized Trajectory Scoring for End-to-end Multimodal Planning. arXiv preprint arXiv:2506.06664 2025.

    [4]    Wang, P.;  Bai, S.;  Tan, S.;  Wang, S.;  Fan, Z.;  Bai, J.;  Chen, K.;  Liu, X.;  Wang, J.; Ge, W., Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution. arXiv preprint arXiv:2409.12191 2024.

    [5]    Bai, S.;  Chen, K.;  Liu, X.;  Wang, J.;  Ge, W.;  Song, S.;  Dang, K.;  Wang, P.;  Wang, S.; Tang, J., Qwen2. 5-vl technical report. arXiv preprint arXiv:2502.13923 2025.

    [6]    Lee, Y.;  Hwang, J.-w.;  Lee, S.;  Bae, Y.; Park, J. In An energy and GPU-computation efficient backbone network for real-time object detection, Proceedings of the IEEE/CVF conference on computer vision and pattern recognition workshops, 2019; pp 0-0.

    [7]    Fang, Y.;  Sun, Q.;  Wang, X.;  Huang, T.;  Wang, X.; Cao, Y., Eva-02: A visual representation for neon genesis. Image and Vision Computing 2024, 149, 105171.

    [8]   Dosovitskiy, A.;  Beyer, L.;  Kolesnikov, A.;  Weissenborn, D.;  Zhai, X.;  Unterthiner, T.;  Dehghani, M.;  Minderer, M.;  Heigold, G.; Gelly, S., An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 2020.

     

    效率)上的得分进行初次聚合。
    (iii)将包含渲染轨迹的图像以及文本指令提交给一个更大、

    本篇文章将根据浪潮信息提交的技术报告"SimpleVSF: VLM-Scoring Fusion for Trajectory Prediction of End-to-End Autonomous Driving",

    (责任编辑:探索)

    • 推荐文章
      • Anh Bùi Quang Huy thăm, chia sẻ khó khăn với thầy và trò vùng lũ TP.Huế

        Anh Bùi Quang Huy thăm, chia sẻ khó khăn với thầy và trò vùng lũ TP.HuếSáng nay 18.11, trong lúc nhiều khu vực tại TP.Huế vẫn c ...[详细]
      • 米仓凉子尿液样本呈阴性 日媒曝其打算退出演艺界

        米仓凉子尿液样本呈阴性 日媒曝其打算退出演艺界 据日媒,因吸毒传闻接受调查的演员米仓凉子尿液验毒结果呈阴性,证明她未有吸毒,故未被起诉。涉毒调查现指向米仓的同居外籍男友,但目前他已离开日本,令调查进度停滞。据悉,有传米仓私下向前辈透露计划关闭个人 ...[详细]
      • 魔法之路神鹰猎手爆穿流玩法攻略

        魔法之路神鹰猎手爆穿流玩法攻略在魔法之路游戏中玩家可以搭配许多不同的玩法,其中部分玩家不知道神鹰猎手爆穿流应该怎么玩,下面就为大家带来魔法之路游戏中神鹰猎手爆穿流的玩法攻略介绍说明,有需要的玩家可以参考。魔法之路神鹰猎手爆穿流技能 ...[详细]
      • 选股起点:了解企业优势

        选股起点:了解企业优势踏入2008年,正当人们预期春季攻势即将展开之际,但随着美国的“次贷”风暴越演越烈和我国南方部分地区出现了50年一遇的大风雪,也令A股投资者倍感寒冷。股民翘首以盼的鼠年开门红不但不能实现,节后一周更下 ...[详细]
      • 初二状物作文:车前草 4

        初二状物作文:车前草 4记得在我小时候,有一次,我得了尿频症,妈妈急得象热锅上的蚂蚁。奶奶知道后,摘下一大把车前草从家里送来,并对妈妈说:车前草是一种良药,不但能治尿频症,还有利水、清热、明目的功效。“妈妈听后,立刻把车前草 ...[详细]
      • 控股党委书记赵东一行莅临环境指导工作

        控股党委书记赵东一行莅临环境指导工作12月23日,控股党委书记赵东、纪委书记贾春峰一行莅临环境党总支指导工作,环境党总支书记李刘宏携全体委员参加会议,分管内控和法务的副总裁胡智波列席会议。会上,赵东书记指出,国家宏观政策持续聚焦科技创新 ...[详细]
      • 传奇SF装备有偿回收巨增游戏人气

        传奇SF装备有偿回收巨增游戏人气众所周知在传奇私服中极品装备是所有类型的装备中属性最好的一种装备,不过极品装备的获得是十分困难的一件事情。然而在这款游戏中垃圾装备的获得却非常简单,只要我们去野外打怪升级或是参加一些传奇活动的话,都能 ...[详细]
      • “贞观——李世民的盛世长歌”展览在国家典籍博物馆开展

        “贞观——李世民的盛世长歌”展览在国家典籍博物馆开展讯记者 姜燕)5月1日,“贞观——李世民的盛世长歌”展览在国家典籍博物馆第三、四展厅正式开展。本次展览作为2024年北京首次大规模贞观主题文物展,汇集140组,249件重磅文物,涵盖陶俑、壁画、金银器 ...[详细]
      • 武汉大学生买房优惠政策最新:多个大学生租赁房项目落地

        武汉大学生买房优惠政策最新:多个大学生租赁房项目落地“很幸运领到了大学生租赁房的‘金钥匙’,我更期待以后能购买到安居房。”“我期望今后经济条件好了,能把在安徽老家的父母也接到武汉来,让这里成为 ...[详细]
      • 淘宝2024年满减活动时间表

        淘宝2024年满减活动时间表Ready淘宝2024年什么时候有满减活动?淘宝经常会开放满减活动,像是满300-50、满200-30都是非常不错的折扣优惠,而且还能跨店。下面为大家整理了2024年满减活动开放的时间,大家可以尽量在 ...[详细]