当前位置: 首页 > news >正文

论文速报《ChatBEV:理解BEV地图的视觉语言模型新突破》

论文链接:https://arxiv.org/pdf/2503.13938
代码链接:https://github.com/xuqingyao/ChatBEV

0. 简介

近日,上海交通大学、上海人工智能实验室、同济大学与MAGIC团队联合推出了题为《ChatBEV: A Visual Language Model that Understands BEV Maps》的前沿论文,聚焦交通场景理解领域,特别是基于鸟瞰视图(BEV, Bird’s Eye View)地图的视觉语言模型(VLM)研究。该工作不仅提出了大规模BEV视觉问答(VQA)数据集ChatBEV-QA,还设计了专门适配BEV地图的视觉语言模型ChatBEV,并创新性地将其应用于真实感交通场景生成,实现了交通智能系统中更精准的环境理解和行为预测。
在这里插入图片描述

图1. 我们提出了ChatBEV-QA,这是一个可扩展的鸟瞰视角(BEV)视觉问答(VQA)基准,涵盖了全面的场景理解任务。基于ChatBEV-QA,我们经过微调的ChatBEV模型在场景理解任务中表现出色,并为后续应用(如场景生成)提供了高层次的指导。

1. 研究背景与主要贡献

交通场景的全面理解是智能交通系统和自动驾驶安全高效运行的关键。虽然近年来视觉语言模型在自然图像场景理解中取得了显著进展,但针对交通领域、特别是BEV地图的多模态理解尚处于探索初期。现有方法多受限于任务设计和数据规模,难以实现对车辆、车道及车辆间复杂交互的全面推理。

本文的核心贡献包括:

  1. ChatBEV-QA数据集:构建了涵盖超过13.7万个问题的BEV视觉问答基准,设计了涵盖全局场景理解、车辆-车道交互及车辆-车辆交互的多维度问题体系,促进对交通场景的深层理解。

  2. 自动化数据构建流程:基于nuPlan数据集,提出三步自动化流水线,从问题设计、注释提取到VQA生成,确保数据丰富且结构化,支持大规模扩展。

  3. ChatBEV视觉语言模型:基于先进的视觉语言模型架构,结合LoRA微调技术,针对BEV地图的特殊语义结构进行定制优化,显著提升模型在BEV理解任务上的表现。

  4. 语言驱动的交通场景生成:提出以ChatBEV为地图理解提取器的条件扩散架构,实现文本指导下的真实一致交通场景生成,增强自动驾驶环境模拟的准确性与多样性。

2. 相关工作综述

2.1 视觉语言模型(VLM)

视觉语言模型是计算机视觉与自然语言处理交叉的关键研究方向,旨在融合视觉与文本信息,提升理解与生成能力。早期研究多聚焦于单任务监督学习,如图像描述生成和图像字幕任务。近年来,随着多任务框架的发展,诸如CLIP、ALIGN等模型实现了视觉与语言任务的统一建模。大型语言模型(LLM)的快速发展,如GPT系列,极大推动了VLM的演进,催生了Flamingo、BLIP、LLaVA等融合视觉与语言的强大模型,具备更丰富的语义理解和跨模态推理能力。

2.2 场景理解中的视觉语言方法

随着LLM和VLM的进步,越来越多研究将视觉语言框架应用于自动驾驶场景理解。已有如NuScenes-QA的数据集,提供交通场景的视觉问答评测;Talk2BEV则利用LLM增强BEV地图的物体识别和理解;MAPLM构建了涵盖点云、图像与语言的多模态基准,促进自动驾驶与高清地图系统的融合。然而,针对BEV地图的研究仍较少,且现有任务设计相对单一,往往忽略车辆与车道间的复杂交互,而这对于路径规划和导航至关重要。ChatBEV填补了这一空白,提出了全面考虑车辆-车道交互的BEV理解VQA数据集和模型

2.3 语言驱动的场景生成

交通场景生成是智能交通系统的重要组成部分,旨在基于地图或初始状态模拟车辆轨迹。传统规则驱动方法虽能编码交通规则,但缺乏多样性与真实感;学习驱动方法通过数据学习驾驶模式提升现实感。近年来,可控场景生成兴起,允许根据特定条件调整生成结果。借助LLM,诸如CTG++、LCTGen和InteractTraj等方法实现了基于文本描述的轨迹生成,增强了生成的灵活性和交互性。然而,这些方法普遍忽视了地图理解的重要性。本文创新地将ChatBEV作为地图理解模块,辅助生成更精准且符合上下文的交通场景。


3. 核心算法与方法详解

3.1 自动化数据构建流程

ChatBEV-QA数据集的构建基于三步自动化流程:
在这里插入图片描述

(a) 自动化数据构建流程,包括三个步骤:问题设计、数据收集与标注,以及视觉问答对的生成。
(b) 问题类型的分布(训练集)。
(c ) 答案类别的分布(训练集)。
图2. 数据集构建流程及统计信息的示意图。

  • 问题设计:围绕三大理解维度设计六类问题,涵盖全局环境(区域类型、车道类型)、车辆与车道交互(位置、导航)以及车辆间交互(存在性、相对方向)。每类问题采用多模板设计,确保语义多样性和结构化表达。

  • 数据收集与注释:利用nuPlan数据集的基础注释,设计基于规则的标注函数,自动提取高级语义信息,如车辆所处区域、车道类型、未来轨迹车道ID及周边车辆空间关系。通过人工迭代审核,保证标注质量。生成以车辆为中心的BEV地图,突出兴趣车辆并标明运动方向与车道边界。

  • VQA生成:通过预设模板和注释生成问答对,包含开放式和多选题。为解决类别不均衡问题,引入随机欠采样技术,平衡数据分布,提升模型训练的公平性和泛化能力。

3.2 ChatBEV视觉语言模型设计

在这里插入图片描述

图3:我们基于语言驱动的场景生成模型的推理流程

鉴于BEV地图的紧凑空间结构及语义特征,传统VLM直接应用效果不佳。团队基于LoRA微调技术,对多种先进VLM(如LLaVA、BLIP、InternLM-XComposer2)进行定制化训练,形成ChatBEV系列模型。模型通过视觉指令调整,强化对BEV地图中空间关系和上下文信息的捕捉能力,尤其在区域识别、车道分类及车辆交互推理上表现优异。实验中,ChatBEV-LLaVA-1.5-13b版本表现最佳。

3.3 语言驱动的交通场景生成框架

创新设计了基于条件扩散模型的交通场景生成流程,核心包括:

  • 地图理解提取器:利用ChatBEV模型从BEV地图和文本描述中提取全局理解信息(区域与车道类型one-hot向量)及导航推理信息(文本对齐的车道中心线数据),为后续生成提供丰富上下文。

  • 条件编码器:融合车辆历史状态、文本描述及地图理解信息,生成多模态条件嵌入,确保模型对时空动态和语义信息的综合理解。

  • 扩散解码器:基于CTG++架构,迭代去噪生成未来车辆轨迹。通过时间和空间注意力机制捕捉智能体间的动态关系及几何约束,地图注意层引入车道向量信息,实现地图感知的轨迹预测。

该框架有效结合视觉语言理解与轨迹生成,能够生成符合文本描述且场景一致的动态交通轨迹。


4. 实验与评估

  • 数据集规模与分布:ChatBEV-QA包含约2.5万张BEV图像和13.7万个问答对,训练集和测试集均衡分布多样问题类型。平均每张图像含5.44个问题,覆盖丰富场景与交互。

  • 评估指标:采用Top-1准确率衡量模型在不同问题类型上的表现,细粒度分析全局理解、车-车道交互和车-车交互任务的性能。

  • 基线模型对比:通过对比多种预训练VLM及其微调版本,验证ChatBEV模型在BEV地图理解能力上的显著提升。尤其是ChatBEV-LLaVA-1.5-13b模型,整体准确率领先,具备更强的空间推理和多任务适应力。

  • 场景生成效果:条件扩散模型在文本引导下生成的交通轨迹在准确性和场景一致性方面表现优良,展示了地图理解模块对生成质量的关键促进作用。

---

表1. 不同模型在ChatBEV-QA上的实验结果。最佳结果以粗体显示。我们的ChatBEV在各个方面均取得了最佳结果,并显示出显著的改进。

表2. 不同基础视觉语言模型(VLM)的消融研究。最佳结果以粗体显示,第二佳结果以下划线标出。使用LLaVA-1.5-13b作为基础模型可获得最佳的整体结果。

5. 结论与展望

ChatBEV工作突破了交通场景视觉语言理解的瓶颈,提出了首个大规模BEV视觉问答数据集和专门定制的视觉语言模型,显著增强了对复杂交通环境的多维度理解能力。结合语言驱动的条件扩散生成框架,实现了高质量、文本一致的交通场景模拟,为自动驾驶系统中的环境感知和行为预测提供了强有力的技术支撑。

未来,团队计划进一步扩展数据集规模,探索更高效的多模态融合策略,并将模型应用于实际自动驾驶感知与决策系统中,推动智能交通技术向更安全、智能的方向发展。

相关文章:

  • H5实现一个二维码生成器页面
  • 【MySQL】Java代码操作MySQL数据库 —— JDBC编程
  • 接口测试详解
  • 【Luogu】动态规划六
  • vue3子传父——v-model辅助值传递
  • C++ ——引用
  • 详细PostMan的安装和基本使用方法
  • 低压电工证考试的实操部分主要考察哪些内容?
  • 邀请函|2025 Altair区域技术交流会华北站,报名开启!
  • 安卓基础(适配器和RecyclerView )
  • 【HPC存储性能测试】02-ior带宽性能测试
  • Bolt.diy 一键部署,“一句话”实现全栈开发
  • GPUStack昇腾Atlas300I duo部署模型DeepSeek-R1【GPUStack实战篇2】
  • Java安全之cc链学习集合
  • 【MySQL 】MySQL 安装自记录全程-详细 (mysql-installer-community-8.0.42.0.msi)
  • XLSX.utils.sheet_to_json设置了blankrows:true,但无法获取到开头的空白行
  • 毫米波振荡器设计知识笔记
  • 快速排序及其在Unity游戏开发中的应用
  • 在旧版本中打开Anylogic模型
  • 纯净无噪,智见未来——MAGI-1本地部署教程,自回归重塑数据本质
  • 北京公园使用指南
  • 海南旅文局通报游客入住酒店港币被调包:成立调查组赴陵水调查
  • 日均新开三家“首店”,上海的“首发经济”密码是什么?
  • 30天内三访中国,宝马董事长:没有一家公司可以在全球价值链外独立运行
  • 朱守科任西藏自治区政府副主席、公安厅厅长
  • 中国铝业首季“开门红”:净利润超35亿元,同比增加近六成