当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(四十一)

请添加图片描述

Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding Bridge

➡️ 论文标题:Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding Bridge
➡️ 论文作者:Yuxuan Wang, Yueqian Wang, Pengfei Wu, Jianxin Liang, Dongyan Zhao, Yang Liu, Zilong Zheng
➡️ 研究机构: Beijing Institute for General Artificial Intelligence (BIGAI), Wangxuan Institute of Computer Technology, Peking University, State Key Laboratory of General Artificial Intelligence
➡️ 问题背景:尽管多模态大语言模型(MLLMs)在处理视频-语言任务方面取得了显著进展,但解释长视频以响应语言查询的能力仍然受到限制,主要原因是时间对齐的低效和预训练上下文窗口大小的限制。这导致了在处理长视频时的计算开销和时间动态线索与语言之间的不匹配问题。
➡️ 研究动机:为了克服现有方法在处理长视频时的计算效率低下、训练和推理速度慢以及可能遗漏重要运动特征等问题,研究团队提出了一种新的框架——时间对齐桥(Temporal Grounding Bridge, TGB),旨在增强MLLMs的时间对齐能力,并扩展其上下文范围。
➡️ 方法简介:TGB框架通过三个关键创新来显著提升MLLMs的时间处理能力:1) 一种高效的多跨度时间对齐算法,应用于从光流中提取的低维时间特征;2) 一种多模态长度外推训练范式,利用低维时间特征扩展训练上下文窗口大小;3) 一种引导框架,无需注释即可将TGB与可插拔的MLLMs连接起来。
➡️ 实验设计:研究团队在七个视频基准数据集上验证了TGB的有效性,包括AGQA 2.0、NExT-QA、Egoschema、MSVD、MSRVTT和ActivityNet。实验设计了不同类型的视频-语言理解任务,如长视频问答和零样本开放域视频问答,以及时间问题对齐任务。实验结果表明,TGB在多个数据集上均表现出显著的性能提升,特别是在处理长达16倍于训练序列长度的视频时,仍能保持高性能。

Cross-Modal Projection in Multimodal LLMs Doesn’t Really Project Visual Attributes to Textual Space

➡️ 论文标题:Cross-Modal Projection in Multimodal LLMs Doesn’t Really Project Visual Attributes to Textual Space
➡️ 论文作者:Gaurav Verma, Minje Choi, Kartik Sharma, Jamelle Watson-Daniels, Sejoon Oh, Srijan Kumar
➡️ 研究机构: Georgia Institute of Technology, Harvard University
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)如LLaVA和GPT-4(V)能够通过语言模态与图像进行通用对话。然而,这些模型在特定领域(如皮肤病学和农业)的图像上的能力有限,需要通过微调来解锁特定领域的应用。MLLMs的主流架构包括两个主要模块:图像-语言(跨模态)投影网络和大型语言模型。理解这两个模块在建模特定领域视觉属性中的作用,对于指导未来模型的设计和提高当前模型的可解释性至关重要。
➡️ 研究动机:尽管通过微调可以提高MLLMs在特定领域的视觉能力,但研究发现,这些改进并不导致投影层提取更丰富的特定领域视觉属性。研究团队通过实验发现,特定领域的视觉属性主要由大型语言模型(LLM)参数建模,即使仅微调投影层也是如此。这项研究旨在重新解释跨模态投影在MLLM架构中的作用。
➡️ 方法简介:研究团队通过在4个数据集上进行实验,比较了两种微调策略的效果:仅微调投影层和端到端微调整个MLLM。实验结果表明,虽然两种策略都能提高特定领域的图像分类性能,但投影层的更新并未导致更丰富的特定领域特征提取。相反,这些特征主要由LLM参数识别或建模。
➡️ 实验设计:研究团队使用LLaVA-1.5模型进行了实验,该模型使用LLaMA-2-7B作为LLM骨干。实验包括了农业、纹理、皮肤病学和人道主义四个领域的图像分类任务。通过训练独立的多层感知器(MLP)来评估微调前后投影层的特定领域丰富度,并与MLLM的整体性能进行对比。结果表明,特定领域的视觉属性主要由LLM参数建模,即使在LLM参数保持冻结的情况下也是如此。

GROUNDHOG: Grounding Large Language Models to Holistic Segmentation

➡️ 论文标题:GROUNDHOG: Grounding Large Language Models to Holistic Segmentation
➡️ 论文作者:Yichi Zhang, Ziqiao Ma, Xiaofeng Gao, Suhaila Shakiah, Qiaozi Gao, Joyce Chai
➡️ 研究机构: University of Michigan, Amazon AGI
➡️ 问题背景:当前的多模态大型语言模型(Multimodal Large Language Models, MLLMs)在需要非语言知识的任务中,如视觉世界的感知和推理,受到了越来越多的关注。然而,这些模型通常通过因果语言建模学习语言到对象的对齐,其中对齐的对象由边界框作为位置标记的序列捕捉。这种范式缺乏像素级表示,这对于细粒度视觉理解和诊断至关重要。
➡️ 研究动机:为了克服现有模型在细粒度视觉理解上的不足,研究团队提出了GROUNDHOG,一种通过将大型语言模型与整体分割对齐来增强其文本输出的多模态大型语言模型。GROUNDHOG旨在通过像素级的视觉-语言对齐,提高模型在复杂视觉输入上的对齐能力,并减少对象幻觉。
➡️ 方法简介:GROUNDHOG结合了一个掩码特征提取器,该提取器从输入图像和一组类别无关的实体掩码提案中提取每个掩码的特征,并将其转换为视觉实体标记,供MLLM主干使用。MLLM主干通过检索和合并实体掩码,将可对齐的短语连接到统一的对齐掩码。为了训练GROUNDHOG,研究团队精心策划了M3G2数据集,该数据集包含250万对文本-图像对,用于视觉对齐的指令调优。
➡️ 实验设计:研究团队在多个视觉-语言任务上进行了广泛的实验,包括基于对齐的语言生成、语言引导的分割、带有答案对齐的视觉问答和带有空间指针输入的指称对话。实验结果表明,GROUNDHOG在各种语言对齐任务上表现出色,无需针对特定任务进行微调,并且显著减少了对象幻觉。此外,GROUNDHOG在对齐失败时提供了易于理解的诊断。

OSCaR: Object State Captioning and State Change Representation

➡️ 论文标题:OSCaR: Object State Captioning and State Change Representation
➡️ 论文作者:Nguyen Nguyen, Jing Bi, Ali Vosoughi, Yapeng Tian, Pooyan Fazli, Chenliang Xu
➡️ 研究机构: University of Rochester、University of Texas at Dallas、Arizona State University
➡️ 问题背景:当前的人工智能模型在理解物体状态变化方面存在挑战,尤其是在现实世界中通过人类交互的视角。这项任务不仅涉及描述复杂的视觉环境,还需要识别活跃的物体并解释其状态变化。传统的物体描述和状态变化检测方法提供了有限的动态环境视图,且依赖于少量的符号词来表示变化,限制了语言的表达能力。
➡️ 研究动机:为了克服这些挑战,研究团队引入了Object State Captioning and State Change Representation (OSCaR) 数据集和基准测试。OSCaR 包含14,084个标注的视频片段,涉及近1,000个独特的物体,来自多个第一人称视角的视频集合。该数据集为评估多模态大语言模型(MLLMs)提供了一个新的测试平台。实验表明,尽管MLLMs在某些任务上表现出一定的能力,但在理解物体状态变化方面仍存在不足,需要在准确性和泛化能力上进行显著改进。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建高质量的视觉指令,利用简单的注释来指导GPT-4V生成详细的描述。该方法不仅适用于图像,也适用于视频,为未来的视觉指令调优研究提供了良好的起点。此外,研究还引入了多个选择题和对话生成方法,以增强数据的多样性和丰富性。
➡️ 实验设计:实验在两个公开数据集(EPIC-KITCHENS 和 Ego4D)上进行,包括500个视频,每个视频有四个详细的标注。评估指标包括BLEU、Rouge、LSA等文本生成指标。此外,研究还设计了两个开放世界的评估集,分别测试模型在烹饪领域和非烹饪领域的泛化能力。通过这些实验,研究团队验证了模型在不同场景下的表现,并为未来的模型训练提供了宝贵的数据和方法支持。

Probing Multimodal Large Language Models for Global and Local Semantic Representations

➡️ 论文标题:Probing Multimodal Large Language Models for Global and Local Semantic Representations
➡️ 论文作者:Mingxu Tao, Quzhe Huang, Kun Xu, Liwei Chen, Yansong Feng, Dongyan Zhao
➡️ 研究机构: Peking University、Kuaishou Technology
➡️ 问题背景:多模态大语言模型(MLLMs)在理解集成文本和图像的应用中取得了显著进展。然而,关于这些模型如何在不同层面上编码全局和局部语义信息的研究相对较少。特别是,对于生成任务,模型可能只需要关注图像的局部部分和文本的子序列,而在图像-文本检索等任务中,模型需要编码整个图像和文本的全局语义信息。
➡️ 研究动机:现有研究主要集中在MLLMs生成单个标记的能力上,而缺乏对其表示向量如何编码全局多模态信息的探讨。本研究旨在通过探针研究,揭示MLLMs在不同层面上如何编码全局和局部语义信息,特别是解码器-only MLLMs的表示能力。
➡️ 方法简介:研究团队设计了一个图像-文本蕴含任务,以探测MLLMs编码全局跨模态信息的能力,并通过对象识别任务研究局部表示。通过构建基于MS COCO的数据集,研究团队评估了不同模型在不同层面上的表示向量对任务的贡献。
➡️ 实验设计:实验在四个流行的解码器-only MLLMs(Kosmos-2、LaVIT、Emu、Qwen-VL)上进行,参数规模从7B到14B不等。实验设计了不同的提示(如包含类别信息和不包含类别信息的提示),以评估模型在不同条件下的表现。实验结果表明,中间层的表示向量在全局信息编码任务中表现最佳,而顶层则过度关注局部信息,导致全局信息编码能力下降。

相关文章:

  • 03实战篇Redis02(优惠卷秒杀、分布式锁)
  • 精益数据分析(23/126):把握创业阶段与第一关键指标
  • 隐形革命:环境智能如何重构“人-机-境“共生新秩序
  • MySql 数据 结构 转为SqlServer (简单)
  • 百度文心4.5 Turbo与DeepSeek、豆包、元宝对比:技术路径与市场格局分析​​
  • python基础-requests结合AI实现自动化数据抓取
  • iphonex uniapp textarea标签兼容性处理过程梳理
  • 秒级到毫秒:BFD的速度革命
  • 从零开始学习人工智能Day5-Python3 模块
  • 热度上升,25西电机电工程学院(考研录取情况)
  • 期货有哪些种类?什么是股指、利率和外汇期货?
  • 前端面试常见部分问题,及高阶部分问题
  • 高级电影感户外街拍人像摄影后期Lr调色教程,手机滤镜PS+Lightroom预设下载!
  • 深度剖析!GPT-image-1 API 开放对 AI 绘画技术生态的冲击!
  • vue3 使用 vite 管理多个项目,实现各子项目独立运行,独立打包
  • 反爬虫机制中的验证码识别:类型、技术难点与应对策略
  • 电商数据中台架构:淘宝 API 实时采集与多源数据融合技术拆解
  • 蓝桥杯 6. 冰雹数
  • 2025年大语言模型平台、主流模型及Token价格的综合对比分析报告
  • freeswitch配置视频对接
  • 金正恩出席朝鲜人民军海军驱逐舰入水仪式
  • 中央政治局会议举行,传递三重确定性
  • 东北财大“一把手”调整:方红星任校党委书记,汪旭晖任校长
  • 韩国首尔江南区一大型商场起火,消防部门正在灭火中
  • 上海银行一季度净赚逾62亿增2.3%,不良贷款率与上年末持平
  • 全球84%的珊瑚礁已遭受白化事件影响