多模态大语言模型arxiv论文略读(二十八)
MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception
➡️ 论文标题:MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception
➡️ 论文作者:Yuhao Wang, Yusheng Liao, Heyang Liu, Hongcheng Liu, Yu Wang, Yanfeng Wang
➡️ 研究机构: 上海交通大学合作媒体创新中心、上海人工智能实验室
➡️ 问题背景:多模态大语言模型(MLLMs)在视觉感知和理解方面展现了卓越的能力,但这些模型也存在幻觉问题,即生成与输入图像不一致的响应,这限制了它们作为可靠AI系统的应用。研究指出,这种幻觉部分源于模型在理解图像内容时的自我意识不足,即模型难以判断自己能或不能从图像中感知到什么。
➡️ 研究动机:尽管自我意识在MLLMs中的重要性日益凸显,但这一领域在先前的研究中被忽视。本研究旨在定义和评估MLLMs的自我意识,通过引入知识象限和MM-SAP基准,为提高MLLMs的可靠性和可信度提供新的视角和工具。
➡️ 方法简介:研究团队提出了一个扩展的知识象限框架,该框架不仅考虑了模型参数内的固有知识,还考虑了多模态场景中图像提供的外部信息。基于此框架,研究团队设计了MM-SAP基准,该基准包括三个子数据集,分别评估模型在处理已知信息和未知信息时的自我意识能力。
➡️ 实验设计:研究团队在MM-SAP基准上评估了13个流行的MLLMs,通过计算scorekk(正确回答已知问题的比例)、scoreku(正确拒绝回答未知问题的比例)和scoresa(scorekk和scoreku的总和)来衡量模型的自我意识。实验结果表明,当前的MLLMs在处理已知信息方面表现较好,但在识别未知信息方面存在明显不足,这为未来的研究指明了方向。
AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception
➡️ 论文标题:AesBench: An Expert Benchmark for Multimodal Large Language Models on Image Aesthetics Perception
➡️ 论文作者:Yipo Huang, Quan Yuan, Xiangfei Sheng, Zhichao Yang, Haoning Wu, Pengfei Chen, Yuzhe Yang, Leida Li, Weisi Lin
➡️ 研究机构: Xidian University、Nanyang Technological University、OPPO Research Institute
➡️ 问题背景:尽管多模态大语言模型(MLLMs)在理解、推理和生成方面取得了显著成就,但它们在图像美学感知任务上的表现仍不确定。当前缺乏专门的基准来评估MLLMs在美学感知上的有效性,这可能阻碍更先进的MLLMs的发展。
➡️ 研究动机:为了应对这一挑战,研究团队提出了AesBench,这是一个专家基准,旨在全面评估MLLMs的美学感知能力。通过构建高质量的专家标注美学感知数据库(EAPD)和一套综合评估标准,AesBench旨在填补现有评估工具的空白,促进MLLMs在美学感知领域的进一步发展。
➡️ 方法简介:研究团队构建了包含2,800张多样化来源图像的EAPD,每张图像由美学专家进行高质量标注。此外,研究团队提出了一套从四个维度(感知、共情、评估和解释)系统评估MLLMs美学感知能力的综合标准。
➡️ 实验设计:研究团队在15个知名的MLLMs上进行了广泛的评估,包括两个权威的GPT-4V和Gemini Pro Vision,以及13个最先进的开源模型。实验设计了四个子集(AesPQA、AesEQA、AesAQA和AesInter),分别评估MLLMs在感知、共情、评估和解释四个维度上的表现。实验结果表明,当前的MLLMs在图像美学感知方面与人类仍有显著差距。
COCO is "ALL’’ You Need for Visual Instruction Fine-tuning
➡️ 论文标题:COCO is "ALL’’ You Need for Visual Instruction Fine-tuning
➡️ 论文作者:Xiaotian Han, Yiqi Wang, Bohan Zhai, Quanzeng You, Hongxia Yang
➡️ 研究机构: ByteDance Inc.
➡️ 问题背景:多模态大语言模型(MLLMs)在人工智能领域日益突出。视觉指令微调(IFT)是使MLLMs的输出与用户意图对齐的关键过程。高质量和多样化的指令跟随数据是IFT过程的核心。然而,现有的IFT数据集在多轮对话中表现不佳,且传统的图像描述和视觉问答(VQA)评估基准无法充分评估现代开放生成型MLLMs的能力。
➡️ 研究动机:研究团队注意到,使用现有IFT数据集训练的模型在多轮对话中往往难以正确遵循用户指令。此外,传统的图像描述和VQA评估基准由于其封闭形式的评估结构,无法全面评估现代开放生成型MLLMs的能力。因此,研究团队构建了一个新的IFT数据集,旨在提高MLLMs在多轮对话设置中的表现。
➡️ 方法简介:研究团队通过分析和合并来自多个IFT数据集源的数据,构建了一个以COCO图像为中心的视觉指令微调数据集。该数据集包含从COCO和Visual Genome数据集中提取的高质量指令和响应,旨在增强MLLMs的指令跟随能力。
➡️ 实验设计:研究团队使用提出的IFT数据集对LLaVA-1.5进行了重新训练,并在开放生成评估基准上进行了评估。实验设计了一个多轮对话评估协议,以评估模型在多轮对话设置中的表现。实验结果表明,使用新数据集训练的模型在多轮对话设置中表现更好,且在开放生成评估基准上取得了与官方LLaVA-1.5-13B相当或更好的性能。
Beyond Anti-Forgetting: Multimodal Continual Instruction Tuning with Positive Forward Transfer
➡️ 论文标题:Beyond Anti-Forgetting: Multimodal Continual Instruction Tuning with Positive Forward Transfer
➡️ 论文作者:Junhao Zheng, Qianli Ma, Zhen Liu, Binquan Wu, Huawen Feng
➡️ 研究机构: 华南理工大学计算机科学与工程学院
➡️ 问题背景:多模态连续指令调优(Multimodal Continual Instruction Tuning, MCIT)使多模态大语言模型(Multimodal Large Language Models, MLLMs)能够不断适应新的任务需求,而无需昂贵的重新训练。然而,MCIT面临两个主要障碍:灾难性遗忘(catastrophic forgetting)和负向前向迁移(negative forward transfer)。尽管现有方法在缓解灾难性遗忘方面取得了显著进展,但它们仍然受到负向前向迁移的影响。
➡️ 研究动机:研究团队发现,不同任务的输入嵌入之间存在显著差异,这种差异导致模型在适应新任务时提取与旧任务无关的信息,从而引发灾难性遗忘和负向前向迁移。为了应对这些挑战,研究团队提出了一种新的方法——具有正向前向迁移的提示调优(Prompt Tuning with Positive Forward Transfer, Fwd-Prompt),旨在实现抗遗忘和正向前向迁移。
➡️ 方法简介:Fwd-Prompt通过将提示梯度投影到残差空间来最小化任务之间的干扰,并通过将提示梯度投影到预训练子空间来重用预训练知识。该方法通过选择与视觉和文本特征相关的提示,为每个任务分配不同的子空间,从而实现抗遗忘和正向前向迁移。
➡️ 实验设计:研究团队在四个数据集上进行了实验,包括Flickr30k、VizWiz、TextVQA和GQA。实验设计了不同的任务顺序和训练策略,以评估Fwd-Prompt在不同条件下的性能。实验结果表明,Fwd-Prompt在MCIT任务中取得了最先进的性能,同时更新的参数更少,且不需要旧样本。
SkyEyeGPT: Unifying Remote Sensing Vision-Language Tasks via Instruction Tuning with Large Language Model
➡️ 论文标题:SkyEyeGPT: Unifying Remote Sensing Vision-Language Tasks via Instruction Tuning with Large Language Model
➡️ 论文作者:Yang Zhan, Zhitong Xiong, Yuan Yuan
➡️ 研究机构: Northwestern Polytechnical University, Technical University of Munich (TUM)
➡️ 问题背景:尽管大型语言模型(LLMs)在多模态领域取得了显著进展,但在遥感(Remote Sensing, RS)视觉-语言任务中的应用仍处于初级阶段,且性能不尽如人意。现有的多模态大型语言模型(MLLMs)在处理RS数据时,缺乏处理多任务对话的能力,限制了其在开放性任务中的应用。
➡️ 研究动机:为了克服现有模型在RS视觉-语言任务中的局限性,研究团队开发了SkyEyeGPT,一个统一的多模态大型语言模型,专门设计用于处理RS视觉-语言理解任务。通过构建高质量的RS多模态指令调优数据集,研究团队旨在提高模型在不同任务中的表现,特别是多轮对话和多任务处理能力。
➡️ 方法简介:SkyEyeGPT的架构包括视觉编码器、对齐层和基于LLM的解码器。研究团队精心策划了一个包含968k训练样本的RS视觉-语言指令数据集SkyEye-968k,该数据集分为单任务图像-文本指令和多任务对话指令。通过两阶段的指令调优方法,SkyEyeGPT在单任务和多任务对话中表现出色。
➡️ 实验设计:研究团队在8个RS视觉-语言数据集上进行了实验,涵盖了图像级和区域级任务,如图像描述、视觉问答和视觉定位。实验结果表明,SkyEyeGPT在多个任务中表现出色,特别是在一些定性测试中,其性能与GPT-4V相当甚至更优。此外,研究团队还进行了广泛的消融实验,以验证SkyEyeGPT结构的有效性。