多模态大语言模型arxiv论文略读(三十一)
From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities
➡️ 论文标题:From GPT-4 to Gemini and Beyond: Assessing the Landscape of MLLMs on Generalizability, Trustworthiness and Causality through Four Modalities
➡️ 论文作者:Chaochao Lu, Chen Qian, Guodong Zheng, Hongxing Fan, Hongzhi Gao, Jie Zhang, Jing Shao, Jingyi Deng, Jinlan Fu, Kexin Huang, Kunchang Li, Lijun Li, Limin Wang, Lu Sheng, Meiqi Chen, Ming Zhang, Qibing Ren, Sirui Chen, Tao Gui, Wanli Ouyang, Yali Wang, Yan Teng, Yaru Wang, Yi Wang, Yinan He, Yingchun Wang, Yixu Wang, Yongting Zhang, Yu Qiao, Yujiong Shen, Yurong Mou, Yuxi Chen, Zaibin Zhang, Zhelun Shi, Zhenfei Yin, Zhipin Wang
➡️ 研究机构: Shanghai AI Laboratory, National University of Singapore, Nanjing University, Beihang University, Fudan University, Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences
➡️ 问题背景:多模态大型语言模型(MLLMs)在生成合理响应方面展现了令人印象深刻的能力,尤其是在处理多模态内容时。然而,尽管OpenAI的GPT-4和Google的Gemini等最强大的模型已被部署,这些模型在实际应用中的表现仍未能完全满足公众的期望。研究指出,MLLMs在泛化能力、可信度和因果推理能力方面存在不足,这些不足限制了它们在各种下游多模态应用中的可靠性。
➡️ 研究动机:为了缩小当前MLLMs性能与公众期望之间的差距,研究团队通过定性研究,评估了近期专有和开源MLLMs在文本、代码、图像和视频四种模态下的泛化能力、可信度和因果推理能力。研究旨在提高MLLMs的透明度,为未来的多模态应用提供更可靠的模型。
➡️ 方法简介:研究团队评估了闭源的GPT-4和Gemini,以及6个开源的LLMs和MLLMs。评估基于232个手动设计的案例,这些案例涵盖了四种模态(文本、代码、图像、视频)和三个属性(泛化能力、可信度、因果推理能力)。研究团队通过12个评分(4种模态×3个属性)总结了定性结果,揭示了14个有助于理解MLLMs能力和局限性的实证发现。
➡️ 实验设计:实验设计了不同模态的输入,包括文本、代码、图像和视频,以及不同类型的评估任务,如数学能力、多语言能力、推理能力、角色扮演能力、创意写作能力、领域知识熟悉度等。此外,研究还评估了模型在安全性、可靠性、鲁棒性、道德性、数据保护、公平性和合法性等方面的性能。通过这些评估,研究团队全面分析了不同模型在各种条件下的表现,为提高MLLMs的可靠性和安全性提供了有价值的见解。
Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA
➡️ 论文标题:Muffin or Chihuahua? Challenging Multimodal Large Language Models with Multipanel VQA
➡️ 论文作者:Yue Fan, Jing Gu, Kaiwen Zhou, Qianqi Yan, Shan Jiang, Ching-Chen Kuo, Xinze Guan, Xin Eric Wang
➡️ 研究机构: University of California, Santa Cruz、eBay
➡️ 问题背景:多面板图像,如网页截图、海报等,广泛存在于日常生活中,通过不同的布局组合多个子图来有效传达信息。随着多模态大型语言模型(MLLMs)的发展,理解和处理多面板图像的能力变得尤为重要。然而,现有的研究和基准测试主要集中在单面板图像上,而多面板图像的理解对MLLMs来说仍然是一个挑战。
➡️ 研究动机:尽管人类在处理多面板图像时几乎能达到99%的准确率,但现有的MLLMs在处理多面板图像时表现不佳。为了评估和理解MLLMs在多面板图像理解上的能力,研究团队提出了MultipanelVQA基准,旨在全面评估MLLMs在多面板图像理解上的表现,并通过合成数据集分析影响模型性能的各种因素。
➡️ 方法简介:研究团队构建了MultipanelVQA基准,包含6,600个问题-答案-多面板图像的三元组,旨在评估MLLMs在多面板图像理解上的能力。该基准包括真实世界数据和合成数据两个子集,其中合成数据集通过自动化脚本生成,确保了多面板图像属性的均匀分布,如子图数量、大小和布局复杂性等。
➡️ 实验设计:研究团队在MultipanelVQA基准上评估了八个流行的MLLMs,包括开源模型和专有模型。实验设计了三种不同风格的问题,分别评估模型在识别多面板图像内容、特定子图内容和视觉定位上的能力。此外,研究团队还通过合成数据集进行了详细的错误分析,以探究影响模型性能的各种因素,如子图内容、布局、背景和视觉文本提示等。
Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
➡️ 论文标题:Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception
➡️ 论文作者:Junyang Wang, Haiyang Xu, Jiabo Ye, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
➡️ 研究机构: Beijing Jiaotong University、Alibaba Group
➡️ 问题背景:基于多模态大语言模型(MLLM)的移动设备代理正在成为一种流行的应用。然而,现有的MLLM,包括最先进的GPT-4V,仍然缺乏足够的视觉感知能力,无法作为有效的代理来操作移动设备。此外,现有的解决方案依赖于应用程序的XML文件或移动系统的元数据,这限制了它们在不同移动操作系统环境中的适应性。
➡️ 研究动机:为了解决现有方法对底层文件的依赖问题,研究团队提出了Mobile-Agent,一个具有视觉感知能力的自主移动设备代理。Mobile-Agent通过视觉感知工具,仅使用移动设备的屏幕截图就能准确地定位操作位置,从而实现了在不同移动操作系统环境中的高度适应性,无需特定系统的定制。
➡️ 方法简介:Mobile-Agent框架包括最先进的MLLM GPT-4V、文本检测模块和图标检测模块。通过这些工具,Mobile-Agent能够准确地识别和定位应用程序界面中的视觉和文本元素。基于感知到的视觉上下文,Mobile-Agent能够自主规划和分解复杂的操作任务,并通过一系列步骤完成任务。此外,研究团队还引入了自我反思方法,以提高代理在遇到错误时的自我纠正能力。
➡️ 实验设计:为了全面评估Mobile-Agent的性能,研究团队引入了Mobile-Eval基准测试,该基准测试涵盖了10个常用的移动应用程序,并设计了不同难度级别的指令。实验结果表明,Mobile-Agent在指令完成率和操作准确性方面表现出色,即使在复杂的多应用程序操作中也能成功完成任务。
LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs
➡️ 论文标题:LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs
➡️ 论文作者:Shaoxiang Chen, Zequn Jie, Lin Ma
➡️ 研究机构: Meituan Inc.
➡️ 问题背景:多模态大语言模型(MLLMs)在多种任务中表现出色,但当混合来自不同领域的指令数据时,数据冲突问题会导致特定任务的性能下降。例如,当将文档和生物医学数据与通用多任务数据混合时,模型在通用多任务基准上的性能显著下降。
➡️ 研究动机:为了解决数据冲突问题,研究团队提出了一种稀疏的LoRA专家混合(Sparse Mixture of LoRA Experts, MoLE)方法,用于指令微调MLLMs。该方法通过在Transformer层中引入多个LoRA专家,并根据输入令牌的特征选择最合适的专家,从而扩展模型处理多领域数据的能力。
➡️ 方法简介:研究团队在LLaVA-1.5的基础上,通过在每个Transformer层的MLP中引入多个LoRA专家,并使用路由函数选择每个令牌最合适的专家,提出了LLaVA-MoLE模型。每个令牌仅激活一个专家,从而保持了与原始LoRA方法相近的训练和推理成本。
➡️ 实验设计:实验在多个数据集上进行,包括通用多任务、文档和生物医学领域的数据。实验设计了不同的数据混合配置,以评估模型在不同条件下的性能。结果表明,LLaVA-MoLE在混合数据集上不仅解决了数据冲突问题,还在多个基准测试中取得了优于基线模型的性能。
EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain
➡️ 论文标题:EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor Image Comprehension in Remote Sensing Domain
➡️ 论文作者:Wei Zhang, Miaoxin Cai, Tong Zhang, Yin Zhuang, Xuerui Mao
➡️ 研究机构: 北京理工大学、IEEE会员
➡️ 问题背景:多模态大语言模型(MLLMs)在自然图像领域的视觉和视觉-语言任务中表现出色。然而,由于自然图像与遥感(RS)图像之间的显著差异,如成像条件、环境、尺度和物体视角,MLLMs在RS领域的应用仍处于初级阶段。现有的RS MLLMs,如RSGPT和GeoChat,虽然在某些任务上有所进展,但仍然存在局限性,如任务特定性、多传感器模态支持不足等。
➡️ 研究动机:为了填补这一空白,本文提出了一种名为EarthGPT的多模态大语言模型,旨在统一处理多传感器RS图像的多种解释任务。EarthGPT通过构建大规模多模态RS指令跟随数据集MMRS-1M,解决了现有MLLMs在RS领域专业知识不足的问题,促进了RS领域MLLMs的发展。
➡️ 方法简介:研究团队提出了三个关键技术:1)视觉增强感知机制,通过混合多种视觉骨干网络来提取粗粒度和细粒度的视觉信息;2)跨模态互理解方法,通过直接连接视觉特征和语言特征来生成多模态输入,增强视觉-语言对齐;3)统一指令调优方法,通过在新构建的MMRS-1M数据集上进行偏差调优,使模型能够统一处理多种RS任务。
➡️ 实验设计:在多个RS数据集上进行了广泛的实验,包括场景分类、图像描述、区域级描述、视觉问答(VQA)、视觉定位和目标检测等任务。实验结果表明,EarthGPT在大多数RS任务中超越了现有的专业模型和MLLMs,特别是在图像描述、VQA和视觉定位任务中表现突出。此外,EarthGPT在开放集推理任务中也表现出色,如零样本场景分类和目标检测。