多模态大语言模型arxiv论文略读(四十二)
A Surprising Failure? Multimodal LLMs and the NLVR Challenge
➡️ 论文标题:A Surprising Failure? Multimodal LLMs and the NLVR Challenge
➡️ 论文作者:Anne Wu, Kianté Brantley, Yoav Artzi
➡️ 研究机构: Cornell University (Cornell Tech)
➡️ 问题背景:尽管当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种视觉和语言任务中表现出色,但这些模型在自然语言视觉推理任务(Natural Language Visual Reasoning, NLVR)上的表现却令人失望。NLVR任务要求模型根据给定的图像判断一个句子的真假,该任务设计用于测试模型的组合性和空间推理能力,同时对语义和系统性偏差具有鲁棒性。
➡️ 研究动机:研究旨在评估三个最先进的MLLMs(GPT-4V、Gemini Pro和IDEFICS)在NLVR任务上的表现,以探讨这些模型是否能够有效处理复杂的视觉和语言推理任务,以及它们在面对组合性和空间推理挑战时的局限性。
➡️ 方法简介:研究团队通过零样本和五样本提示方法评估了三个模型在NLVR任务上的表现。实验中使用了精心设计的提示语,包括逐步指导和链式思考等策略,以优化模型的性能。此外,还对IDEFICS模型进行了微调,以观察其性能的潜在提升。
➡️ 实验设计:实验在NLVR的Test-P数据集上进行,该数据集包含5,940个样本。实验设计了零样本和五样本提示两种方法,以评估不同提示策略对模型性能的影响。对于五样本提示,研究团队从训练集中随机抽取了5个样本,确保每个测试样本都能获得多样化的训练示例。实验结果表明,即使在微调后,这些模型在NLVR任务上的表现仍远低于人类水平,显示出在处理复杂视觉和语言推理任务时的显著局限性。
MIKO: Multimodal Intention Knowledge Distillation from Large Language Models for Social-Media Commonsense Discovery
➡️ 论文标题:MIKO: Multimodal Intention Knowledge Distillation from Large Language Models for Social-Media Commonsense Discovery
➡️ 论文作者:Feihong Lu, Weiqi Wang, Yangyifei Luo, Ziqin Zhu, Qingyun Sun, Baixuan Xu, Haochen Shi, Shiqi Gao, Qian Li, Yangqiu Song, Jianxin Li
➡️ 研究机构: 北京航空航天大学 (Beihang University)、香港科技大学 (HKUST)
➡️ 问题背景:社交媒体已成为人们日常生活中不可或缺的工具,用于与他人交流、获取新闻、表达意见和寻找娱乐。然而,理解社交媒体帖子背后的意图具有挑战性,因为这些意图往往是隐含的,需要跨模态理解文本和图像,同时还要处理诸如标签、拼写错误和复杂缩写等噪声信息。
➡️ 研究动机:现有的研究和方法在大规模社交媒体平台上识别用户意图时仍面临诸多挑战,包括意图的隐含性、社交媒体数据的多模态性质以及帖子中的噪声信息。为了克服这些挑战,研究团队提出了一种新的多模态意图知识蒸馏框架Miko,旨在从大规模社交媒体数据中自动获取用户意图。
➡️ 方法简介:Miko框架结合了大型语言模型(LLM)和多模态大型语言模型(MLLM),通过分析文本和图像来提取关键信息,并生成用户意图。具体来说,Miko首先使用MLLM生成图像描述,然后使用LLM提取文本和图像描述中的关键信息,最后再次使用LLM生成用户意图。为了确保意图的全面性和合理性,Miko还与ATOMIC等常识知识库对齐。
➡️ 实验设计:研究团队在四个公开的社交媒体数据集上进行了实验,包括Twitter-2015、Twitter-2017、Twitter100k和Twitter Sarcasm。实验设计了两个阶段的注释,以评估生成意图的合理性和典型性,并将生成的意图用于基准测试,评估其他大型语言模型的性能。此外,研究团队还将生成的意图应用于讽刺检测任务,展示了其在下游任务中的优势。
EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning
➡️ 论文标题:EAMA : Entity-Aware Multimodal Alignment Based Approach for News Image Captioning
➡️ 论文作者:Junzhe Zhang, Huixuan Zhang, Xunjian Yin, Xiaojun Wan
➡️ 研究机构: Peking University
➡️ 问题背景:新闻图像字幕生成任务要求模型根据提供的新闻图像和相关新闻文章生成包含具体信息的字幕。当前的多模态大语言模型(MLLMs)在处理新闻图像字幕生成任务时仍存在局限性,尤其是在零样本设置下处理多模态实体信息的能力不足。此外,生成高质量的新闻图像字幕需要在文本输入信息的充分性和简洁性之间找到平衡。
➡️ 研究动机:现有的MLLMs在新闻图像字幕生成任务中面临挑战,包括处理多模态实体信息的能力不足,以及在生成字幕时需要平衡文本输入信息的充分性和简洁性。为了克服这些问题,研究团队提出了一种实体感知的多模态对齐方法(EAMA),旨在提高MLLMs在新闻图像字幕生成任务中的表现。
➡️ 方法简介:EAMA方法首先设计了两个实体感知的对齐任务:实体感知句子选择任务和实体选择任务。然后,研究团队在原始新闻图像字幕生成任务上对MLLM进行对齐训练,结合这两个对齐任务。最后,利用对齐后的MLLM从新闻文章中提取相关实体信息,以补充文本输入上下文,生成新闻图像字幕。
➡️ 实验设计:研究团队在两个公开的新闻图像字幕生成数据集(GoodNews和NYTimes800k)上进行了实验。实验评估了不同模型在零样本设置和官方支持的监督微调(OSFT)设置下的表现,包括BLEU-4、METEOR、ROUGE和CIDEr等自动评估指标,以及命名实体的精确率和召回率。实验结果表明,EAMA方法在所有自动评估指标上均优于其他方法,特别是在CIDEr分数上表现突出。
The All-Seeing Project V2: Towards General Relation Comprehension of the Open World
➡️ 论文标题:The All-Seeing Project V2: Towards General Relation Comprehension of the Open World
➡️ 论文作者:Weiyun Wang, Yiming Ren, Haowen Luo, Tiantong Li, Chenxiang Yan, Zhe Chen, Wenhai Wang, Qingyun Li, Lewei Lu, Xizhou Zhu, Yu Qiao, Jifeng Dai
➡️ 研究机构: OpenGVLab (Shanghai AI Laboratory)、Fudan University、Tsinghua University、The Chinese University of Hong Kong、Nanjing University、Harbin Institute of Technology、SenseTime Research
➡️ 问题背景:当前的多模态大语言模型(Multi-modal Large Language Models, MLLMs)在多种视觉-语言任务中展现了卓越的能力,但这些模型主要关注于理解图像的整体视觉信息,而忽略了图像中对象之间的关系。这种局限性导致模型在处理关系问题时容易产生幻觉或过度依赖语言先验。
➡️ 研究动机:为了增强MLLMs的关系理解能力,同时保持其在其他任务中的通用能力,研究团队提出了一种新的任务——关系对话(Relation Conversation, ReC),并构建了相应的高质量数据集AS-V2。此外,团队还设计了一个新的基准CRPE,用于系统地评估模型的关系理解能力。
➡️ 方法简介:研究团队提出了All-Seeing Model v2 (ASMv2),该模型集成了文本生成、对象定位和关系理解的能力。ASMv2通过关系对话任务(ReC)来训练,该任务要求模型在生成文本响应的同时,将提到的所有对象和谓词链接到图像中的相应区域。此外,团队还构建了包含127K高质量关系对话样本的AS-V2数据集,用于训练和评估模型。
➡️ 实验设计:研究团队在多个基准上进行了实验,包括关系理解任务(如CRPE)、场景图生成任务、以及各种图像级和区域级的视觉-语言任务。实验设计了不同的任务类型,如详细描述、区域描述和多轮对话,以全面评估模型在不同任务中的表现。实验结果表明,ASMv2在关系理解能力上显著优于现有的MLLMs,如LLaVA-1.5。
Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning
➡️ 论文标题:Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning
➡️ 论文作者:Jinxu Zhang
➡️ 研究机构: Harbin Institute of Technology
➡️ 问题背景:现有的文档理解模型在回答问题时,通常直接生成一个单词或短语,忽略了源文档中的证据,缺乏可解释性。特别是在处理复杂布局的文档和需要推理的问题时,这些模型的表现不佳。文档视觉问答(DVQA)任务要求模型能够理解文档中的文本、图像和布局信息,以准确回答问题。
➡️ 研究动机:为了提高模型在处理复杂布局文档和需要推理的问题时的性能,研究团队提出了一种基于数据增强和扩展的方法,通过多模态大语言模型(MLLMs)生成分步骤的问题-答案对,并使用高性能的语言模型作为错误检测器来过滤噪声数据。这种方法旨在训练一个能够高效理解和推理文档的模型,特别适用于解决需要多步骤推理的复杂问题。
➡️ 方法简介:研究团队设计了一种数据生成器和数据检查器,利用MLLMs生成高质量的分步骤文档视觉问答数据。这些数据包括基于现有训练集生成的数据和通过设计的模板生成的三元组(问题、推理过程、答案)。数据检查器使用OCR工具和图表转换工具来提取文本信息,并通过设计的错误检测模板来检查生成数据的准确性和推理步骤的正确性。
➡️ 实验设计:实验在三个公开的文档VQA数据集上进行,包括DocVQA、InfographicVQA和ChartQA。实验设计了不同类型的生成数据(如计数、空间和推理数据),并使用不同的策略(如零样本和少样本)来评估模型在不同条件下的表现。实验结果表明,通过数据增强和分步骤生成,模型在复杂布局文档和需要推理的问题上取得了显著的性能提升。多模态大语言模型arxiv论文略读(四十一)