多模态大语言模型arxiv论文略读(三十二)
Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis
➡️ 论文标题:Proximity QA: Unleashing the Power of Multi-Modal Large Language Models for Spatial Proximity Analysis
➡️ 论文作者:Jianing Li, Xi Nan, Ming Lu, Li Du, Shanghang Zhang
➡️ 研究机构: 南京大学、北京大学、Intel Lab China
➡️ 问题背景:多模态大语言模型(MLLMs)在视觉-语言任务中展现了卓越的能力,主要得益于大语言模型(LLMs)的上下文理解和多任务学习能力。然而,尽管现有的MLLMs能够识别图像中的物体,但在有效辨别物体的位置,尤其是场景深度方面,仍面临挑战。这限制了模型在多模态任务中的全面理解能力。
➡️ 研究动机:为了克服MLLMs在图像几何感知上的局限性,研究团队提出了Proximity QA框架,旨在通过问答指令格式增强MLLMs对图像中物体几何信息的理解能力。该框架通过两个阶段的训练,使模型能够估计物体的相对深度值,并推断物体之间的空间接近关系,从而实现对图像的综合理解。
➡️ 方法简介:Proximity QA框架包括两个阶段:感知阶段和推理阶段。在感知阶段,模型通过问答指令学习估计图像中物体的相对深度值;在推理阶段,模型利用第一阶段获得的深度信息,推断物体之间的空间接近关系。研究团队还构建了一个名为Proximity-110K的VQA数据集,包含深度信息和物体接近关系的指令,以支持模型的训练和评估。
➡️ 实验设计:研究团队在Proximity-110K数据集上进行了广泛的实验,验证了Proximity QA框架在深度感知和接近关系分析方面的优越性能。实验结果表明,Proximity QA框架在这些任务上显著优于其他最先进的MLLMs。此外,研究团队还分析了数据集中的问题和答案的分布情况,以及模型生成的对话的质量,以评估框架的有效性和准确性。
From Training-Free to Adaptive: Empirical Insights into MLLMs’ Understanding of Detection Information
➡️ 论文标题:From Training-Free to Adaptive: Empirical Insights into MLLMs’ Understanding of Detection Information
➡️ 论文作者:Qirui Jiao, Daoyuan Chen, Yilun Huang, Yaliang Li, Ying Shen
➡️ 研究机构: Sun Yat-Sen University, Alibaba Group
➡️ 问题背景:多模态大语言模型(MLLMs)在融合文本和图像模态方面展现了强大的能力,但在准确识别图像中的细粒度元素方面仍存在挑战。视觉检测模型在识别图像中的细粒度细节方面表现出色,因此被广泛用于增强MLLMs的视觉理解能力。然而,大多数研究集中在无需训练的方法上,直接将检测信息以文本形式注入MLLMs,而对适应性训练方法的研究较少。
➡️ 研究动机:尽管无需训练的方法在注入文本检测信息方面表现良好,但适应性训练方法是否能进一步提升MLLMs的性能仍是一个未解的问题。研究团队通过系统地比较无需训练、重新训练和微调三种策略,旨在探讨适应性训练对MLLMs理解文本检测信息的影响。
➡️ 方法简介:研究团队提出了一种系统的方法,通过将视觉检测模型的输出转换为文本信息,并将其输入到MLLMs中,来评估不同训练策略的效果。具体来说,研究团队设计了三种训练策略:无需训练的注入(TFI)、基于重新训练的注入(RBI)和基于微调的注入(FTBI)。实验在多个基准数据集上进行,以评估不同策略对MLLMs性能的影响。
➡️ 实验设计:实验在10个广泛认可的基准数据集上进行,包括VQAv2、GQA、TextVQA、MMBench等。实验设计了不同的训练策略,评估了MLLMs在细粒度图像识别、文本识别、感知和推理等方面的能力。结果显示,基于微调的注入(FTBI)策略在所有基准数据集上都表现最佳,相比无需训练的注入(TFI)策略,FTBI-13B模型在10个基准数据集上的平均性能提升了6.71%。此外,微调策略还使MLLMs在更换检测模型后仍能保持性能提升。
Safety of Multimodal Large Language Models on Images and Texts
➡️ 论文标题:Safety of Multimodal Large Language Models on Images and Texts
➡️ 论文作者:Xin Liu, Yichen Zhu, Yunshi Lan, Chao Yang, Yu Qiao
➡️ 研究机构: East China Normal University、Midea Group、Shanghai AI Laboratory
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在近年来取得了显著的发展,如GPT-4、LLaMA-2和Mixtral 8x7B等。这些模型不仅为人类生活提供了便利,同时也带来了巨大的安全风险。本文系统地调查了当前在MLLMs图像和文本上的评估、攻击和防御技术,旨在帮助研究者了解该领域的详细范围,并为未来的安全防护提供有价值的见解和方法。
➡️ 研究动机:尽管通过各种对齐技术(如Rafailov等人的研究)已经成功增强了大语言模型(LLMs)的安全性,但MLLMs的安全研究仍处于早期阶段。本文旨在通过系统地回顾MLLMs的安全评估、攻击和防御技术,揭示图像模态带来的新风险,评估MLLMs的安全水平,并探讨抵抗不安全查询的方法。
➡️ 方法简介:研究团队首先介绍了MLLMs的概述和安全性的理解,然后回顾了用于评估MLLMs安全性的数据集和度量标准。接着,全面展示了与MLLMs安全性相关的攻击和防御技术。最后,分析了几个未解决的问题,并讨论了有前景的研究方向。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括针对MLLMs的隐私保护能力(如PrivQA)、基于模因的多模态社会滥用(如GOAT-Bench)和图像描述任务中的毒性输出(如ToViLaG)。实验设计了不同的攻击场景,如对抗性攻击和视觉提示注入,以及不同的攻击目标,以全面评估MLLMs的安全性和抗干扰能力。
Can MLLMs Perform Text-to-Image In-Context Learning?
➡️ 论文标题:Can MLLMs Perform Text-to-Image In-Context Learning?
➡️ 论文作者:Yuchen Zeng, Wonjun Kang, Yicong Chen, Hyung Il Koo, Kangwook Lee
➡️ 研究机构: University of Wisconsin-Madison、FuriosaAI、Seoul National University、Ajou University
➡️ 问题背景:从大型语言模型(LLMs)到多模态大型语言模型(MLLMs)的演变,推动了将上下文学习(In-Context Learning, ICL)扩展到多模态领域的研究。现有的研究主要集中在图像到文本的ICL上,而文本到图像的ICL(T2I-ICL)因其独特的特性和潜在应用,尚未得到充分探索。
➡️ 研究动机:为了填补这一研究空白,研究团队正式定义了T2I-ICL任务,并提出了CoBSAT,这是首个T2I-ICL基准数据集,涵盖了十个任务。通过利用该数据集评估六个最先进的MLLMs在T2I-ICL上的表现,研究团队揭示了这些模型在解决T2I-ICL任务时遇到的主要挑战,并探讨了通过微调和链式思维提示(Chain-of-Thought prompting)等策略来缓解这些挑战的方法。
➡️ 方法简介:研究团队构建了CoBSAT数据集,该数据集包括十个任务,分为五个不同的主题:颜色、背景、风格、动作和纹理。每个任务都有预定义的文本输入和潜在变量列表,用于生成上下文提示。通过这些提示,研究团队评估了MLLMs在不同条件下的表现,包括对象推断任务和属性推断任务。
➡️ 实验设计:研究团队在CoBSAT数据集上进行了实验,评估了十个最先进的MLLMs在T2I-ICL任务上的表现。实验设计了不同数量的示例(2-shot、4-shot、6-shot、8-shot),以全面评估模型在不同条件下的表现。实验结果表明,SEED-LLaMA在多个任务中表现最佳,尤其是在Color-I任务中达到了68%的准确率。其他模型如Emu和GILL的表现则较差,准确率大多在10%以下。研究团队还发现,通过微调和链式思维提示,可以显著提升MLLMs在T2I-ICL任务上的表现。
Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing Security in Large Language Models
➡️ 论文标题:Fortifying Ethical Boundaries in AI: Advanced Strategies for Enhancing Security in Large Language Models
➡️ 论文作者:Yunhong He, Jianling Qiu, Wei Zhang, Zhengqing Yuan
➡️ 研究机构: Anhui Polytechnic University (School of Mathematics-Physics and Finance, School of Artificial Intelligence)
➡️ 问题背景:大型语言模型(LLMs)如GPT-3.5和LLaMA-2在自然语言处理和人工智能领域取得了显著进展,但这些模型在应用中也面临诸多挑战,包括伦理困境、钓鱼攻击和隐私泄露等。
➡️ 研究动机:为了应对这些挑战,研究团队提出了一种多管齐下的方法,旨在通过过滤敏感词汇、检测角色扮演、实施自定义规则引擎等手段,增强LLMs的安全性和伦理标准,同时保持模型的高性能。
➡️ 方法简介:研究团队提出的方法包括:1) 过滤用户输入中的敏感词汇,防止不道德的响应;2) 检测角色扮演,阻止可能导致“越狱”情景的互动;3) 实施自定义规则引擎,限制生成禁止内容;4) 将这些方法扩展到多模态大型语言模型(MLLMs)。
➡️ 实验设计:实验在单个NVIDIA A100 GPU(80 GB VRAM)和AMD EPYC 7552 48核处理器上进行,内存分配为160 GB。软件环境使用PyTorch 2.0.0。实验设计了多种攻击场景,包括直接指令、指令重复、认知攻击、少样本攻击和语法变换等,以全面评估模型的防御能力。