多模态大语言模型arxiv论文略读(四十六)
CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model
➡️ 论文标题:CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model
➡️ 论文作者:Cheng Chen, Junchen Zhu, Xu Luo, Hengtao Shen, Lianli Gao, Jingkuan Song
➡️ 研究机构: 深圳高等研究院(电子科技大学)、电子科技大学、同济大学
➡️ 问题背景:多模态大语言模型(MLLMs)在视觉-语言理解和生成方面表现出色。通过指令调优,MLLMs能够更好地遵循任务指令并提高泛化能力。然而,连续指令调优(Continual Instruction Tuning, CIT)在多模态大语言模型中的研究相对较少,且缺乏公开的基准测试。本文提出了CoIN,一个全面的基准测试,旨在评估MLLMs在连续指令调优下的行为。
➡️ 研究动机:现有的研究主要集中在单任务或多任务指令调优上,而连续指令调优在多模态大语言模型中的表现尚未得到充分探索。为了填补这一空白,研究团队构建了CoIN,以评估MLLMs在连续指令调优中的表现,特别是任务顺序、指令多样性和数量对模型性能的影响。
➡️ 方法简介:研究团队构建了CoIN,包含10个精心设计的数据集,涵盖8种不同的任务,确保了多样性和全面性。CoIN不仅评估了模型在不同任务上的表现,还引入了一种新的评估方法,从两个方面评估模型的能力:真值对齐(Truth Alignment)和推理能力(Reasoning Capability)。
➡️ 实验设计:研究团队在CoIN上对多个流行的MLLMs进行了深入评估,包括LLaVA、Qwen-VL和MiniGPT-v2。实验设计了不同的任务顺序和指令模板,以全面评估模型在连续指令调优中的表现。实验结果表明,MLLMs在连续指令调优中存在灾难性遗忘(Catastrophic Forgetting),主要原因是模型在指令对齐上的能力下降,而不是推理知识的遗忘。为了缓解这一问题,研究团队引入了MoELoRA,通过使用不同的专家来保留之前的指令对齐能力。实验结果表明,MoELoRA在缓解遗忘方面效果显著。
Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization
➡️ 论文标题:Strengthening Multimodal Large Language Model with Bootstrapped Preference Optimization
➡️ 论文作者:Renjie Pi, Tianyang Han, Wei Xiong, Jipeng Zhang, Runtao Liu, Rui Pan, Tong Zhang
➡️ 研究机构: The Hong Kong University of Science and Technology (HKUST), University of Illinois at Urbana-Champaign (UIUC), The Hong Kong Polytechnic University (PolyU)
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在基于视觉输入生成响应方面表现出色。然而,这些模型往往倾向于生成与预训练语料库相似的响应,这掩盖了视觉信息的重要性。这种偏差导致模型在生成响应时容易出现错误或幻觉,尤其是在图像质量较低或训练不足的情况下。
➡️ 研究动机:研究团队认为,MLLMs的这种偏差主要源自于预训练阶段的分布。为了减少这种偏差,研究团队提出了一种新的方法——引导偏好优化(Bootstrapped Preference Optimization, BPO),通过构建包含负面响应的偏好数据集,进行偏好学习,以增强模型对视觉输入的依赖。
➡️ 方法简介:研究团队提出了两种策略来生成负面响应:1) 图像削弱提示(Image-Weakened Prompting),通过向图像特征注入噪声,使模型生成的响应更倾向于预训练分布,从而揭示模型的偏差;2) LLM偏差注入(LLM Bias Injection),利用MLLM的LLM组件直接修改原始响应,生成包含常见错误但逻辑合理的负面响应。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉-语言理解任务和图像描述任务。实验设计了不同的噪声水平和修改策略,以评估模型在不同条件下的表现。实验结果表明,BPO方法显著提高了模型在多个基准测试中的性能,减少了对象幻觉的生成。
Veagle: Advancements in Multimodal Representation Learning
➡️ 论文标题:Veagle: Advancements in Multimodal Representation Learning
➡️ 论文作者:Rajat Chawla, Arkajit Datta, Tushar Verma, Adarsh Jha, Anmol Gautam, Ayush Vatsal, Sukrit Chaterjee, Mukunda NS, Ishaan Bhola
➡️ 研究机构: SuperAGI
➡️ 问题背景:近年来,大型语言模型(LLMs)的发展极大地推动了自然语言处理领域,而多模态大型语言模型(MLLMs)则进一步将视觉信息与文本信息结合,以实现更广泛的任务,如图像描述、视觉问答(VQA)等。然而,当前的多模态模型在处理图像中的嵌入文本时仍面临挑战,这限制了其在现实世界中的应用。
➡️ 研究动机:为了克服现有模型在理解图像中嵌入文本方面的局限性,研究团队提出了Veagle模型。Veagle通过结合预训练的视觉编码器和大型语言模型(LLM),并引入了一种动态机制,将编码的视觉信息直接投影到语言模型中,从而增强模型对图像和文本之间关系的理解和感知能力。
➡️ 方法简介:Veagle模型的核心在于其独特的架构,该架构包括一个视觉编码器、一个视觉抽象器和一个大型语言模型(LLM)。视觉编码器负责从输入图像中提取有意义的表示,视觉抽象器则作为视觉编码器和语言解码器之间的桥梁,帮助模型更有效地处理和利用视觉信息。LLM部分采用了Mistral 7B,该模型在推理、数学和代码生成任务中表现出色。此外,Veagle模型通过两阶段的训练方案进行训练,包括预训练和微调,以确保模型在保持原有知识的同时,能够更好地理解图像细节和响应人类查询。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉问答(VQA)、图像描述等任务。实验设计了不同的数据集,如COCO、TextCaps、VQAv2等,以全面评估Veagle模型在不同任务中的表现。实验结果表明,Veagle模型在多个基准测试中显著优于现有的多模态模型,特别是在处理图像中的嵌入文本方面表现出色。此外,研究团队还创建了一个内部测试数据集,以评估模型在未见过的数据上的泛化能力。
DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation
➡️ 论文标题:DialogGen: Multi-modal Interactive Dialogue System for Multi-turn Text-to-Image Generation
➡️ 论文作者:Minbin Huang, Yanxin Long, Xinchi Deng, Ruihang Chu, Jiangfeng Xiong, Xiaodan Liang, Hong Cheng, Qinglin Lu, Wei Liu
➡️ 研究机构: 中国香港中文大学、腾讯混元、中山大学深圳校区
➡️ 问题背景:近年来,文本到图像(Text-to-Image, T2I)生成模型取得了显著进展,但用户与这些模型的有效互动仍面临挑战。现有的T2I模型难以理解用户的复杂自然语言指令,且需要专门的提示工程知识,这限制了其在普通用户中的广泛应用。此外,用户可能需要基于之前的对话和生成结果进行多轮图像生成,这要求模型具备多轮生成能力。
➡️ 研究动机:为了克服上述挑战,研究团队提出了一种新的框架——DialogGen,旨在通过整合多模态大型语言模型(MLLMs)和T2I模型,构建一个多模态交互对话系统(MIDS),以实现多轮文本到图像生成。此外,研究团队还开发了一个全面的多模态对话基准(DialogBen),用于评估MIDS在模态切换和生成连贯性方面的能力。
➡️ 方法简介:DialogGen框架包括三个主要部分:绘图提示对齐(Drawing Prompt Alignment)、训练数据策划(Training Data Curation)和错误纠正(Error Correction)。绘图提示对齐通过重新描述训练集中的图像,确保生成的提示与T2I模型的输入分布一致。训练数据策划则通过添加对象一致性保证、双语数据和混合指令调优数据,提高模型的多模态对话能力。错误纠正机制则通过学习更强的LLMs的错误,进一步提升模型性能。
➡️ 实验设计:研究团队在DialogBen基准上进行了广泛的实验,该基准包含9957个多轮多模态对话,涵盖了7种图像编辑类型和13种话题类型。实验评估了模型在模态切换准确性和生成连贯性方面的表现,并通过用户研究进一步验证了DialogGen的有效性。实验结果表明,DialogGen在模态切换准确性和生成连贯性方面均优于当前的最先进模型。
UniCode: Learning a Unified Codebook for Multimodal Large Language Models
➡️ 论文标题:UniCode: Learning a Unified Codebook for Multimodal Large Language Models
➡️ 论文作者:Sipeng Zheng, Bohan Zhou, Yicheng Feng, Ye Wang, Zongqing Lu
➡️ 研究机构: Beijing Academy of Artificial Intelligence (BAAI), School of Computer Science, Peking University
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种任务中展现了卓越的能力,但它们主要局限于语言生成。这种限制源于这些模型依赖于仅包含文本的代码簿,这限制了它们在多模态上下文中的图像和文本生成能力。
➡️ 研究动机:为了克服现有MLLMs的局限性,研究团队提出了一种创新方法——UniCode,旨在学习一个统一的代码簿,以高效地将视觉、文本和其他类型的信号进行分词。通过这种方法,研究团队希望扩展MLLMs在非语言生成任务中的应用,并提高模型的多模态理解和生成能力。
➡️ 方法简介:研究团队提出了语言驱动的迭代训练范式,结合了一个新的预训练任务——上下文图像解压缩,以增强模型生成高质量图像的能力。此外,UniCode支持堆叠量化,以优化视觉分词的效率。通过这些方法,研究团队成功地减少了模型的参数量和训练样本需求,同时保持了与现有领先MLLMs相当的性能。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括图像生成、图像重建和多模态理解等任务。实验结果表明,UniCode在这些任务上表现出色,尤其是在使用更少的参数和训练样本的情况下。此外,研究团队还进行了消融研究,以验证各个组件的有效性。