当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(四十三)

请添加图片描述

InteraRec: Screenshot Based Recommendations Using Multimodal Large Language Models

➡️ 论文标题:InteraRec: Screenshot Based Recommendations Using Multimodal Large Language Models
➡️ 论文作者:Saketh Reddy Karra, Theja Tulabandhula
➡️ 研究机构: University of Illinois Chicago
➡️ 问题背景:当前的推荐系统主要依赖于web日志数据来生成个性化推荐,但这些数据的复杂性和处理难度限制了其应用效果。此外,直接从web日志中提取相关信息和关键特征需要大量的工程努力,且对非专业人士来说,解释这些数据也具有挑战性。
➡️ 研究动机:为了解决上述问题,研究团队提出了一种新的推荐框架InteraRec,该框架利用用户浏览网页时的截图,结合多模态大语言模型(MLLMs)和优化工具,生成更加个性化和实时的推荐。InteraRec旨在通过简化输入数据的处理过程,提高推荐系统的解释性和实时性。
➡️ 方法简介:InteraRec框架分为三个阶段:1) 截图生成,2) 行为总结,3) 响应生成。首先,系统自动捕获用户浏览网页时的高频截图;然后,利用MLLMs对这些截图进行分析,生成基于预定义关键词的用户行为总结;最后,利用这些总结信息,通过优化工具生成个性化的推荐。
➡️ 实验设计:研究团队在Amazon网站的用户浏览会话截图数据集上进行了实验,验证了InteraRec框架的有效性。实验包括了不同类型的推荐模型(如基于会话的推荐模型),并通过重新排序模型的预测结果,结合从截图中提取的用户行为上下文信息,提高了推荐的准确性和相关性。实验结果表明,InteraRec在数据有限的情况下也能有效提升推荐系统的性能。

Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks

➡️ 论文标题:Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks
➡️ 论文作者:Fakhraddin Alwajih, El Moatez Billah Nagoudi, Gagan Bhatia, Abdelrahman Mohamed, Muhammad Abdul-Mageed
➡️ 研究机构: The University of British Columbia & Invertible AI
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在需要复杂推理和语言理解的各种任务中表现出色。然而,由于缺乏高质量的多模态资源,MLLMs的成功主要局限于英语环境,这对其他语言,尤其是像阿拉伯语这样拥有大量使用者的语言,构成了重大挑战。
➡️ 研究动机:为了缓解这一挑战,研究团队介绍了一套全面的阿拉伯语MLLMs,称为Peacock,具有强大的视觉和语言能力。通过全面的定性和定量分析,研究展示了这些模型在各种视觉推理任务中的稳健性能,并进一步展示了它们在方言处理方面的潜力。此外,研究团队还引入了Henna,这是一个专门设计用于评估MLLMs在与阿拉伯文化相关方面表现的新基准,为文化感知的阿拉伯语MLLMs奠定了基础。
➡️ 方法简介:Peacock模型基于两种架构设计:InstructBlip和LLaVA。这些模型集成了一个图像编码器和一个阿拉伯语文本解码器,采用两阶段训练策略,包括预训练阶段和指令微调阶段。预训练阶段使用高质量的文本-图像对数据集,而指令微调阶段则使用指令数据集,以增强模型的视觉推理能力和对话能力。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉问答(VQA)、视觉推理等任务。实验设计了不同的评估基准,如SEED-Bench、LLaVA-Bench和Henna,以全面评估模型在不同任务上的表现。实验结果表明,Peacock模型在多个任务上显著优于多语言基线模型mBlip,特别是在使用高质量过滤数据时,性能提升更为明显。

InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding

➡️ 论文标题:InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding
➡️ 论文作者:Haogeng Liu, Quanzeng You, Xiaotian Han, Yiqi Wang, Bohan Zhai, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang
➡️ 研究机构: 中国科学院自动化研究所、中国科学院大学人工智能学院、字节跳动公司
➡️ 问题背景:多模态大语言模型(MLLMs)近年来取得了显著进展,但在高分辨率图像的准确识别和理解方面仍面临挑战。尽管这一领域对于构建稳健的MLLMs至关重要,但相关研究仍显不足。
➡️ 研究动机:为了应对高分辨率图像处理的挑战,研究团队开发了InfiMM-HD,这是一种创新的MLLM架构,旨在以较低的计算成本处理不同分辨率的图像。该模型通过结合Flamingo和LLaVA风格的多模态模型的优点,提高了视觉感知的效率和效果。
➡️ 方法简介:InfiMM-HD采用了一种基于MLP的方法来转换和对齐视觉令牌,并使用交叉注意力机制来整合视觉和语言令牌。该模型通过四个阶段的训练流程逐步提升处理高分辨率图像的能力,包括初始预训练、继续预训练、动态分辨率适应和指令微调。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,包括通用VQA任务(如OKVQA、VQAV2、GQA和ScienceQA)和文本导向的VQA任务(如TextVQA、STVQA)。实验结果表明,InfiMM-HD在视觉感知和指令跟随方面表现出色,特别是在处理高分辨率图像时。此外,通过一系列消融研究,研究团队验证了所提出模块的重要性。

Enhancing Neural Machine Translation of Low-Resource Languages: Corpus Development, Human Evaluation and Explainable AI Architectures

➡️ 论文标题:Enhancing Neural Machine Translation of Low-Resource Languages: Corpus Development, Human Evaluation and Explainable AI Architectures
➡️ 论文作者:Séamus Lankford
➡️ 研究机构: Dublin City University, Munster Technological University
➡️ 问题背景:神经机器翻译(NMT)在低资源语言中的应用面临诸多挑战,包括数据稀缺、模型性能不稳定和评估方法不完善。特别是在爱尔兰语等低资源语言中,NMT的性能提升需要综合考虑语料库开发、人类评估和可解释的AI架构。
➡️ 研究动机:尽管NMT在高资源语言中取得了显著进展,但在低资源语言中的应用仍存在较大差距。研究旨在通过优化超参数、开发高质量语料库、改进人类评估方法和构建透明的NMT架构,来提升低资源语言NMT的性能。
➡️ 方法简介:研究团队提出了一系列方法,包括使用自动机器学习(AutoML)和集成方法优化超参数,开发适应低资源语言的多语言语言模型(MLLM)的微调框架,以及构建开放源代码的NMT开发环境(adaptNMT)。此外,还设计了详细的语料库开发指南和人类评估标准。
➡️ 实验设计:研究在多个数据集上进行了实验,包括DGT、PA和自建的gaHealth语料库。实验评估了不同模型架构(如RNN和Transformer)在低资源语言翻译任务中的性能,并通过自动评估和人类评估两种方式对模型进行了全面的性能分析。

NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language Models

➡️ 论文标题:NPHardEval4V: A Dynamic Reasoning Benchmark of Multimodal Large Language Models
➡️ 论文作者:Lizhou Fan, Wenyue Hua, Xiang Li, Kaijie Zhu, Mingyu Jin, Lingyao Li, Haoyang Ling, Jinkui Chi, Jindong Wang, Xin Ma, Yongfeng Zhang
➡️ 研究机构: University of Michigan、Rutgers University、Shandong University、Microsoft Research Asia
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在理解与生成文本和视觉内容方面展现出新的能力,促进了多媒体交互系统和复杂的跨模态决策工具的发展。然而,目前缺乏专门评估MLLMs纯推理能力的基准,现有基准多为静态评估,容易导致模型过拟合,无法全面反映MLLMs的能力。
➡️ 研究动机:为了填补这一研究空白,研究团队开发了NPHardEval4V,一个动态基准,旨在评估MLLMs在不同任务中的推理能力。该基准通过将NPHardEval中的文本描述转换为图像表示,提供了一个动态更新的评估框架,以防止过拟合,并确保评估的准确性和挑战性。
➡️ 方法简介:NPHardEval4V基于NPHardEval基准构建,将文本描述的问题转换为图像表示,涵盖P、NP-Complete和NP-Hard三个计算复杂度级别。每个问题类别进一步细分为10个难度等级,以提供对模型性能的细致评估。研究团队通过提供文本和视觉提示的组合,评估MLLMs在处理复杂问题时的推理能力。
➡️ 实验设计:实验设计了三个主要部分:1) 识别实验,评估模型的图像识别能力;2) 推理实验1(默认设置),提供包含问题介绍和答案格式的文本提示,以及与问题相关的图像,评估模型的综合性能;3) 推理实验2(纯文本设置),仅提供文本描述,评估视觉提示对模型性能的影响。实验使用了多种MLLMs,包括GPT-4V、Gemini 1.0 Pro、CogVLM等,通过零样本提示评估模型的推理能力。

相关文章:

  • 未来医院已来:AI如何实现无死角安全监控
  • PowerBI动态路径获取数据技巧
  • 腾讯CSIG一面
  • 35-疫苗预约管理系统(微服务)
  • qt事件过滤与传递机制
  • 华为云Astro canvas大屏与iotDA是怎样通过数据接入、数据中心的功能传输和通讯的?
  • 经典反转结构——案例分析
  • Java 实现目录递归拷贝
  • django之账号管理功能
  • 用Python做有趣的AI项目1:用 TensorFlow 实现图像分类(识别猫、狗、汽车等)
  • lvgl 实现横向滑动,并且捕获最中间那个元素
  • SpringCloud微服务架构
  • 基于先进MCU的机器人运动控制系统设计:理论、实践与前沿技术
  • VS BUG(6) LINK : fatal error LNK1158: 无法运行“rc.exe”
  • 用 C 语言实现通用的冒泡排序算法
  • UNO Less-to-More Generalization: 通过上下文生成解锁更多可控性
  • 使用UltraSigma给普源RIGOL示波器截图的方法
  • 基于 Python 的自然语言处理系列(86):DPO(Direct Preference Optimization)原理与实战
  • 【信息系统项目管理师】高分论文:论质量管理和进度管理(智慧旅游平台建设项目)
  • HBase协处理器深度解析:原理、实现与最佳实践
  • 精准滴灌“种企业”,苏南强县常熟新的进阶密码
  • 【社论】以“法治之盾”护航每一份创新
  • 释新闻|印度宣布“掐断”巴基斯坦水源,对两国意味着什么?
  • 马上评丨一些影视剧的片名,越来越让人看不懂
  • 今年五一,贵州一脸“爆相”
  • 国防部就美军“压力测试”大演习答澎湃:中国从来不信邪,不怕打,不怕压