当前位置: 首页 > news >正文

长视频生成、尝试性检索、任务推理 | Big Model Weekly 第56期

点击蓝字

78956f8571c5d504ec0c8d0aa4eaa81e.jpeg

关注我们

AI TIME欢迎每一位AI爱好者的加入!

01

COMAL:AConvergent Meta-Algorithm for Aligning LLMs with General Preferences

许多对齐方法,包括基于人类反馈的强化学习(RLHF),依赖于布拉德利-特里(Bradley-Terry)奖励假设,然而这一假设无法充分捕捉人类偏好的全范围。为了实现与一般偏好的稳健对齐,本文将对齐问题建模为一个二人零和博弈,其中纳什均衡策略能够保证在对抗任何竞争策略时的胜率达到50%。然而,以往用于寻找纳什策略的算法要么发散,要么收敛到修改后的博弈中的纳什策略,即使在简单的合成环境中,也无法保持对所有其他策略的50%胜率保证。本文提出了一种用于语言模型与一般偏好对齐的元算法——收敛性元对齐算法(Convergent Meta Alignment Algorithm, COMAL),其灵感来源于博弈论中的收敛算法。理论上,本研究证明该元算法在最终迭代中能够收敛到精确的纳什策略。此外,该元算法简单易用,可以与许多现有的针对RLHF和偏好优化的方法相结合,且仅需进行最小的改动。实验结果表明,当与现有的偏好策略优化方法结合时,所提出的框架能够有效发挥作用。

27580459d5d30cda2c3632b5de908f05.png

5f4341c17d446782d9e050ce0f35b019.png

cb48dec81ff07cc7ecf76681f55bfd1e.png

文章链接:

https://arxiv.org/pdf/2410.23223

02

Why Fine-grained Labels in Pretraining Benefit Generaliza tion?

近期研究表明,使用细粒度标注数据对深度神经网络进行预训练,随后在下游任务中使用粗粒度标注数据进行微调,通常比仅使用粗粒度标注数据进行预训练获得更好的泛化性能。尽管有大量的实证研究支持这一现象,但其理论依据仍然是一个未解决的问题。本文通过引入“层次多视图”结构来约束输入数据分布,填补了这一空白。在该框架下,本文证明了:1)粗粒度预训练仅能使神经网络很好地学习到共同特征,而2)细粒度预训练则有助于网络在学习共同特征的同时,还能够学习到稀有特征,从而在困难的下游测试样本上提高准确性。

5729e4eaebfe5f2dbfd487c5bfb3d11a.png

1b08d8ce97f4fee1080e43e5a2f92ac2.png

1b398fc0de058d00f774c87e39a07148.png

9b8c4d2ea1b8708845d11bf399075b7c.png

文章链接:

https://arxiv.org/pdf/2410.23129

03

SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation

人类拥有互补的学习系统,能够将对一般世界动态的缓慢学习与从新体验中快速存储情景记忆相结合。然而,以往的视频生成模型主要关注通过大量数据预训练实现的缓慢学习,忽略了对情景记忆存储至关重要的快速学习阶段。这种忽视导致在生成较长视频时,时间上相隔较远的帧之间会出现不一致,因为这些帧超出了模型的上下文窗口范围。为此,本文提出了SLOWFAST-VGEN,这是一个用于行为驱动的长视频生成的新型双速学习系统。该方法结合了一个用于缓慢学习世界动态的掩码条件视频扩散模型,以及一个基于时间LoRA模块的推理时快速学习策略。具体而言,快速学习过程会根据局部输入和输出更新其时间LoRA参数,从而高效地将情景记忆存储在其参数中。本文进一步提出了一种慢-快学习循环算法,将内部快速学习循环无缝整合到外部缓慢学习循环中,使模型能够回忆起之前的多情景体验,以实现具有上下文感知能力的技能学习。为了促进对近似世界模型的缓慢学习,作者收集了一个包含20万段视频的大型数据集,这些视频附带语言行为注释,涵盖了广泛的情景。大量实验表明,SLOWFAST-VGEN在行为驱动的视频生成的各种指标上均优于基线模型,其FVD得分为514,而基线模型为782,并且在较长视频中保持了更好的一致性,平均场景切换次数为0.37,相比之下基线模型为0.89。此外,慢-快学习循环算法在长视野规划任务中也显著提升了性能。

ae32e5d2f95387dda3a7a9acb74ca29f.png

5a2300379be3a53a228aa749ca1f8646.png

4d3eceeddf547053c842a4a532254924.png

e055b04421c14ed3edc6170e209cab34.png

文章链接:

https://arxiv.org/pdf/2410.23277

04

Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval

大语言模型(LLMs)的幻觉问题正通过允许其搜索信息并将其回答基于真实来源来逐步缓解。然而,LLMs在提出正确的搜索查询时常常面临困难,尤其是在处理复杂或间接的主题时。鉴于LLMs可以通过尝试不同的查询来学习搜索相关事实,并对成功检索到相关信息的查询赋予更高的权重,本文提出了一种名为“通过尝试学习检索”(Learning to Retrieve by Trying, LeReT)的强化学习框架。该框架通过探索搜索查询并利用基于偏好的优化方法来提升查询质量。LeReT能够将检索准确率提升多达29%,并将下游生成器的评估指标提升17%。LeReT的简单性和灵活性使其能够应用于任意现成的检索器,并使其成为改进通用LLM流程的有前景的技术。

983b9aa8dde67113b070e9c42b93b4a5.png

edaeab3db06e6a1fddedaa9f779604f7.png

81867243eb03d148373d0efc8f5e09ac.png

85f9c3cbe0455a1b9dae14a48a5da7ae.png

3b1c0e37fdcb9a4073843b8132b094f9.png

c06ce439d342110feaf5b0e4533fcc16.png

文章链接:

https://arxiv.org/pdf/2410.23214

05

A Large Recurrent Action Model: xLSTM enables Fast Inference for Robotics Tasks

近年来,强化学习(RL)领域出现了一种趋势,即通过序列建模在大规模数据集上离线训练大型动作模型。现有的模型主要基于Transformer架构,从而实现了强大的智能体。然而,由于推理速度较慢,基于Transformer的方法在实时应用(例如机器人技术)中并不实用。最近,提出了一些现代循环架构,例如xLSTM和Mamba,这些架构在训练过程中具有与Transformer架构类似的并行化优势,同时提供了快速推理的能力。在本研究中,作者探讨了这些现代循环架构在大型动作模型中的适用性,并提出了一种以xLSTM为核心、具有线性时间推理复杂度和自然序列长度外推能力的大型循环动作模型(LRAM)。在来自6个领域的432个任务上的实验表明,LRAM在性能和速度方面与Transformer相当。

c1d299aedb6520c9d646c05673d9ab6f.png

b551fb31766416c0edba6de057aa87cf.png

08a9f4a37a249801cd50196c715ab651.png

b76e382b8f3bc2f47888d07162e80e95.png

1af5d97318bb7428ca2ae27b440772a1.png

文章链接:

https://arxiv.org/pdf/2410.22391

06

Project MPG: towards a generalized performance benchmark for LLM capabilities

目前存在大量用于评估大语言模型(LLM)的基准测试任务,但在决策过程中,尤其是对于非专业人士来说,一个单一的数字往往是更具可操作性的信息。然而,目前尚未有一种非基于Elo评分系统的聚合方法,而Elo系统可能成本高昂或耗时较长。鉴于此,本文提出了一种用于聚合一般基准测试空间中模型性能的方法,称为“MPG项目”,即“Model Performance and Goodness”(模型性能与优劣)。这一名称也隐喻性地引用了一个广为人知但并不准确且粗糙的汽车性能指标。在此框架下,本文创建了两个数字指标:一个“优劣”数字(答案准确性)和一个“速度”数字(成本或每秒查询次数,QPS)。通过将不同模型相互比较,本文根据这一通用指标以及子领域呈现了模型的排名。研究发现,本文的得分与Chatbot Arena的得分之间存在显著的皮尔逊相关性,甚至在相关性上优于MMLU排行榜与Chatbot Arena之间的相关性。

c86b736d624b8285d5d2c55fb228655e.png

29fc1baff344558450b5628ea464cec9.png

323fc77cae5df926e05ce69e5d3f2114.png

文章链接:

https://arxiv.org/pdf/2410.22368

07

Image2Struct: Benchmarking Structure Extraction for Vision-Language Models

本文介绍了Image2Struct,这是一个用于评估视觉-语言模型(VLMs)从图像中提取结构能力的基准测试。该基准测试具备以下特点:1)涵盖真实世界的应用场景;2)完全自动化,无需人工判断;3)基于可更新的数据流。在Image2Struct中,视觉-语言模型被提示从输入图像(例如网页截图)中生成底层结构(例如LaTeX代码或HTML)。生成的结构随后被渲染以产生输出图像(例如渲染后的网页),并与输入图像进行比较以生成相似性评分。这种往返评估方法使得我们能够定量评估视觉-语言模型在具有多种有效结构的任务上的表现。

本文构建了一个数据管道,能够在执行时从活跃的在线社区下载最新数据,并在无需人工干预的情况下对视觉-语言模型进行评估。本文引入了三个领域(网页、LaTeX和乐谱),并采用五种图像度量方法(像素相似性、Inception向量之间的余弦相似性、学习到的感知图像块相似性、结构相似性指数和地球移动相似性),以实现图像对之间的高效自动比较。本文在14种突出的视觉-语言模型上对Image2Struct进行了评估,发现评分差异较大,表明Image2Struct能够区分不同视觉-语言模型的性能。此外,不同领域的最高评分差异显著(例如,乐谱上的评分为0.402,而LaTeX公式上的评分为0.830),这表明Image2Struct包含不同难度的任务。

47a3261d78f06b87ea2d44123ce6bc8c.png

a850e81ee68c35e7efbd5e8aefe30a0d.png

6309caef539c2b07d5fa45ee355be294.png

a24d75a87ec90a175728949ecb3901c7.png

文章链接:

https://arxiv.org/pdf/2410.22456

本期文章由陈研整理

往期精彩文章推荐

48a72252fdef0e11642c6bfff5e22bd7.jpeg

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

 6bc6f08119f3dcb9c821788b5130c58d.png

我知道你 

在看

提出观点,表达想法,欢迎 

留言

dd0f20bf597aac950d8b05b679fc601d.gif

点击 阅读原文 查看更多!

相关文章:

  • 为AI聊天工具添加一个知识系统 之107 详细设计之48 理解和角色
  • 从零到上线:Node.js 项目的完整部署流程(包含 Docker 和 CICD)
  • Spring Boot 项目启动报错 “找不到或无法加载主类” 解决笔记
  • 【ISO 14229-1:2023 UDS诊断全量测试用例清单系列:第五节】
  • MySQL数据库三:操作数据库(二)
  • 【ISO 14229-1:2023 UDS诊断全量测试用例清单系列:第十节】
  • mac docker镜像加速正确配置方式
  • 【MySQL常见疑难杂症】常见文件及其所存储的信息
  • 尚硅谷爬虫note005
  • 基于Knative的无服务器引擎重构:实现毫秒级冷启动的云原生应用浪潮
  • 数据结构笔记之时间复杂度O(n)中的O是什么的缩写,为什么要用O这个字母?
  • 快速设置 Docker 网络代理配置
  • 手机ROM是什么
  • 网络安全|网络安全学习方法
  • 【办公类-90-02】】20250215大班周计划四类活动的写法(分散运动、户外游戏、个别化综合)(基础列表采用读取WORD表格单元格数据,非采用切片组合)
  • 自己动手实现一个简单的Linux AI Agent
  • 硬件学习笔记--40 电磁兼容试验-4 快速瞬变脉冲群试验介绍
  • 医院药品管理系统|基于SprinBoot+vue的医院药品管理系统(源码+数据库+文档)
  • CEF132 编译指南 Linux 篇 - Chromium 工具集:depot_tools 安装配置(四)
  • 金蝶云星空与钉钉高效数据集成案例分享
  • A股三大股指收跌:地产股领跌,银行股再度走强
  • 4月份全国93个国家气象站日最高气温达到或突破极值
  • 五一期间上海景观照明开启重大活动模式,外滩不展演光影秀
  • 国家发改委答澎湃:力争6月底前下达2025年两重建设和中央预算内投资全部项目清单
  • 女乘客遭顺风车甩客、深夜丢高速服务区,滴滴霸道回应:赔五百元
  • 伊朗国防部发言人:发生爆炸的港口无进出口军用物资