当前位置: 首页 > news >正文

【前沿 热点 顶会】CVPR 2025 录用的基于扩散模型的图像生成方向的论文

AudCast:级联扩散变形金刚的音频驱动人类视频生成

尽管最近音频驱动的视频生成取得了进展,但现有的方法大多专注于驱动面部运动,导致头部和身体动力学不连贯。展望未来,生成同时具有准确的口型同步和精细的协同语音手势的全面人类视频是令人向往的,但也是具有挑战性的。给出了音频。在这项工作中,我们提出了AudCast,一个通用的音频驱动的人类视频生成框架,采用级联扩散-变换(DITS)范例,根据参考图像和给定的音频合成完整的人类视频。1)首先,提出了一种音频调节的整体人类DIT体系结构,以生动的手势动力学直接驱动任何人体的运动。2)然后,为了增强众所周知难以处理的手部和面部细节,区域细化DIT利用区域3D拟合作为桥梁来改造信号,产生最终结果。大量的实验表明,我们的框架生成了高保真的音频驱动的整体人类视频,具有时间一致性和精细的面部和手部细节。

PSHuman:使用跨尺度多视图扩散和显式重新网格化的真实感单图像3D人体重建

真实感三维人体建模在各种应用中都是必不可少的,并且已经取得了巨大的进展。然而,由于问题的不适定性和复杂的自身闭塞,现有的单眼全身重建方法通常依赖于正视和/或预测的后视,仍然难以获得令人满意的效果。在本文中,我们提出了PSHuman,这是一个新的框架,它利用多视角扩散模型的先验信息显式地重建人类网格。研究发现,直接对单视点人体图像进行多视点扩散会导致严重的几何失真,尤其是在生成的人脸上。为了解决这一问题,我们提出了一种跨尺度扩散,该扩散模型对全局全身形状和局部面部特征的联合概率分布进行建模,从而能够在没有任何几何失真的情况下生成细节和身份保留的新视图。此外,为了增强不同人体姿势的交叉视点体型一致性,我们将生成模型以SMPL-X等参数模型为基础,这些参数模型提供了人体先验信息,防止了与人体解剖不一致的非自然视点。利用生成的多视点法线和彩色图像,我们提出了SMPLX初始化的显式人体雕刻,有效地恢复了逼真的纹理人体网格。在CAPE和THuman2.1数据集上的大量实验表明,PSHuman在几何细节、纹理保真度和泛化能力方面具有优势。

反事实医学图像合成扩散模型中的潜在漂移

在大数据集上通过训练进行缩放已被证明可以提高使用扩散模型生成和处理图像的质量和保真度;然而,由于成本和隐私问题,在医学成像中并不总是可以访问这样的大数据集,这与在真实数据稀缺的情况下产生合成样本的这种模型的主要应用之一相矛盾。此外,由于医学领域和预先训练的模型之间的分布转移,在预先训练的一般模型上进行精调一直是一个挑战。在这里,我们提出了扩散模型的潜在漂移(LD),它可以被用于任何微调方法,以缓解分布漂移所面临的问题,或者作为推断时间的条件。潜在漂移使扩散模型适用于适合反事实图像生成的复杂任务的医学图像,这对于研究诸如性别、年龄以及患者增加或移除疾病等参数将如何改变医学图像是至关重要的。我们在三个公开的纵向基准数据集上对我们的方法进行了评估,这些数据集包括脑MRI和胸部X光片,用于生成反事实图像。我们的结果显示,当结合不同的微调方案时,在各种情况下都有显著的性能提升。这项工作的源代码将在接受后公开发布。

视觉指导的退化扩散用于一体化图像恢复

图像恢复任务,如去模糊、去噪和去雾,通常需要为每种退化类型建立单独的模型,这限制了它们在可能发生混合或未知退化的真实世界场景中的普适性。在这项工作中,我们提出了一种新的一体化图像恢复框架,它利用视觉指导下的退化扩散。与依赖于特定于任务的模型或基于模糊文本的先验知识的现有方法不同,Defusion构建了与视觉退化模式一致的显式视觉指令。这些指令是通过将退化应用于标准化视觉元素来实现的,捕捉内在退化特征,同时与图像语义无关。DFusion然后使用这些视觉指令来指导基于扩散的模型,该模型直接在退化空间中操作,在那里它通过增强稳定性和普适性对退化效果进行去噪来重建高质量的图像。综合实验表明,在包括复杂和真实世界退化在内的各种图像恢复任务中,Defusion的性能优于最先进的方法。

使用分层潜在先验的嵌套扩散模型

我们引入了嵌套扩散模型,这是一个高效而强大的层次化生成框架,它大大提高了扩散模型的生成质量,特别是对于复杂场景的图像。我们的方法使用一系列扩散模型来逐步生成不同语义层次的潜在变量。本系列中的每个模型都以前面较高级别模型的输出为条件,最终生成图像。分层潜变量沿着预定义的语义路径引导生成过程,允许我们的方法在显著提高图像质量的同时捕获复杂的结构细节。为了构造这些潜在变量,我们利用预先训练的视觉编码器,它学习强语义视觉表示,并通过降维和噪声注入来调节其能力。在多个数据集上,我们的系统在无条件和类/文本条件生成方面都显示出显著的图像质量增强。此外,我们的无条件生成系统的性能大大优于基准条件生成系统。这些改进带来的计算开销最小,因为我们的层次结构中更抽象的级别使用较低维度的表示。

扩散-4K:使用潜在扩散模型的超高分辨率图像合成

本文提出了一种基于文本到图像扩散模型的直接超高分辨率图像合成框架-4K,其核心改进包括:(1)美学-4K基准:针对目前还没有公开可用的4K图像合成数据集的问题,我们构建了一个全面的超高分辨率图像生成基准–美学-4K。我们精心挑选了GPT-40生成的图像和字幕,构建了一个高质量的4K数据集。此外,我们引入了GLCM分数和压缩比指标来评估细节,结合FID、美学和CLIPScore等整体指标来综合评估超高分辨率图像。(2)基于小波的微调:我们提出了一种基于小波的微调方法,用于直接训练照片级真实感的4K图像,适用于各种潜在扩散模型,证明了其在合成高细节4K图像方面的有效性。因此,Diffsion-4K在高质量图像合成和文本提示粘连方面取得了令人印象深刻的性能,特别是在现代大规模扩散模型(如SD3-2B和Flux-12B)的支持下。我们的基准测试的大量实验结果证明了扩散-4K在超高分辨率图像合成中的优势。代码和数据集将很快公开。

CVPR 2025论文合集PDF版

这些资料收录了CVPR 2025所有论文的标题和摘要,是中英文对照的,读起来方便多了。

如果你对人工智能领域感兴趣,或者想找找灵感,这绝对是个好资源。翻一翻这些最新的研究,说不定就能找到一些新的想法或思路。

平时闲下来的时候看看,既增长知识又能跟上最新的技术趋势,挺实用的。有空的话不妨看看,你或许会发现,有些方向已经被时代抛弃了,有些技术已经不受重视了。看看相关领域的前沿工作,应该会有收获的!
CVPR 2025 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/mbd-aJaVlJ9w
NIPS 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpyUlp5v

相关文章:

  • SMT贴片机编程高效学习路径解析
  • 18.使用读写包操作Excel文件:xlrd、xlwt 和 xlutils 包
  • 数据结构系列五:栈和队列
  • MapReduce处理数据流程
  • Stable Deffusion--常见模型插件详解
  • DEADiff
  • ONNX:统一深度学习工作流的关键枢纽
  • Python —— items()方法
  • DeepSeek在文献检索中两个相关提示词
  • fastapi+angular酒店预订系统
  • pycharm环境创建
  • 强化学习 - PPO控制无人机
  • 【C语言】函数和数组实践与应用:开发简单的扫雷游戏
  • 二进制矩阵全零转换问题 | DFS
  • 建筑兔零基础Arduino自学记录47|安装和实战小灯闪烁-1
  • 91.HarmonyOS NEXT 应用国际化与本地化指南:打造全球化应用
  • 3.16学习总结 java
  • NumPy 函数用法详解:np.full 和 np.concatenate
  • MySQL数据库中的行锁
  • Qt MainWindow简单例子(文本编辑)
  • 上海通报5起违反中央八项规定精神问题
  • 非法收受财物逾1648万,湖南原副厅级干部康月林一审被判十年半
  • 金融创新破局记:中小微企业转型背后的金融力量
  • 香港警务处高级助理处长叶云龙升任警务处副处长(行动)
  • 我国将出台稳就业稳经济推动高质量发展若干举措,将根据形势变化及时出台增量储备政策
  • 上海嘉定远香文化环启用,运动、看展、听歌“一站式解决”