将输入帧上下文打包到下一个帧的预测模型中用于视频生成
Paper Title: Packing Input Frame Context in Next-Frame Prediction Models for Video Generation
论文发布于2025年4月17日
Abstract部分
在这篇论文中,FramePack是一种新提出的网络结构,旨在解决视频生成中的两个主要问题:遗忘和漂移。
具体来说,遗忘指的是在生成视频时,模型难以保持和记住视频的早期帧内容,导致时间依赖性丧失;
而漂移则是指随着视频生成过程的进行,错误逐渐累积,导致后续帧的视觉质量不断退化。FramePack通过压缩输入帧,使得无论视频的长度如何,Transformer模型的上下文长度都保持固定。
传统的视频生成模型会面临随着视频长度增加,计算量和内存需求呈平方增长的问题。而FramePack通过压缩技术,使得模型在处理长视频时的计算负担不增加,从而提高了计算效率和批次大小。
反漂移采样方法是该方法的另一大创新,通过先确定视频帧的端点,然后逆向生成中间帧,这样可以避免误差积累,提高视频生成的稳定性和质量。
最后,实验结果表明,FramePack不仅能够提高现有视频扩散模型的性能,特别是在视觉质量方面,而且它使得模型的训练和推理过程更加高效,适合应用于长时间视频的生成。
Introduction部分
在这一部分,论文引入了视频生成中常见的两个问题:遗忘和漂移。
-
遗忘是指在生成视频时,模型无法保持对视频早期内容的记忆,导致时间上的一致性丧失。模型的记忆逐渐“淡化”,无法长期保留视频的上下文信息。
-
漂移则是指由于误差的逐步积累,视频的视觉质量随着生成的帧越来越远而下降。这种现象通常发生在视频生成过程中,尤其是在逐帧生成时,误差会逐渐加大,导致后续帧的质量越来越差。
当试图同时解决遗忘和漂移这两个问题时,往往会遇到一个根本性困境:任何通过增强记忆来减轻遗忘的方法,都可能加速误差的传播,从而加剧漂移;
而任何通过中断误差传播或削弱时间依赖性(例如掩蔽或重新加入噪声)来减少漂移的方法,也可能使遗忘问题更加严重。
遗忘问题导致了一种简单的解决方案——编码更多的帧,但由于Transformer的二次注意力复杂性(或者类似FlashAttn等的子二次优化),这一做法很快变得计算上不可行。
此外,视频帧之间存在大量的时间冗余,使得简单的全上下文方法效率较低。
连续帧之间的视觉特征重复性很大,揭示了设计有效压缩系统的潜力,以促进记忆。
漂移问题由多个方面的记忆机制所影响。
漂移的来源在于个别帧中发生的初始错误,而其影响则是这些错误在随后的帧中传播和累积,最终导致视觉质量下降。
一方面,较强的记忆机制可以增强时间一致性,减少初始错误的发生,从而缓解漂移;
另一方面,较强的记忆机制也会记住更多的错误,因此当错误发生时,会加速误差的传播,进一步加剧漂移。
这种记忆机制与漂移之间的悖论关系,要求我们设计出巧妙的训练和采样方法,以便于错误修正或中断误差传播。
Related Work部分
2.1 Anti-forgetting and Anti-drifting
在这一部分,文章讨论了反遗忘和反漂移的几种方法以及它们在视频生成中的应用:
-
噪声调度和历史帧增强:这是一种通过调整历史帧中的噪声水平来应对漂移的方法。通过减少对历史帧的依赖,可以减缓漂移的发生,类似于 DiffusionForcing 和 RollingDiffusion 等方法。这些方法通过改变噪声分布来改善视频生成的质量和稳定性。
-
无分类器指导(CFG):这种方法通过在不同位置应用不同的噪声级别来调节遗忘和漂移之间的权衡。通过调整指导的噪声水平,可以更好地平衡这两种问题。
-
锚帧:在视频生成过程中,可以将参考图像作为“锚点”,帮助稳定生成过程,避免漂移现象。通过在生成的初期就确定一些重要的帧(如关键帧或参考帧),可以帮助模型更好地生成后续的帧。
-
压缩潜在空间:通过压缩视频的潜在空间,视频扩散模型的计算效率得到了提升。例如, LTXVideo 和 Pyramid-Flow 等方法通过降低潜在空间的维度来减少计算负担,同时仍能保持生成质量。
-
遗忘与漂移的权衡:模型需要在增强记忆力与避免漂移之间找到平衡。更强的记忆机制可以改善视频生成的时间一致性,但也可能导致更多的误差积累,从而加剧漂移。这种关系表明,在设计模型时,需要平衡记忆强度和错误传播的控制。