当前位置：首页 > news >正文

【AI论文】PixelFlow：基于流的像素空间生成模型

news 来源：原创 2025/4/20 23:40:40

摘要：我们提出PixelFlow，这是一系列直接在原始像素空间中运行的图像生成模型，与主流的潜在空间模型形成对比。这种方法通过消除对预训练变分自编码器（VAE）的需求，并使整个模型能够端到端训练，从而简化了图像生成过程。通过高效的级联流建模，PixelFlow在像素空间中实现了可负担的计算成本。在256×256的ImageNet类条件图像生成基准测试中，它取得了1.98的FID（Fréchet Inception Distance）分数。定性的文生图结果展示出，PixelFlow在图像质量、艺术性和语义控制方面均表现出色。我们希望这一新范式能够激发并开拓下一代视觉生成模型的新机遇。代码和模型可在https://github.com/ShoufaChen/PixelFlow获取。Huggingface链接：Paper page，论文链接：2504.07963

研究背景和目的

研究背景

近年来，随着生成模型，特别是扩散模型（Diffusion Models, DMs）的迅速发展，图像生成领域取得了显著进步。传统的潜在空间扩散模型（Latent Space Diffusion Models, LDMs）通过将原始数据压缩到紧凑的潜在空间中，然后使用预训练的变分自编码器（Variational Autoencoders, VAEs）进行表示，大大降低了计算需求并提高了生成效率。然而，这种方法也存在一些局限性。首先，LDMs将VAE和扩散模型分为两个独立的部分进行训练，这阻碍了它们的联合优化，使得整体诊断变得复杂。其次，虽然LDMs在图像生成方面表现出色，但它们依赖于高质量的潜在表示，这在某些情况下可能难以实现。

另一方面，直接在像素空间进行图像生成的模型也受到了广泛关注。然而，由于像素空间中的信息量大且复杂，直接在像素空间进行扩散生成变得计算上不可行，特别是对于高分辨率图像。因此，一些研究采用了级联方法，先生成低分辨率图像，然后使用超分辨率模型将其提升到高分辨率。然而，这种方法仍然需要多个独立训练的网络，限制了端到端优化的可能性。

鉴于上述背景，探索一种既能在像素空间中高效生成高分辨率图像，又能实现端到端优化的新方法显得尤为重要。

研究目的

本文提出PixelFlow，旨在解决直接在像素空间中生成高分辨率图像时面临的计算挑战，并实现端到端的训练优化。PixelFlow通过级联流建模，从低分辨率到高分辨率逐步生成图像，避免了在整个过程中进行全分辨率计算，从而显著降低了计算成本。同时，PixelFlow不使用预训练的VAE，直接对原始像素数据进行操作，实现了端到端的可训练性。本文的主要研究目的包括：

提出一种直接在像素空间中运行的图像生成模型PixelFlow，实现高效且端到端的图像生成。
通过级联流建模，从低分辨率到高分辨率逐步生成图像，降低计算成本。
在类条件图像生成和文生图任务上验证PixelFlow的性能，并与其他先进模型进行比较。
探索PixelFlow在图像生成中的潜在应用，为下一代视觉生成模型提供新的思路。

研究方法

模型架构

PixelFlow采用基于Transformer的架构，通过级联流匹配（Flow Matching）算法实现从低分辨率到高分辨率的逐步图像生成。PixelFlow的模型架构主要包括以下几个部分：

Patchify层：将输入图像转换为一系列令牌序列，以便在Transformer中进行处理。与传统的潜在空间模型不同，PixelFlow直接对原始像素数据进行操作。
RoPE（Rotary Position Embedding）：用于处理不同分辨率的令牌序列，使模型能够适应不同阶段的生成任务。
分辨率嵌入：为了区分不同分辨率的特征图，引入了分辨率嵌入，将其与时间步嵌入相结合，并传递给模型。
Transformer解码器：采用标准的Diffusion Transformer（DiT）架构，通过自回归的方式进行训练，以预测下一个令牌。

级联流建模

PixelFlow通过级联流建模实现从低分辨率到高分辨率的逐步图像生成。在训练过程中，通过下采样和上采样操作构建不同分辨率的样本，并在这些样本之间进行插值，以构建训练示例。模型被训练来预测从中间样本到真实数据样本的速度，从而指导生成过程。在推理过程中，从最低分辨率的纯高斯噪声开始，逐步去噪并上采样图像，直到达到目标分辨率。

训练与推理

在训练过程中，PixelFlow从所有分辨率阶段均匀采样训练示例，并使用序列打包技术在一个小批量中联合训练不同分辨率的样本，以提高效率和可扩展性。在推理过程中，PixelFlow采用标准的流基采样方法，使用欧拉离散采样器或Dopri5求解器，根据所需的速度和准确性权衡进行选择。为了确保不同尺度之间的平滑过渡，还采用了重噪声策略来减轻跳跃点问题。

研究结果

模型性能

在ImageNet 256×256类条件图像生成基准测试上，PixelFlow取得了1.98的FID分数，与先进的潜在空间模型相比具有竞争力。此外，在文生图任务上，PixelFlow在GenEval、T2I-CompBench和DPG-Bench等基准测试上也表现出色，证明了其在生成高质量图像方面的能力。

定性分析

定性结果显示，PixelFlow能够生成具有高质量、艺术性和语义控制的图像。特别是在文生图任务中，PixelFlow能够准确地捕捉复杂文本描述中的关键视觉元素和它们之间的关系，生成与文本高度一致的图像。

消融研究

消融研究表明，级联流建模和端到端训练对于PixelFlow的性能至关重要。通过减少起始序列长度、增加推理步骤数和使用更高级的ODE求解器，可以进一步提高PixelFlow的生成质量。此外，分类器自由引导（CFG）策略的使用也对PixelFlow的性能产生了显著影响。

研究局限

尽管PixelFlow在图像生成方面取得了显著成果，但仍存在一些局限性：

计算成本：尽管PixelFlow通过级联流建模显著降低了计算成本，但在最后一个阶段仍然需要进行全分辨率计算，这占据了总推理时间的约80%。
训练收敛速度：随着序列长度的增加，PixelFlow的训练收敛速度会变慢。
模型扩展性：PixelFlow的模型扩展性尚未得到充分验证，特别是在处理更高分辨率的图像时。

未来研究方向

针对上述局限性，未来的研究可以从以下几个方面展开：

优化计算成本：探索更高效的算法和硬件加速技术，以进一步降低PixelFlow的计算成本，特别是在最后一个阶段的全分辨率计算中。
提高训练效率：研究如何加速PixelFlow的训练过程，特别是在处理长序列时。这可能包括改进模型架构、优化训练策略或使用更强大的计算资源。
扩展模型能力：验证PixelFlow在处理更高分辨率图像时的性能，并探索其在其他视觉生成任务中的应用，如视频生成和图像编辑等。
结合潜在空间表示：研究如何将潜在空间表示与PixelFlow相结合，以进一步提高其生成质量和可扩展性。这可能包括在PixelFlow中引入预训练的VAE或使用混合潜在空间和像素空间的方法。

综上所述，PixelFlow作为一种直接在像素空间中运行的图像生成模型，通过级联流建模和端到端训练实现了高效且高质量的图像生成。未来的研究将进一步优化PixelFlow的性能和扩展性，推动其在视觉生成领域的应用和发展。