当前位置: 首页 > news >正文

MAGI-1自回归式大规模视频生成

1. 关于 MAGI-1

提出 MAGI-1——一种世界模型(world model),通过自回归方式预测一系列视频块(chunk,固定长度的连续帧片段)来生成视频。
模型被训练为在时间维度上单调递增噪声的条件下对每个块进行去噪,从而实现 因果时序建模,并天然支持流式生成

图像到视频 (I2V) 任务中,MAGI-1 结合多项算法创新与专用基础设施,兼具高时间一致性可扩展性。模型还支持块级提示(chunk-wise prompting),实现平滑场景衔接、长时段合成以及细粒度文本控制。
MAGI-1 为统一高保真视频生成、灵活指令控制和实时部署提供了有前景的方向。

2. 模型概览

Transformer-based VAE

  • Transformer 架构的变分自编码器,空间 8× + 时间 4× 压缩
  • 解码速度快、重建质量高度竞争

自回归去噪算法

MAGI-1 按 (每块 24 帧)而非整体进行自回归去噪。当当前块达到设定清晰度阈值,即可并行启动下一块生成,最多同时处理 4 块,显著提升效率。
在这里插入图片描述

扩散模型架构

基于 Diffusion Transformer,并引入多项关键创新以提升大规模训练效率与稳定性:

  • Block-Causal Attention
  • Parallel Attention Block
  • QK-Norm 与 GQA
  • Sandwich Norm、SwiGLU
  • Softcap Modulation

详见技术报告。
在这里插入图片描述

蒸馏算法

采用 Shortcut Distillation:同一速度场(velocity-based)模型兼容多种推理预算。

  • 训练中在步长 {64, 32, 16, 8} 间循环采样,并强制“大步 = 两个小步”自洽。
  • 融合 Classifier-Free Guidance 蒸馏,在效率与保真度之间取得平衡。

3. 模型家族

模型下载链接推荐硬件
T5
MAGI-1-VAE
MAGI-1-24BH100 / H800 × 8
MAGI-1-24B-distillH100 / H800 × 8
MAGI-1-24B-distill + fp8_quantH100 / H800 × 4 或 RTX 4090 × 8
MAGI-1-4.5BRTX 4090 × 1

4. 评测结果

内部人类评测

MAGI-1 在开源模型中取得 SOTA(超越 Wan-2.1,显著领先 Hailuo、HunyuanVideo),在指令遵循运动质量方面尤为突出,可与闭源商业模型 Kling 竞争。
在这里插入图片描述

物理评测(视频续帧)

模式物理 IQ ↑空间 IoU ↑时空一致 ↑加权 IoU ↑MSE ↓
Magi (V2V)56.020.3670.2700.3040.005
VideoPoet (V2V)29.500.2040.1640.1370.010
Magi (I2V)30.230.2030.1510.1540.012
Kling 1.6 (I2V)23.640.1970.0860.1440.025
VideoPoet (I2V)20.300.1410.1260.0870.012
Gen 3 (I2V)22.800.2010.1150.1160.015
Wan 2.1 (I2V)20.890.1530.1000.1120.023
Sora (I2V)10.000.1380.0470.0630.030
GroundTruth100.00.6780.5350.5770.002

5. 运行指南

5.1 环境准备(推荐 Docker)

# 拉取镜像
docker pull sandai/magi:latest# 启动容器
docker run -it --gpus all --privileged \--shm-size=32g --name magi --net=host --ipc=host \--ulimit memlock=-1 --ulimit stack=6710886 \sandai/magi:latest /bin/bash

源码方式

# 创建环境
conda create -n magi python==3.10.12
conda activate magi# 安装 PyTorch
conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 \pytorch-cuda=12.4 -c pytorch -c nvidia# 安装依赖
pip install -r requirements.txt# 安装 ffmpeg
conda install -c conda-forge ffmpeg=4.4# 安装 MagiAttention
git clone git@github.com:SandAI-org/MagiAttention.git
cd MagiAttention
git submodule update --init --recursive
pip install --no-build-isolation .

5.2 推理命令

修改 example/24B/run.shexample/4.5B/run.sh 控制输入输出。

关键参数说明
  • --config_file:模型配置文件路径,如 example/24B/24B_config.json
  • --modet2v(文本→视频) / i2v(图像→视频) / v2v(视频→视频)
  • --prompt:文本提示(仅 t2v 模式)
  • --image_path:输入图像路径(仅 i2v 模式)
  • --prefix_video_path:前缀视频路径(仅 v2v 模式)
  • --output_path:生成视频保存路径
Bash 示例
# 运行 24B
bash example/24B/run.sh# 运行 4.5B
bash example/4.5B/run.sh
自定义示例
# 图像转视频
--mode i2v \
--image_path example/assets/image.jpeg \# 视频续帧
--mode v2v \
--prefix_video_path example/assets/prefix_video.mp4 \

5.3 config.json 常用字段

字段含义
seed随机种子
video_size_h / w输出分辨率
num_frames视频时长
fps帧率(4 帧 = 1 latent_frame)
cfg_number原始模型 2;distill/quant 模型 1
load模型权重目录
t5_pretrained / vae_pretrained预训练权重路径

相关文章:

  • Linux的进程间通信
  • Docker配置带证书的远程访问监听
  • 身份证实名认证:通往数字安全与便捷生活的钥匙
  • 璞华ChatBI闪耀2025数博会:对话式数据分析引领数智化转型新范式
  • Jmeter中同步定时器使用注意点
  • 元素滚动和内容垂直居中同时存在,完美的 html 元素垂直居中的方法flex + margin: auto
  • IP地址与子网掩码
  • IDEA add gitlab account 提示
  • Windows 同步技术-一次性初始化
  • 一文读懂https
  • 系统分析师第八、九章
  • 管理100个小程序-很难吗
  • 【源码分析】Linux内核ov13850.c
  • 异构迁移学习(无创脑机接口中的跨脑电帽迁移学习)
  • 开源 RAG 引擎:文档理解精准、检索高效、可视化干预灵活,一站式搞定
  • 钧瓷产业原始创新的许昌共识:技术破壁·产业再造·生态重构(一)
  • Redis-cli常用参数及功能的详细说明
  • (20)VTK C++开发示例 --- 读取 DEM(高程地图)文件
  • 通过Quartus II实现Nios II编程
  • 影刀RPA怎么制作文生图,把网站上图片获取到本地文件夹工作流
  • 北朝时期的甲胄
  • “低头捡星光”,艺术创作直面三江源生态保护
  • 中国空间站已在轨实施了200余项科学与应用项目
  • 《哪吒2》票房已达157亿,光线传媒一季度净利增至20亿元
  • 泰国总理佩通坦:推迟与美国的关税谈判
  • 尹锡悦涉嫌发动内乱案第二次庭审举行