当前位置：首页 > news >正文

字节跳动发布视频生成基础大模型 Seaweed-7B

news 来源：原创 2025/4/20 11:34:56

近日，字节跳动发布了其全新视频生成基础大模型 Seaweed-7B，该模型由字节 Seed 团队开发，参数量仅为 70 亿，在多个方面展现出卓越性能，为 AI 视频生成领域带来了新的突破。

支持多种生成方式：Seaweed-7B 不仅支持传统的文生视频和图生视频，还新增了多项创新功能，如音视频同步生成、长镜头叙事和实时高分辨率生成等，显著提升了生成内容的多样性与实用性。
音视频同步生成：模型能够基于音频输入生成匹配的视频内容，确保唇部动作、表情与语音节奏高度同步，适用于虚拟主播、配音视频等场景。
长镜头与多镜头叙事：支持生成连贯的单镜头长视频或多镜头切换的复杂故事，保持角色、风格和环境的连续性，为剧情短片和广告创作提供了强大支持。
高分辨率超分与实时生成：模型可生成 720p 至 2K 分辨率的视频，帧率达 24fps，并支持实时生成，大幅提升了创作效率。
世界建模与相机控制：通过精确的相机轨迹控制和 3D 一致性优化，Seaweed-7B 能够模拟真实世界场景，适用于游戏开发、虚拟现实等前沿领域。

采用 DiT 架构：Seaweed-7B 采用 DiT（Diffusion Transformer）架构，通过对抗后训练（Adversarial Post-Training，APT）优化了生成速度与质量，仅需单次神经函数评估即可生成 2 秒 720p 视频，推理速度比同类模型快 62 倍。
降低训练成本：其训练成本仅为行业标准的 1/3，使用的 H100 GPU 小时数为 66.5 万，远低于主流模型的 200 万，为中小团队提供了可负担的高质量视频生成方案。
提升物理一致性：通过合成 CGI 视频的后训练增强了物理一致性，使得复杂动作和 3D 场景更自然逼真。
高效的数据处理：开发了一套高吞吐量且灵活的视频管理流程，包括管理视频编码和解码、执行时间分割、空间裁剪、质量过滤等，每天能够处理超过 50 万小时的视频数据。
创新的模型设计：创新性地设计了多级激活检查点（MLAC）机制，支持将中间激活存储在 GPU、CPU 或磁盘等多层级介质中，不仅大幅降低了显存占用，还减少了重计算带来的性能损耗。