昆仑万维开源SkyReels-V2,解锁无限时长电影级创作,总分83.9%登顶V-Bench榜单
昆仑万维开源了全球首个基于扩散强迫框架(Diffusion-forcing)的无限时长视频生成模型——SkyReels-V2。这一模型以总分83.9%的优异成绩登顶权威评测V-Bench1.0榜单,并在质量维度获得84.7%的评分,刷新了开源视频生成技术的天花板。其核心突破在于解决了传统AI视频模型的三大痛点:时长限制(5-10秒)、运动质量差和专业镜头语言理解不足。
AI快站下载
https://aifasthub.com/collections/Skywork/skyreels-v2-6801b1b93df627d441d0d0d9
核心技术揭秘:驱动无限创意与电影质感
SkyReels-V2 的卓越表现源于其独特且协同的技术架构:
- Diffusion Forcing:突破“时长天花板” 传统视频生成方法难以有效处理长序列依赖。SkyReels-V2 创新性地引入了 Diffusion Forcing 框架。这一独特的训练和采样策略,允许模型为视频中的每一帧(token)独立规划噪声水平和去噪路径。通过巧妙设计的非递减噪声时间表,它显著简化了长视频生成过程中的搜索空间,使得模型能够高效捕捉和维持跨越数十秒乃至更长时间的一致性,理论上具备生成无限长度视频的潜力。目前已公开展示了生成 30 秒、40 秒及更长连贯视频的能力。
- SkyCaptioner-V1:赋予模型“导演视角” 为了生成真正具有电影感的视频,模型需要深度理解镜头语言。昆仑万维为此专门研发了 SkyCaptioner-V1,一个强大的视频理解模型。它结合了多模态大语言模型(MLLM)的通用描述能力和子专家模型对专业电影元素(如镜头构成、景别、光线、演员表情,特别是复杂的摄像机运动)的精细分析。这使得 SkyReels-V2 能够精准理解并执行包含复杂运镜指令的文本提示,生成更具专业水准的视觉叙事。
- 强化学习(RL):精炼动态美学 针对 AI 视频中常见的物体漂移、不自然抖动等动态瑕疵,SkyReels-V2 采用了基于人类偏好数据的强化学习(RLHF)进行优化。通过高效的数据收集与模型训练,显著提升了生成视频的运动流畅度、物理真实感和整体视觉舒适度。
- 多阶段精细化训练 模型并非一蹴而就,而是经历了严谨的多阶段训练流程:从渐进式分辨率预训练打下基础,到概念平衡的监督微调 (SFT) 提升保真度,再到运动特定的强化学习 (RL) 解决动态问题,最终引入 Diffusion Forcing 框架实现长视频生成,并辅以高质量高分辨率 SFT (720p) 对细节进行最终打磨。
性能巅峰:VBench 83.9% 登顶实证
SkyReels-V2 的强大实力在客观、量化的评测中得到了充分验证,尤其是在 VBench 1.0 基准上的表现堪称惊艳:
- VBench 1.0 全面领先 VBench 是目前广泛认可的视频生成模型自动化评估基准之一。在其 1.0 版本(使用长提示集)的公开评测中,SkyReels-V2 展现了压倒性的优势:
- 总得分 (Overall Score) 达到 83.9%,位居所有参与评测的开源模型之首。
- 质量得分 (Quality Score) 高达 84.7%,同样排名第一。
- 这意味着 SkyReels-V2 在视频的视觉质量、时序连贯性、背景稳定性、物体一致性等多个维度上均表现出色,综合实力强劲。它成功超越了包括 HunyuanVideo-13B、Wan2.1-14B 在内的同类知名开源模型。
- SkyReels-Bench 人工评估印证 除了自动化评估,昆仑万维团队还构建了包含 1020 个提示的内部基准 SkyReels-Bench 进行人工细致评估。结果显示,SkyReels-V2 在最能体现模型理解和执行能力的指令遵循度 (3.15分) 和 一致性 (3.35分) 方面得分最高。同时,其视觉质量 (3.34分) 和 运动质量 (2.74分) 也处于行业领先水平,进一步佐证了模型的综合素质。
解锁应用场景:从创意短片到宏大叙事
凭借其领先的技术和 VBench 认证的卓越性能,SkyReels-V2 为内容创作打开了新的大门:
- 无限时长故事片:利用其核心优势,创作具有连贯剧情的长视频、微电影或动画片段。
- 高质量图生视频:将静态图像转化为生动、自然的视频,效果出众。
- 电影级运镜实现:精准控制镜头运动,轻松实现推、拉、摇、移、跟等专业效果。
- 灵活元素组合:结合配套方案,可将不同背景、角色、物体素材融合成完整视频。
结语
从5秒到无限时长,SkyReels-V2不仅是一次技术突破,更降低了专业影视创作的门槛。无论是独立创作者还是商业团队,均可通过这一工具探索叙事表达的无限可能。