当前位置: 首页 > news >正文

MineWorld,微软研究院开源的实时交互式世界模型

MineWorld是什么

MineWorld是微软研究院开发并开源的一个基于《我的世界》(Minecraft)的实时互动世界模型。该模型采用了视觉-动作自回归Transformer架构,将游戏场景和玩家动作转化为离散的token ID,并通过下一个token的预测进行训练。MineWorld具备并行解码算法,能够以每秒4到7帧的速度生成画面,支持实时互动,提供高质量的游戏体验。

MineWorld的主要功能

  • 优质生成效果:依托视觉-动作自回归Transformer架构,MineWorld能够生成连贯且高保真的游戏帧,提升视觉体验。
  • 卓越的可控性:通过动作跟随能力的评估,MineWorld展现出精确且一致的反应,能够根据玩家的输入生成准确的场景变化。
  • 迅速的推理速度:得益于并行解码算法,MineWorld能以每秒4至7帧的速度生成图像,确保实时互动的流畅性。
  • 游戏代理:MineWorld在训练时可同时预测游戏状态和动作,具备作为游戏代理进行自主游戏的能力。
  • 实时互动功能:用户能够通过网络演示或本地运行与模型进行实时互动,选择初始画面、控制视角移动并执行游戏动作。

MineWorld的技术原理

  • 视觉-动作自回归Transformer:MineWorld通过将游戏场景和玩家动作转化为离散的token序列,实现视觉与动作的联合建模。具体而言:
    • 图像标记器(Visual Tokenizer):采用VQ-VAE架构,将游戏场景分割为离散的视觉标记,并在Minecraft数据集上进行微调,以实现高质量的图像重建。
    • 动作标记器(Action Tokenizer):将玩家的连续动作(如鼠标移动)转化为离散标记,并将不同的动作(如前进、攻击)归类,每类由唯一标记表示。
    • Transformer解码器:基于LLaMA架构,接收交错拼接的视觉标记和动作标记序列作为输入,通过下一个标记的预测进行训练,从而学习游戏状态的丰富表示及其与动作之间的关系。
  • 并行解码算法:为实现实时互动,MineWorld研发了一种并行解码算法,利用相邻图像标记之间的空间依赖性,能够同时预测每帧中的空间冗余标记,大幅提升生成速度。
  • 训练过程:模型通过下一个标记的预测进行训练,学习游戏状态的动态演变规律及动作与状态之间的关联。
  • 推理阶段:在推理时,模型根据当前游戏状态和动作生成后续场景,并利用并行解码算法快速生成高质量游戏帧。
  • 评估标准:MineWorld提出新的评估指标,用于评估生成场景的视觉质量和动作跟随能力,通过比较生成场景中预测的动作与真实动作的准确性来量化模型的可控性。

MineWorld的项目官网

  • Github仓库:https://github.com/microsoft/MineWorld
  • HuggingFace模型库:https://huggingface.co/microsoft/mineworld
  • arXiv技术论文:https://arxiv.org/pdf/2504.08388

MineWorld的应用场景

  • 具身智能研究:MineWorld提供了一个高保真且可交互的虚拟环境,适合用于具身智能的研究。研究人员可以利用该模型训练智能体,学习如何在虚拟环境中执行任务,如物体定位和环境探索。
  • 强化学习训练:凭借其实时互动能力和高生成质量,MineWorld成为强化学习训练的理想平台。研究人员可以快速生成大量训练数据,帮助智能体在模拟环境中学习最佳策略。
  • 游戏代理开发:由于MineWorld在训练过程中同时预测游戏状态和动作,具备作为游戏代理的潜力。给定初始状态和动作,模型可以迭代生成未来的状态和动作,模拟长时间的游戏过程。
  • 实时交互模拟:MineWorld的快速推理速度(每秒4至7帧)支持与玩家的实时互动,提升游戏体验。
  • 视频生成与编辑:MineWorld能够生成高质量且连贯一致的游戏视频,适用于视频内容创作,如游戏预告片和教学视频等。

常见问题

  • MineWorld的主要优势是什么?:MineWorld在视频质量、可控性和推理速度上优于传统模型,能够提供流畅而丰富的互动体验。
  • 如何开始使用MineWorld?:用户可以访问MineWorld的GitHub仓库或HuggingFace模型库,根据提供的文档进行安装和使用。
  • MineWorld适合哪些研究领域?:MineWorld非常适合用于具身智能、强化学习、游戏代理开发等多个研究领域。

相关文章:

  • 【Ubuntu】关于系统分区、挂载点、安装位置的一些基本信息
  • 新品发布 | 6 秒全谱成像,VIX-N320 内置推扫式高光谱相机重磅发布
  • 容器化-Docker-进阶
  • 【PCB工艺】运放电路中的负反馈机制
  • (19)VTK C++开发示例 --- 分隔文本读取器
  • 【⼆分查找】⼆分查找(easy)
  • 基于cubeMX的hal库STM32实现MQ2烟雾浓度检测
  • ZLMediaKit支持JT1078实时音视频
  • 深度学习--ResNet残差神经网络解析
  • 配置 Apache 的 HTTPS
  • 四川气象数据智能体示范应用入围中国信通院“开源大模型+”案例
  • jmeter中监控服务器ServerAgent
  • ctfhub-RCE
  • 用 C++ 模拟 Axios 的 then 方法处理异步网络请求
  • 深入探究Linux项目自动化构建工具:make与Makefile
  • RK3588 Buildroot 动态变更logo
  • 【数据可视化-24】巧克力销售数据的多维度可视化分析
  • 2025.04.23【Treemap】树状图数据可视化指南
  • 量子金融工程:蒙特卡洛算法误差压缩至0.3%
  • 十大物联网平台-物联网十大品牌
  • 山东一季度GDP为23466亿元,同比增长6.0%
  • 【社论】高度警惕AI谣言对网络空间的污染
  • 习近平对双拥工作作出重要指示
  • 男粉丝咬伤女主播嘴后写的条子引争议:赔偿“十万元”还是“十5元”?
  • “未来3天公布”,特朗普俄乌“和平计划”是什么?普京泽连斯基什么态度?
  • 神二十瞄准明日17时17分发射