当前位置: 首页 > news >正文

从数据集到开源模型,覆盖无机材料设计/晶体结构预测/材料属性记录等

在人工智能与材料科学加速融合的时代背景下,数据集正逐渐成为推动材料研究范式转变的核心引擎。从基于物理模型的传统计算方法,向基于数据驱动的智能预测过渡,不仅依赖于算法性能的提升,更依赖于高质量材料数据的支撑。数据的全面性、准确性与可重复性,直接决定了模型在材料属性预测、结构生成与功能发现等任务中的表现上限。

与图像或自然语言等领域不同,材料数据高度结构化,且具备复杂的物理约束、多尺度耦合和跨模态融合等特点,使得其数据集构建门槛更高。无论是第一性原理计算结果,还是实验测量数据,其采集、清洗、标准化、标注与存储均需严格遵循科学流程,以保障数据的可信度与泛化能力。

特别是晶体结构与材料属性数据的系统化整理,使得从基础物理建模到机器学习建模之间的路径变得更加可行。数据集中蕴含的形成能、带隙、体积、密度等多维信息,为研究者开展性质预测、材料筛选、以及潜在应用分析提供了坚实的数据基础。同时,标准化的格式、统一的命名体系及丰富的元数据,也显著提升了数据可追溯性和跨平台可用性。

为了帮助相关领域的学者更好地开展研究,HyperAI 超神经整理了当前业界广泛关注的材料科学数据集以及一键部署教程,涵盖量子材料、无机材料、晶体结构等多个关键方向,让复杂庞杂的材料数据,真正为研究者服务。

点击查看更多开源数据集:

https://go.hyper.ai/g9PvL

材料数据集汇总

1. OMat24 无机材料数据集

预估大小:185.67 GB

下载地址:https://go.hyper.ai/hptlY

Meta 于 2024 年发布了 Open Materials 2024 (OMat24) 大规模开源数据集,该数据集包含超过 1.1 亿次以结构和成分多样性为重点的 DFT 计算结果,涵盖从平衡态和非平衡态结构取样的不同原子构型,是目前用于材料训练 DFT 替代模型的最大的开源数据集。

2. OQMD 开源量子材料数据集

预估大小:32.89 GB

下载地址:https://go.hyper.ai/qDyGS

OQMD 数据集包含了通过密度泛函理论 (DFT) 计算得到的超过 1,226,781 种材料的热力学和结构性质。数据来源于无机晶体结构数据库 (ICSD),包括了近 30 万种化合物的 DFT 总能量计算以及常见晶体结构的修饰,旨在存储和共享量子材料数据。

3.Materials Project 在线材料数据集

下载地址:https://go.hyper.ai/ELmmX

Materials Project 是一个大型开放式在线材料数据集。数据包括晶体结构、能量特性、电子结构和热力学性质,覆盖了材料表示、光电性质、力学性质、物理化学性质、稳定性和反应性、热力学性质以及磁性性质等多个方面。

4. LLM4Mat-Bench 晶体结构数据集

下载地址:https://go.hyper.ai/fSTbI

LLM4Mat-Bench 是一个用于材料属性预测的多模态语言模型评估数据集,收录了约 197 万条晶体结构样本,来自 10 个公开材料数据库,涵盖 45 种不同的材料物理与化学属性,是迄今为止用于评估大型语言模型 (LLM) 用于材料性能预测的性能的最大基准。

5. Material DFT 材料属性数据集

下载地址:https://go.hyper.ai/ju56p

该数据集提供了大量来自材料项目数据库高质量材料属性记录,涵盖了多种化学成分和物理属性,每条数据对应一种独特的材料,所有属性均通过密度泛函理论 (DFT) 计算获得。

经典教程

除了高质量数据外,HyperAI超神经官网还上线了「MatterGen 无机材料设计模型 Demo」,该教程支持一键部署,极大降低使用门槛。

教程地址:https://go.hyper.ai/5mWaL

MatterGen 是微软推出的一款基于生成式 AI 的无机材料设计模型,旨在通过扩散模型直接生成具有特定化学、机械、电子或磁性属性的新材料。

具体而言,MatterGen 模型主要是基于扩散架构,先将原子类型、原子位置、周期性晶格逐步破坏为随机结构,然后训练一个模型反向完成这一过程,让模型学习如何从随机噪声逐步还原回原始材料结构。论文的通讯作者谢天认为,这与视频生成的核心思想非常相似。


以上就是 HyperAI超神经为大家汇总的材料数据集,如果你有想要收录 hyper.ai 官方网站的资源,也欢迎留言或投稿告诉我们哦!

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区,致力于成为国内数据科学领域的基础设施,为国内开发者提供丰富、优质的公共资源,截至目前已经:

* 为 1200+ 公开数据集提供国内加速下载节点

* 收录 300+ 经典及流行在线教程

* 解读 200+ AI4Science 论文案例

* 支持 500+ 相关词条查询

* 托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅:

https://hyper.ai/

相关文章:

  • 从瀑布到敏捷:我是如何学习PSM完成转型的
  • Oceanbase单机版上手示例
  • WiFi“管家”------hostapd的工作流程
  • pdfjs库使用3
  • 语音合成之二TTS模型损失函数进化史
  • Nacos安装及数据持久化
  • YOLOv5、YOLOv6、YOLOv7、YOLOv8、YOLOv9、YOLOv10、YOLOv11、YOLOv12的网络结构图
  • 【教程】无视硬件限制强制升级Windows 11
  • 用 NLP + Streamlit,把问卷变成能说话的反馈
  • PyCharm入门导览
  • 深度学习-全连接神经网络-1
  • 解析:深度优先搜索、广度优先搜索和回溯搜索
  • 通信算法之269 : OFDM信号的循环自相关特性用于无人机图传信号识别
  • 第 3 期:逆过程建模与神经网络的作用(Reverse Process)
  • 【MySQL数据库入门到精通】
  • Harmony5.0 设置应用全屏模式,隐藏导航栏和状态栏
  • Houdini python code:参数指定文件路径
  • TVM计算图分割--Collage
  • transient关键字深度解析
  • Linux 网络接口 /sys/class/net/eth0 文件详解
  • 艺术开卷|近现代中国古代书画东渡日本的历史图景
  • 谁在贩卖个人信息?教培机构信息失守,电商平台“订单解密”
  • 深一度|奥运一年后丢冠不稀奇,但究竟谁来扛起男乒的大旗
  • 解放日报:订单不撤,中国工程师有能力
  • 经济参考报:安全是汽车智能化的终极目标
  • 徐州沛县一村委会因无资质处理固废,被环保部门罚款19万元