计算材料科学工具生成的数据量不断增加,这推动了新机器学习模型的发明,并随后协助发现了新材料。在这里,我们提出了对数据本身的逾期质疑:它适合培训机器学习模型吗?通过检查材料项目数据集中的凸壳(E H),电子带隙和形成能数据的能量,我们发现E H是一个不稳定的数量,这是因为数据库没有足够的化学空间表示化学空间,这是计算晶体分解所必需的。E H的不稳定也适用于DFT计算的电压,因为计算的电压是从已知的阳离子不足稳定材料获得的电压的平均值。我们还显示了材料项目数据库中报告的电子带隙值的差异,并且由于分层材料的间层间距离的任意变化或找到减少在数据库中沉积值以下结构的能量的优化参数,因此形成能量数据可能会改变。我们讨论了减轻这些数据问题的可能方法。
主要关键词