图1描绘了使用标记数据训练以预测材料特性的典型监督ML模型。此类ML模型的主要组成部分是(a)定义问题(b)数据采集并选择适当的特征空间,(c)数据处理或探索性数据分析(EDA)和(d)使用合适的算法培训和验证该模型。尽管有许多开源材料数据库,但与数据科学的其他领域相比,数据由不同的类别组成,每个类别的数据相对有限。在大多数实验数据中,研究是在不同的实验条件下进行的,因此数据取决于温度,时间,湿度,原始化学物质等各种对照参数。选择数据后,下一个关键挑战是选择材料的适当功能集(指纹),以用目标属性映射。诸如Pymatgen [12],Matminer [13],原子模拟环境(ASE)[14],DSCRIBE [15]等的开源库[13]等。对于分子和材料的不同位点,键和全局(晶格)特征非常有用。EDA包括验证任何异常值,将丢失的数据推出,将对象类型参数编码为数字类型,检查数据中的任何重复副本等。一旦数据准备就绪,为给定问题选择特定算法是另一个挑战,它应该考虑不同的因素,例如数据的大小,特征空间,问题的复杂性等。如果选择有限的数据点(例如深度学习算法)(高方差)模型(高方差)模型,则可能导致过度拟合。训练模型的解释性是了解最归因于总体预测的特征的另一个重要因素[16]。可以使用超参数调谐方法(如随机搜索交叉验证和网格搜索交叉验证)进一步调整模型的精度。
主要关键词