自动化材料合成需要历史数据,但从出版物中提取详细数据和元数据具有挑战性。我们制定了初步策略,使用大型语言模型从材料科学文章中快速、自主地提取数据,数据格式可由材料数据库管理。我们使用聚合物纳米复合材料的子域作为示例用例,并通过手动验证演示了概念验证案例研究。我们使用 Claude 2 chat、Open AI GPT-3.5 和 4 API 提取表征方法和有关样品的一般信息,利用零次和少量提示来引出更详细和准确的响应。我们在样本提取任务中使用 Claude 2 chat 获得了最佳结果,F1 得分为 0.88。我们的研究结果表明,语言模型对于从文献中更有效、更实用地检索合成参数非常有用。
主要关键词