本文研究了使用大型语言模型(LLM)从全长材料科学研究论文中提取聚合物纳米复合材料(PNC)的样本清单。挑战在于PNC样品的复杂性质,这些属性具有散布在整个文本中的许多属性。关于PNCS的注释详细信息的复杂性限制了数据的可用性,从而使文档级别级别的关系提取技术不切实际,这是由于综合命名实体的挑战跨度跨度。为了解决这个问题,我们为此任务介绍了一种新的基准和评估技术,并以零拍的方式探索了不同的提示策略。我们还结合了提高性能的自我一致性。我们的发现表明,即使是先进的LLMS陷入困境,也可以从文章中提取所有样本。最后,我们分析了此过程中遇到的错误,将它们归类为三个主要挑战,并讨论了未来研究的潜在策略以克服它们。
主要关键词