关于大型结构工程文件的提取问题
机构名称:
¥ 1.0

我们的项目旨在应对通过冗长的施工文档有效搜索特定信息的挑战,在这种信息中,由于潜在的幻觉,使用典型的生成模型是不可取的。将实现两个部分提取问题答案模型。第一部分将由信息检索(IR)模型组成,例如BM25算法,查询和文档之间的余弦相似性,以及与MUGI(多文本生成集成)的BM25。对于第二部分,我们将仅编码的体系结构用作提取问题答案(EQA)模型,考虑到Bert,Roberta和Longformer之类的模型以获得最佳性能。在一小部分工程文档样本上进行的初步测试显示了基线至末端精度为.18,其中BM25具有K = 1的BM25,并使用了BERT模型。在使用MUGI和Roberta模型进行BM25进行进一步测试后,达到了.2的端到端精度。最终BM25没有Mugi No Reranking提出的结果比基线BM25更好,并且在提取问题回答部分中,Roberta模型表现最好。

关于大型结构工程文件的提取问题

关于大型结构工程文件的提取问题PDF文件第1页

关于大型结构工程文件的提取问题PDF文件第2页

关于大型结构工程文件的提取问题PDF文件第3页

关于大型结构工程文件的提取问题PDF文件第4页

关于大型结构工程文件的提取问题PDF文件第5页

相关文件推荐