Loading...
机构名称:
¥ 1.0

我们考虑了桌子联合搜索问题,该问题已成为数据湖中重要的数据发现问题。语义问题,例如表Union搜索,不能仅使用合成数据进行基准测试。我们为此问题创建基准测试的当前方法涉及实际数据的手动策展和人类标记。这些方法不是可靠的或可扩展的,也许更重要的是,尚不清楚创建的基准是多么全面。我们建议使用生成的AI模型来创建结构化数据基准进行表联合搜索。我们提出了一种新的方法,用于使用生成模型创建具有指定属性的tables。使用此方法,我们创建了一个新的基准测试,其中包含一对既可以协会又不可固定但相关的表。我们使用此基准来提供有关现有方法的优势和劣势的新见解。我们对现有基准和我们的新基准测试的最先进的表工会搜索方法评估。我们还基于所有基准测试的大语言模型提供并评估了一种新的表搜索方法。我们表明,与手工策划的基准测试相比,新的基准对所有方法都更具挑战性。我们研究了为什么是这种情况,并表明我们创建基准测试的新方法允许更详细的分析和方法对方法。我们讨论了我们的生成方法(以及使用它创建的基准)如何阐明桌子联合​​搜索方法的成功和失败,从而引发了可以帮助推进领域的新见解。我们还讨论了如何将基准生成方法应用于其他语义问题,包括实体匹配和相关表搜索。

alt-gen:使用大语言模型的基准测试表联盟搜索

alt-gen:使用大语言模型的基准测试表联盟搜索PDF文件第1页

alt-gen:使用大语言模型的基准测试表联盟搜索PDF文件第2页

alt-gen:使用大语言模型的基准测试表联盟搜索PDF文件第3页

alt-gen:使用大语言模型的基准测试表联盟搜索PDF文件第4页

alt-gen:使用大语言模型的基准测试表联盟搜索PDF文件第5页

相关文件推荐

2022 年
¥1.0
2024 年
¥4.0