详细内容或原文请订阅后点击阅览
GovScape 让您轻松搜索数百万政府文档
华盛顿大学领导的研究团队创建了 GovScape,这是一个高效的期末网络档案 PDF 搜索系统。用户可以查找确切的关键字,例如“FAFSA”,或者使用语义搜索,即使页面上没有出现确切的搜索词,也可以查找有关某个主题的文档。由于研究人员使用了高效的人工智能模型,处理唐纳德·特朗普第一个任期期间在线托管的 1000 万份 PDF 的成本不到 1,500 美元,即每 47,000 页约 1 美元。
来源:华盛顿大学在每个总统任期结束时,任期结束网络档案馆都会以大量文件和网页的形式保存该政府的网络存在。该档案始于 2008 年乔治·W·布什第二任期,一直持续到 2024 年,收集图像、文本、图表、经过编辑的页面和其他媒体。因此,尽管它包含重要的公共信息,但要在过剩的信息中找到这些信息却很困难。
华盛顿大学领导的研究团队创建了 GovScape,这是一个高效的期末网络档案 PDF 搜索系统。用户可以查找确切的关键字,例如“FAFSA”,或者使用语义搜索,即使页面上没有出现确切的搜索词,也可以查找有关某个主题的文档。视觉搜索选项可以让他们查询“编辑文档”、“航空照片”或“饼图”等质量信息。该系统目前可以搜索唐纳德·特朗普第一任期内在线托管的 1000 万份 PDF;该团队计划将其扩展到整个档案库。
由于研究人员使用高效的人工智能模型来阅读文档,因此处理所有 PDF 的成本不到 1,500 美元,即每 47,000 页约 1 美元。相比之下,谷歌可能会向消费者收取 1 美元的费用,以使用人工智能解析大约 100 个页面。
该团队将于 7 月 5 日在圣地亚哥举行的计算语言学协会年会上展示其研究成果。
“期末网络档案对历史学家、记者和美国公众来说非常重要,”华盛顿大学信息学院助理教授、资深作者本杰明·查尔斯·杰曼·李 (Benjamin Charles Germain Lee) 说。 “但许多数字档案变得如此之大——互联网档案馆刚刚宣布其第万亿页已归档——寻找信息是真正的挑战。”
该团队使用 PDF 是因为它们是一种普遍存在的文件格式,并且可以包含文本、图表和图像——这种组合对现有搜索系统来说是一个挑战,但使文档成为 GovScape 多模式搜索的理想候选者。
