Loading...
机构名称:
¥ 1.0

近年来,生成式检索已成为传统检索范式的一种颇具前景的替代方案。它为每个文档分配一个唯一的标识符(称为 DocID),并使用生成模型直接生成与输入查询相关的 DocID。DocID 通常选择一个或多个自然语言序列,例如标题、合成查询或 n-gram,以便有效地利用生成模型的预训练知识。然而,生成式检索是逐个标记生成的,每次解码时仅保留最可能的候选标记,其余标记则被剪枝。因此,如果相关 DocID 中的任何标记被错误地剪枝,检索就会失败。更糟糕的是,在解码过程中,模型只能感知 DocID 中前面的标记,而无法感知后面的标记,因此很容易出现此类错误。为了解决这个问题,我们提出了一种新颖的生成检索框架,称为术语集生成 (TSGen)。我们使用一组术语作为 DocID,而不是序列。这些术语是根据从相关性信号中学习到的权重来选择的,因此它们可以简明扼要地概括文档的语义并将其与其他文档区分开来。在术语集 DocID 的基础上,我们提出了一种排列不变的解码算法,使用该算法,可以以任何排列生成术语集,但始终会指向相应的文档。值得注意的是,TSGen 在每个解码步骤中都会感知所有有效术语,而不仅仅是前面的术语。鉴于解码空间恒定,它可以从更广阔的视角做出更可靠的决策。TSGen 也具有很强的错误抵御能力:只要解码的

通过术语集生成进行生成检索

通过术语集生成进行生成检索PDF文件第1页

通过术语集生成进行生成检索PDF文件第2页

通过术语集生成进行生成检索PDF文件第3页

通过术语集生成进行生成检索PDF文件第4页

通过术语集生成进行生成检索PDF文件第5页

相关文件推荐

2024 年
¥2.0
2024 年
¥1.0