量子自然语言处理 (QNLP) 是指在量子硬件上对自然语言进行规范化实现,规范化是指组合语言结构(包括语法)与量子系统组合方式相匹配。自然语言分类分布组合 (DisCoCat) 模型 [8] 实现了这种规范嵌入。其中一个例子是预群 [15] 方面的语法结构与二分纠缠的组合量子结构 [1] 的完美匹配。事实上,DisCoCat 直接受到类似远距传物行为的启发 [5]。除了现代自然语言处理 (NLP) 中常见的向量空间和内积之外,DisCoCat 还采用了其他一些量子理论特征,例如用于表示形容词、动词和关系代词含义的投影仪谱 [17, 12, 13, 7]、用于表示语言歧义和词汇蕴涵的密度矩阵 [16, 2],以及用于表示相关概念的纠缠 [4],所有这些特征都“存在于”量子硬件上。因此,DisCoCat-QNLP 值得被称为“量子原生”。第一个实现 QNLP 的提案是在 [19] 中提出的。与传统硬件上的实现相比,DisCoCat 量子实现的第一个主要结果是空间资源呈指数级减少。最初提到的其他成果包括密度矩阵的原生性,以及量子算法的可用性,这些算法为典型的 NLP 任务(例如分类)提供了算法量子优势。然而,该提案的第一个缺点是依赖量子 RAM [11],而量子 RAM 目前还不存在,而且可能永远不会存在。此外,还需要提供硬件相关的 DisCoCat 图转换为量子电路等。这些缺点在以下方面得到解决:
我们所建立的基础大部分都是我们在过去二十年里在学术界时自己开发的。我们走向 QNLP 的旅程始于一个问题:如何结合符号式人工智能方法的优势(通过递归规则自然地捕捉组合性)和分布式建模意义方法的优势(捕捉自然语言语义的灵活性和模糊性,并允许从大量文本中自动学习意义)。在我们最初的 DisCoCat 论文中,1 语法规则决定了单词的含义如何在句子中流动和交互以产生其含义。有趣的是,这种信息流在抽象层面上类似于量子协议中的信息流,可以完全用图表来表达。2 由于在传统计算机上实现这种组合框架的成本会呈指数级增长,我们转向它的量子起源,并将量子计算机视为语言栖息的原生环境。3
尽管向量是计算编码单词含义最常用的结构,但它们无法表示对潜在含义的不确定性。模糊词可以通过其各种可能含义的概率分布来最好地描述。将它们放在上下文中应该可以消除其含义的歧义。同样,词汇蕴涵关系也可以使用概率分布来表征。然后,将层次顺序中较高位置的单词建模为其所包含单词含义的概率分布。DisCoCat 模型受到量子理论数学结构的启发,提出密度矩阵作为能够捕捉这种结构的词嵌入。在量子力学中,它们描述的是状态仅以不确定性已知的系统。初步实验已经证明了它们能够捕捉单词相似性、单词歧义性和词汇蕴涵结构。Word2Vec 模型的改编版 Word2DM 可以学习这种密度矩阵词嵌入。为了确保学习到的矩阵具有密度矩阵的属性,该模型学习中间矩阵并从中导出密度矩阵。这种策略导致参数更新不是最优的。本论文提出了一种用于学习密度矩阵词嵌入的混合量子-经典算法来解决这个问题。利用密度矩阵自然描述量子系统的事实,不需要中间矩阵,理论上可以规避经典 Word2DM 模型的缺点。变分量子电路的参数经过优化,使得量子比特的状态与单词的含义相对应。然后提取状态的密度矩阵描述并将其用作词嵌入。为词汇表中每个单词学习一组与其密度矩阵嵌入相对应的单独参数。在本论文中,已经在量子模拟器上执行了第一次实现。所利用的目标函数减少了同时出现的单词之间的距离,并增加了不同时出现的单词之间的距离。因此,可以通过评估学习到的词向量的相似性来衡量训练的成功程度。该模型是在词汇量较小的文本语料库上进行训练的。学习到的词向量显示了文本中单词之间的预期相似性。我们还将讨论在真实量子硬件上的实现问题,例如提取完整的状态表示和计算该模型的梯度。
