我们所建立的基础大部分都是我们在过去二十年里在学术界时自己开发的。我们走向 QNLP 的旅程始于一个问题:如何结合符号式人工智能方法的优势(通过递归规则自然地捕捉组合性)和分布式建模意义方法的优势(捕捉自然语言语义的灵活性和模糊性,并允许从大量文本中自动学习意义)。在我们最初的 DisCoCat 论文中,1 语法规则决定了单词的含义如何在句子中流动和交互以产生其含义。有趣的是,这种信息流在抽象层面上类似于量子协议中的信息流,可以完全用图表来表达。2 由于在传统计算机上实现这种组合框架的成本会呈指数级增长,我们转向它的量子起源,并将量子计算机视为语言栖息的原生环境。3
我们为近期量子自然语言处理(QNLP)提供概念和数学基础,并以量子计算机科学家友好的术语进行。我们选择了说明性演示方式,并提供了支持经验证据和有关数学一般性的正式陈述的参考。我们回想起我们采用的自然语言的量子模型如何[42]规范结合语言含义与丰富的语言结构,最著名的是语法。尤其是,在量子系统的仿真下,它需要一个类似量子的模型来结合含义和结构,将QNLP建立为量子本性。更重要的是,现在领先的嘈杂的中间量子量子(NISQ)范式用于编码有关量子硬件,变异量子电路的经典数据,使NISQ非常友好地友好:语言结构可以用作免费的午餐,与昂贵的典型典型的类别编码相反,可以将语言结构编码为免费编码,该典型的典型的编码为格式编码。QNLP任务的量子加速已在先前的工作中建立[116]。在这里,我们提供了更广泛的任务,所有任务都具有相同的优势。图解推理是QNLP的核心。首先,量子模型通过分类量子力学的图形形式主义将语言解释为量子过程[38]。其次,这些图是通过ZX-Calculus翻译成量子电路的。含义的参数化成为要学习的电路变量:
在语法结构的指导下,单词可以形成句子,并在段落结构的指导下,句子构成形成对话和文档。句子和话语单位的组成方面通常被机器学习算法忽略了。最近的一项名为“量子自然语言加工”(QNLP)的计划将单词均值作为希尔伯特空间中的点学习,并通过将语法结构翻译成参数化的量子回路(PQC)来对其进行作用。先前的工作将QNLP翻译扩展到了闭合希尔伯特空间中的点。在本文中,我们对Winograd风格的代词分辨率任务进行了评估。我们训练二进制分类的变分量子分类器(VQC),并实现端到端代词分辨率系统。在IBMQ软件上执行的仿真,F1分数为87.20%。该模型的表现优于三分之三的核心分辨率系统和接近最新的Spanbert。混合量子古典模型,但F1得分增加约为6%,但改进了这些结果。
量子自然语言处理 (QNLP) 是指在量子硬件上对自然语言进行规范化实现,规范化是指组合语言结构(包括语法)与量子系统组合方式相匹配。自然语言分类分布组合 (DisCoCat) 模型 [8] 实现了这种规范嵌入。其中一个例子是预群 [15] 方面的语法结构与二分纠缠的组合量子结构 [1] 的完美匹配。事实上,DisCoCat 直接受到类似远距传物行为的启发 [5]。除了现代自然语言处理 (NLP) 中常见的向量空间和内积之外,DisCoCat 还采用了其他一些量子理论特征,例如用于表示形容词、动词和关系代词含义的投影仪谱 [17, 12, 13, 7]、用于表示语言歧义和词汇蕴涵的密度矩阵 [16, 2],以及用于表示相关概念的纠缠 [4],所有这些特征都“存在于”量子硬件上。因此,DisCoCat-QNLP 值得被称为“量子原生”。第一个实现 QNLP 的提案是在 [19] 中提出的。与传统硬件上的实现相比,DisCoCat 量子实现的第一个主要结果是空间资源呈指数级减少。最初提到的其他成果包括密度矩阵的原生性,以及量子算法的可用性,这些算法为典型的 NLP 任务(例如分类)提供了算法量子优势。然而,该提案的第一个缺点是依赖量子 RAM [11],而量子 RAM 目前还不存在,而且可能永远不会存在。此外,还需要提供硬件相关的 DisCoCat 图转换为量子电路等。这些缺点在以下方面得到解决:
强大 由 Atom Computing 制造的全球最大量子计算机已突破 1000 量子比特大关。现有量子计算机的潜力使其能够用于 NLP 等数据密集型领域。 完善的理论基础 经过近一个世纪的发展,量子力学和范畴论已经演化成为统一的科学语言。量子力学和范畴论天生适合处理大数据和非局部相关性,因此非常适合自然语言处理领域 易于使用的工具 目前有很多用于量子计算和 QNLP 的开源工具,例如 IBM 的 qiskit 和 Quantinuum 的 lambeq。所有这些工具都有助于让从初学者到高级学习者的更广泛受众更容易使用量子计算,并支持不断壮大的社区。