子词关键词检索结果

数值规范化的位置描述

Positional Description for Numerical Normalization

我们提出了一种针对数字序列量身定制的位置描述方案 (PDS),集成了每个数字的占位符值信息。鉴于子词标记算法的结构限制,语言模型在处理数字任务时遇到了关键的文本规范化 (TN) 挑战。我们的模式通过直接的预处理解决了这一挑战,保留了模型架构,同时显着简化了数字规范化,使问题变得易于处理。这简化了任务并促进了更紧凑的生产就绪模型能够……

为虚拟助手提供以口语实体为中心的知识查询的服务器端重新评分

Server-side Rescoring of Spoken Entity-centric Knowledge Queries for Virtual Assistants

由自动语音识别 (ASR) 提供支持的设备虚拟助手需要有效的知识整合才能完成具有挑战性的实体丰富的查询识别。在本文中,我们使用各种类别的语言模型(N-Gram 词语言模型、子词神经 LM)对服务器端重新评分口头信息域查询的建模策略进行了实证研究。我们研究了设备上和服务器端信号的组合,并通过集成各种服务器端信号,在各种以实体为中心的查询子群体中展示了 23%-35% 的显着 WER 改进……

单词和字符之间:NLP 中开放词汇建模和标记化的简史

Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP

在本次调查中,我们通过展示如何提出和评估基于学习分割的单词和字符混合方法以及基于子词的方法,将前神经和神经时代的几条工作线联系起来。我们得出的结论是,对于所有应用程序来说,可能永远不会有万能的解决方案,而且认真考虑标记化对于许多应用程序来说仍然很重要

理解 SoTA 语言模型 (BERT、RoBERTA、ALBERT、ELECTRA)

Understanding SoTA Language Models (BERT, RoBERTA, ALBERT, ELECTRA)

大家好,现在有大量的语言模型!其中许多都有自己独特的学习“自监督”语言表示的方式,可供其他下游任务使用。在本文中,我决定总结当前的趋势并分享一些关键见解,以将所有这些新方法粘合在一起。😃(幻灯片来源:Delvin 等人,斯坦福 CS224n)问题:上下文无关/原子词表示我们在上一篇文章中从上下文无关方法开始,例如 word2vec、GloVE 嵌入。这些方法的缺点是它们不考虑句法上下文。例如“开立银行账户”与“在河岸上”。单词 bank 的含义取决于单词所处的上下文。解决方案 #1:上下文单词表示借助 ELMo,社区开始构建前向(从左到右)和后向(从右到左)序列语言模型,并使用从这两个模型(连