Understanding SoTA Language Models (BERT, RoBERTA, ALBERT, ELECTRA)
大家好,现在有大量的语言模型!其中许多都有自己独特的学习“自监督”语言表示的方式,可供其他下游任务使用。在本文中,我决定总结当前的趋势并分享一些关键见解,以将所有这些新方法粘合在一起。😃(幻灯片来源:Delvin 等人,斯坦福 CS224n)问题:上下文无关/原子词表示我们在上一篇文章中从上下文无关方法开始,例如 word2vec、GloVE 嵌入。这些方法的缺点是它们不考虑句法上下文。例如“开立银行账户”与“在河岸上”。单词 bank 的含义取决于单词所处的上下文。解决方案 #1:上下文单词表示借助 ELMo,社区开始构建前向(从左到右)和后向(从右到左)序列语言模型,并使用从这两个模型(连
The evolution of Natural Language Models (NLM) - Must know NLP Basics
我决定浏览一些 NLP(自然语言处理)领域的突破性论文,并总结我的学习成果。这些论文的日期从 2000 年代初到 2018 年。资料来源 - KDNuggets如果您是 NLP 领域的新手 - 我建议您从阅读这篇文章开始,其中涉及各种 NLP 基础知识。1. 神经概率语言模型2. 向量空间中单词表示的有效估计Word2Vec - Skipgram 模型3. 单词和短语的分布式表示及其组合4. GloVe:用于单词表示的全局向量5. 基于循环神经网络的语言模型6. 循环神经网络语言模型的扩展让我们从#1 开始,神经概率语言模型Bengio 等人。提出一种分布式单词表示法来对抗维数灾难。维数灾难源
Word2Vec explained - Assignment #5 - Udacity Deep Learning Course by Google
嗨,我确实对向量空间的工作原理有很好的理解(这要感谢我在本科和研究生院学到的所有数学知识)。但是,Udacity 深度学习课程的作业 #5 具有挑战性,它需要可视化和理解一组向量如何成功(或几乎)表示单词的概念,同时将它们并排阅读为上下文。在尝试解决作业之前,我观看了几个视频并在线阅读了大量资料。让我先用一个例子来解释这个概念。考虑一下这句话:汤米狗是我最好的朋友。作为人类,我们的理解是,这句话指的是一只名叫汤米的狗,它是作家/作者最好的朋友。你如何通过数学让机器理解这一点?答案:嵌入将上述句子中的每个单词想象成你用于关联的云 - 我想到的可视化是:<汤米><狗><最好的朋友> - 其中<>代