语料库关键词检索结果

大规模机器阅读 – 大型文本语料库的迁移学习

Machine Reading at Scale – Transfer Learning for Large Text Corpuses

本篇文章由 Microsoft 高级数据科学家 Anusua Trivedi 撰写。本篇文章基于...

SK在莫斯科东部谋杀一名男子后开了一个刑事案件

СК возбудил уголовное дело после убийства мужчины на востоке Москвы

在莫斯科东部的一名男子谋杀后提起了刑事案件。这是在4月2日(星期三)在俄罗斯IC大都会GSU的电报频道中报道的。它是基于艺术第1部分中规定的语料库delicti的理由。俄罗斯联邦(谋杀案)的刑法105。在他的身体上发现了刀伤。

具有可扩展在线双层优化的自适应训练分布

Adaptive Training Distributions with Scalable Online Bilevel Optimization

在网络规模语料库上进行预训练的大型神经网络是现代机器学习的核心。在这种范式中,大型异构预训练数据的分布很少与应用领域的分布相匹配。这项工作考虑在拥有反映目标测试条件的少量数据样本的情况下修改预训练分布。我们提出了一种算法,该算法受到最近将此设置表述为在线双层优化问题的启发。考虑到可扩展性,我们的算法优先考虑在可能... 的训练点计算梯度。

通过背景故事选集实现语言模型的虚拟角色

Virtual Personas for Language Models via an Anthology of Backstories

我们介绍了 Anthology,这是一种通过生成和利用具有丰富个人价值观和经验细节的自然背景故事来将 LLM 调节为具有代表性、一致和多样化的虚拟角色的方法。大型语言模型 (LLM) 在由数百万和数十亿不同的人类作者共同制作的海量文本语料库上进行训练意味着什么?在“语言模型作为代理模型”中,令人信服的证据表明,最近的语言模型可以被视为代理模型:在提供文本上下文的情况下,LLM 能够生成代表可能产生该上下文的代理特征的条件文本。这表明,通过适当的调节,可以引导 LLM 近似特定人类声音的响应,而不是以其他方式出现的混合声音。如果实现,LLM 的这种能力将对用户研究和社会科学产生重大影响——作为人

4M-21:适用于数十种任务和模式的任意视觉模型

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

*平等贡献者当前的多模态和多任务基础模型(如 4M 或 UnifiedIO)显示出了良好的结果,但在实践中,它们接受不同输入和执行不同任务的开箱即用能力受到它们所训练的模态和任务数量(通常相当少)的限制。在本文中,我们通过在数十种高度多样化的模态上对其进行训练以及在大规模多模态数据集和文本语料库上进行联合训练,显著扩展了 4M 的功能。这包括对几种语义和几何模态、特征图的训练......

面向稳健评估:大型语言模型时代开放域问答数据集和指标的综合分类

Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models

自然语言处理中的开放域问答 (ODQA) 涉及构建使用大规模知识语料库回答事实问题的系统。最近的进展源于多种因素的融合,例如大规模训练数据集、深度学习技术和大型语言模型的兴起。高质量的数据集用于在现实场景中训练模型,并支持对可能看不见的数据进行系统评估。标准化指标有助于比较不同的 ODQA 系统,使研究人员能够客观地跟踪进展……

AI 是个疯狂的叔叔

AI Is A Crazy Uncle

人与人不同。人工智能也不同。有些人可能会将 ChatGPT 比作我们每个感恩节都要忍受的那个疯狂的叔叔。人工智能偏见的一部分取决于旁观者的看法。有些则不然。有些人可能主张严格控制人工智能学习语料库。本质上,它们是如何被培养起来的,以保证整个人工智能世代的信仰体系统一。

LinkBERT:使用文档链接改进语言模型训练

LinkBERT: Improving Language Model Training with Document Link

语言模型预训练语言模型 (LM),例如 BERT 1 和 GPT 系列 2,在许多自然语言处理 (NLP) 任务中取得了非凡的表现。它们现在是当今 NLP 系统的基础。3 这些模型在我们每天使用的产品和工具中发挥着重要作用,例如 Google 等搜索引擎 4 和 Alexa 等个人助理 5。这些 LM 非常强大,因为它们可以通过自监督学习在网络上的大量文本数据上进行预训练,而无需标签,之后预训练的模型可以快速适应各种新任务,而无需进行太多特定于任务的微调。例如,BERT 经过预训练可以预测原始文本中随机屏蔽的单词(屏蔽语言建模),例如从“My __ is fetching the ball”预

LinkBERT:使用文档链接改进语言模型训练

LinkBERT: Improving Language Model Training with Document Link

语言模型预训练语言模型 (LM),例如 BERT 1 和 GPT 系列 2,在许多自然语言处理 (NLP) 任务中取得了非凡的表现。它们现在是当今 NLP 系统的基础。3 这些模型在我们每天使用的产品和工具中发挥着重要作用,例如 Google 等搜索引擎 4 和 Alexa 等个人助理 5。这些 LM 非常强大,因为它们可以通过自监督学习在网络上的大量文本数据上进行预训练,而无需标签,之后预训练的模型可以快速适应各种新任务,而无需进行太多特定于任务的微调。例如,BERT 经过预训练可以预测原始文本中随机屏蔽的单词(屏蔽语言建模),例如从“My __ is fetching the ball”预

欧盟资助 EDIA 在荷兰、德国和西班牙实现自动可读性评估的努力

EU funds EDIA’s efforts towards automated readability assessment in NL, DE, and ES

准确、一致地检查文本可读性水平的能力对作者和教师至关重要。这将使他们能够创建和发现满足具有不同背景和技能水平的学生需求的内容。我们的项目旨在开发一套数据收集和注释工具,以促进数据集(语料库)的创建,这些数据集可用于开发分类。这些可以根据欧洲共同参考框架 (CEFR) 自动评估文本的阅读难度。

网络演讲:远东联邦大学将致力于俄语数字化

Кибер-речь: в ДВФУ займутся оцифровкой русского языка

远东联邦大学(FEFU)数字经济学院将创建俄语数字语料库,用于训练机器、神经网络和开发基于人工智能的合成人格。

深度学习 (NLP/DL) 的自然语言处理的未来

Future of Natural Language Processing with Deep Learning (NLP/DL)

我最近参加了 Kevin Clarke (CS224n) 的演讲,他在演讲中谈到了 NLP 的未来趋势。我写这篇文章是为了总结和讨论最近的趋势。幻灯片片段来自他的客座演讲。有两个主要主题奠定了深度学习 NLP 的趋势:1. 使用无监督 / 未标记数据进行预训练2. OpenAI GPT-2 突破1. 使用无监督 / 未标记数据进行预训练监督数据昂贵且有限,我们如何使用无监督数据来补充训练和监督微调以做得更好?让我们将其应用于机器翻译的问题,看看它如何有所帮助 - 如果您有 2 个不同语言的文本语料库(转录或维基百科文章),没有跨语言映射。我们可以将其用于预训练,在两个语料库上分别训练编码器和解

自然语言模型 (NLM) 的演变 - 必须了解的 NLP 基础知识

The evolution of Natural Language Models (NLM) - Must know NLP Basics

我决定浏览一些 NLP(自然语言处理)领域的突破性论文,并总结我的学习成果。这些论文的日期从 2000 年代初到 2018 年。资料来源 - KDNuggets如果您是 NLP 领域的新手 - 我建议您从阅读这篇文章开始,其中涉及各种 NLP 基础知识。1. 神经概率语言模型2. 向量空间中单词表示的有效估计Word2Vec - Skipgram 模型3. 单词和短语的分布式表示及其组合4. GloVe:用于单词表示的全局向量5. 基于循环神经网络的语言模型6. 循环神经网络语言模型的扩展让我们从#1 开始,神经概率语言模型Bengio 等人。提出一种分布式单词表示法来对抗维数灾难。维数灾难源