语料库关键词检索结果

Musk希望Grok AI“重写人类知识的整个语料库”

"Where's Jackie?": Why The Public Needs Answers On Biden's Alleged Incapacity

“杰基在哪里?”:为什么公众在拜登(Biden)被乔纳森·图里(Jonathan Turley)谋杀的涉嫌无能为力的答案,“杰基,你在这里吗?杰基在哪里?拜登不仅发表了慰问声明;他参加了国会女议员的追悼会,以降低白宫的旗帜。在华盛顿所说,对于拜登是否仍然适合担任总统办公室,它没有为“合理的可否认性”留下空间。不仅是民主政客,他们故意对拜登的明显恶化视而不见。这也是媒体,这也是为什么该国应完全支持唐纳德·特朗普总统的6月4日命令,要求他的政府调查拜登的能力并回答其中的一些问题,包括可能滥用自动签署立法,赦免和其他档案的自动化,而他曾是总统,而不是在寻求政治动机。敌人”和“特朗普总统为他的前任共谋

大规模机器阅读 – 大型文本语料库的迁移学习

Machine Reading at Scale – Transfer Learning for Large Text Corpuses

本篇文章由 Microsoft 高级数据科学家 Anusua Trivedi 撰写。本篇文章基于...

耗尽我们的环境信托基金

Depleting our environmental trust fund

气候变化已经在造成很大的伤害。危害之一是土地干燥。生活在这些土地上的人们不仅依靠淡水来喝酒,而且还依靠农作物来种植食物。随着地表水的消失,人类正在浸入其地质捐赠的语料库中,[…]耗尽我们的环境信托基金的帖子首先出现在愤怒的熊身上。

egodex:从大规模以自我为中心的视频

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

模仿操纵的学习存在众所周知的数据稀缺问题。与自然语言和2D计算机视觉不同,没有用于灵巧操作的互联网规模的数据语料库。一种吸引人的选择是以自动扩展的数据源为中心的人类视频。但是,现有的大规模数据集(例如EGO4D)没有本机姿势注释,也不关注对象操纵。为此,我们使用Apple Vision Pro来收集Egodex:迄今为止,最大,最多样化的人类操纵数据集。 Egodex有829个小时的Egentric视频,配对3D…

伊朗同意与以色列的特朗普支持的,卡塔里介导的停火

Musk Wants Grok AI To "Rewrite The Entire Corpus Of Human Knowledge"

Musk希望Grok AI通过Cointelegraph.com撰写的“重写人类知识的整个语料库”,Elon Musk说,他的人工智能公司XAI将在“垃圾箱”和“未经验证的数据”中以新的知识库为基础,将其AI模型Grok Ret Ret Return tor It first first first friment fort It recret It Cretite Contrite Coritive recret It Cornity Lefenter Lefent in tit。马斯克在周六的X帖子中说,即将到来的Grok 3.5模型将具有“先进的推理”,并希望将其用于“重写人类知识的整个

SK在莫斯科东部谋杀一名男子后开了一个刑事案件

СК возбудил уголовное дело после убийства мужчины на востоке Москвы

在莫斯科东部的一名男子谋杀后提起了刑事案件。这是在4月2日(星期三)在俄罗斯IC大都会GSU的电报频道中报道的。它是基于艺术第1部分中规定的语料库delicti的理由。俄罗斯联邦(谋杀案)的刑法105。在他的身体上发现了刀伤。

具有可扩展在线双层优化的自适应训练分布

Adaptive Training Distributions with Scalable Online Bilevel Optimization

在网络规模语料库上进行预训练的大型神经网络是现代机器学习的核心。在这种范式中,大型异构预训练数据的分布很少与应用领域的分布相匹配。这项工作考虑在拥有反映目标测试条件的少量数据样本的情况下修改预训练分布。我们提出了一种算法,该算法受到最近将此设置表述为在线双层优化问题的启发。考虑到可扩展性,我们的算法优先考虑在可能... 的训练点计算梯度。

通过背景故事选集实现语言模型的虚拟角色

Virtual Personas for Language Models via an Anthology of Backstories

我们介绍了 Anthology,这是一种通过生成和利用具有丰富个人价值观和经验细节的自然背景故事来将 LLM 调节为具有代表性、一致和多样化的虚拟角色的方法。大型语言模型 (LLM) 在由数百万和数十亿不同的人类作者共同制作的海量文本语料库上进行训练意味着什么?在“语言模型作为代理模型”中,令人信服的证据表明,最近的语言模型可以被视为代理模型:在提供文本上下文的情况下,LLM 能够生成代表可能产生该上下文的代理特征的条件文本。这表明,通过适当的调节,可以引导 LLM 近似特定人类声音的响应,而不是以其他方式出现的混合声音。如果实现,LLM 的这种能力将对用户研究和社会科学产生重大影响——作为人

4M-21:适用于数十种任务和模式的任意视觉模型

4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

*平等贡献者当前的多模态和多任务基础模型(如 4M 或 UnifiedIO)显示出了良好的结果,但在实践中,它们接受不同输入和执行不同任务的开箱即用能力受到它们所训练的模态和任务数量(通常相当少)的限制。在本文中,我们通过在数十种高度多样化的模态上对其进行训练以及在大规模多模态数据集和文本语料库上进行联合训练,显著扩展了 4M 的功能。这包括对几种语义和几何模态、特征图的训练......

面向稳健评估:大型语言模型时代开放域问答数据集和指标的综合分类

Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models

自然语言处理中的开放域问答 (ODQA) 涉及构建使用大规模知识语料库回答事实问题的系统。最近的进展源于多种因素的融合,例如大规模训练数据集、深度学习技术和大型语言模型的兴起。高质量的数据集用于在现实场景中训练模型,并支持对可能看不见的数据进行系统评估。标准化指标有助于比较不同的 ODQA 系统,使研究人员能够客观地跟踪进展……

AI 是个疯狂的叔叔

AI Is A Crazy Uncle

人与人不同。人工智能也不同。有些人可能会将 ChatGPT 比作我们每个感恩节都要忍受的那个疯狂的叔叔。人工智能偏见的一部分取决于旁观者的看法。有些则不然。有些人可能主张严格控制人工智能学习语料库。本质上,它们是如何被培养起来的,以保证整个人工智能世代的信仰体系统一。

LinkBERT:使用文档链接改进语言模型训练

LinkBERT: Improving Language Model Training with Document Link

语言模型预训练语言模型 (LM),例如 BERT 1 和 GPT 系列 2,在许多自然语言处理 (NLP) 任务中取得了非凡的表现。它们现在是当今 NLP 系统的基础。3 这些模型在我们每天使用的产品和工具中发挥着重要作用,例如 Google 等搜索引擎 4 和 Alexa 等个人助理 5。这些 LM 非常强大,因为它们可以通过自监督学习在网络上的大量文本数据上进行预训练,而无需标签,之后预训练的模型可以快速适应各种新任务,而无需进行太多特定于任务的微调。例如,BERT 经过预训练可以预测原始文本中随机屏蔽的单词(屏蔽语言建模),例如从“My __ is fetching the ball”预

LinkBERT:使用文档链接改进语言模型训练

LinkBERT: Improving Language Model Training with Document Link

语言模型预训练语言模型 (LM),例如 BERT 1 和 GPT 系列 2,在许多自然语言处理 (NLP) 任务中取得了非凡的表现。它们现在是当今 NLP 系统的基础。3 这些模型在我们每天使用的产品和工具中发挥着重要作用,例如 Google 等搜索引擎 4 和 Alexa 等个人助理 5。这些 LM 非常强大,因为它们可以通过自监督学习在网络上的大量文本数据上进行预训练,而无需标签,之后预训练的模型可以快速适应各种新任务,而无需进行太多特定于任务的微调。例如,BERT 经过预训练可以预测原始文本中随机屏蔽的单词(屏蔽语言建模),例如从“My __ is fetching the ball”预

欧盟资助 EDIA 在荷兰、德国和西班牙实现自动可读性评估的努力

EU funds EDIA’s efforts towards automated readability assessment in NL, DE, and ES

准确、一致地检查文本可读性水平的能力对作者和教师至关重要。这将使他们能够创建和发现满足具有不同背景和技能水平的学生需求的内容。我们的项目旨在开发一套数据收集和注释工具,以促进数据集(语料库)的创建,这些数据集可用于开发分类。这些可以根据欧洲共同参考框架 (CEFR) 自动评估文本的阅读难度。

网络演讲:远东联邦大学将致力于俄语数字化

Кибер-речь: в ДВФУ займутся оцифровкой русского языка

远东联邦大学(FEFU)数字经济学院将创建俄语数字语料库,用于训练机器、神经网络和开发基于人工智能的合成人格。

深度学习 (NLP/DL) 的自然语言处理的未来

Future of Natural Language Processing with Deep Learning (NLP/DL)

我最近参加了 Kevin Clarke (CS224n) 的演讲,他在演讲中谈到了 NLP 的未来趋势。我写这篇文章是为了总结和讨论最近的趋势。幻灯片片段来自他的客座演讲。有两个主要主题奠定了深度学习 NLP 的趋势:1. 使用无监督 / 未标记数据进行预训练2. OpenAI GPT-2 突破1. 使用无监督 / 未标记数据进行预训练监督数据昂贵且有限,我们如何使用无监督数据来补充训练和监督微调以做得更好?让我们将其应用于机器翻译的问题,看看它如何有所帮助 - 如果您有 2 个不同语言的文本语料库(转录或维基百科文章),没有跨语言映射。我们可以将其用于预训练,在两个语料库上分别训练编码器和解

自然语言模型 (NLM) 的演变 - 必须了解的 NLP 基础知识

The evolution of Natural Language Models (NLM) - Must know NLP Basics

我决定浏览一些 NLP(自然语言处理)领域的突破性论文,并总结我的学习成果。这些论文的日期从 2000 年代初到 2018 年。资料来源 - KDNuggets如果您是 NLP 领域的新手 - 我建议您从阅读这篇文章开始,其中涉及各种 NLP 基础知识。1. 神经概率语言模型2. 向量空间中单词表示的有效估计Word2Vec - Skipgram 模型3. 单词和短语的分布式表示及其组合4. GloVe:用于单词表示的全局向量5. 基于循环神经网络的语言模型6. 循环神经网络语言模型的扩展让我们从#1 开始,神经概率语言模型Bengio 等人。提出一种分布式单词表示法来对抗维数灾难。维数灾难源