文本数据领域信息情报检索---XiaoMi-AI

2024年6月17日 00:00

使用大型语言模型为虚拟助手生成合成查询

Synthetic Query Generation using Large Language Models for Virtual Assistants

这篇论文被 SIGIR 2024 的行业轨道所接受。虚拟助手 (VA) 是重要的信息检索平台，可帮助用户通过口头命令完成各种任务。语音识别系统 (语音转文本) 使用仅对文本进行训练的查询先验来区分语音上令人困惑的替代方案。因此，生成类似于现有 VA 用法的合成查询可以极大地提高 VA 的能力 - 尤其是对于配对音频/文本数据中尚未出现的用例。在本文中，我们提供了初步探索……

Shaip 博客

2023年7月4日 06:40

机器学习中的文本注释：综合指南

Text Annotation in Machine Learning: A Comprehensive Guide

什么是机器学习中的文本注释？机器学习中的文本注释是指向原始文本数据添加元数据或标签，以创建用于训练、评估和改进机器学习模型的结构化数据集。这是自然语言处理 (NLP) 任务中的关键步骤，因为它可以帮助算法理解、解释和根据 [...] 做出预测

La Biblia de la IA

2022年9月25日 07:00

通过图神经网络进行恶意软件家族分析的序列特征提取

Sequence Feature Extraction for Malware Family Analysis via Graph Neural Network

恶意软件对我们的设备和生活造成了很大的危害。我们迫切希望了解恶意软件的行为及其造成的威胁。恶意软件的大多数记录文件都是可变长度的、带有时间戳的基于文本的文件，例如事件日志数据和动态分析配置文件。利用时间戳，我们可以将这些数据分类为基于序列的数据，以便进行后续分析。然而，处理可变长度的基于文本的序列很困难。此外，与自然语言文本数据不同，信息安全中的大多数序列数据都具有特定的属性和结构，例如循环、重复调用、噪声等。为了深入分析 API 调用序列及其结构，我们使用图来表示序列，这可以进一步研究信息和结构，例如马尔可夫模型。因此，我们设计并实现了一个注意力感知图神经网络 (AWGCN) 来分析 API

斯坦福人工智能实验室博客

2022年5月31日 00:00

LinkBERT：使用文档链接改进语言模型训练

LinkBERT: Improving Language Model Training with Document Link

语言模型预训练语言模型 (LM)，例如 BERT 1 和 GPT 系列 2，在许多自然语言处理 (NLP) 任务中取得了非凡的表现。它们现在是当今 NLP 系统的基础。3 这些模型在我们每天使用的产品和工具中发挥着重要作用，例如 Google 等搜索引擎 4 和 Alexa 等个人助理 5。这些 LM 非常强大，因为它们可以通过自监督学习在网络上的大量文本数据上进行预训练，而无需标签，之后预训练的模型可以快速适应各种新任务，而无需进行太多特定于任务的微调。例如，BERT 经过预训练可以预测原始文本中随机屏蔽的单词（屏蔽语言建模），例如从“My __ is fetching the ball”预

斯坦福人工智能实验室博客

2022年5月31日 00:00

LinkBERT：使用文档链接改进语言模型训练

LinkBERT: Improving Language Model Training with Document Link

语言模型预训练语言模型 (LM)，例如 BERT 1 和 GPT 系列 2，在许多自然语言处理 (NLP) 任务中取得了非凡的表现。它们现在是当今 NLP 系统的基础。3 这些模型在我们每天使用的产品和工具中发挥着重要作用，例如 Google 等搜索引擎 4 和 Alexa 等个人助理 5。这些 LM 非常强大，因为它们可以通过自监督学习在网络上的大量文本数据上进行预训练，而无需标签，之后预训练的模型可以快速适应各种新任务，而无需进行太多特定于任务的微调。例如，BERT 经过预训练可以预测原始文本中随机屏蔽的单词（屏蔽语言建模），例如从“My __ is fetching the ball”预

文本数据关键词检索结果

使用大型语言模型为虚拟助手生成合成查询

机器学习中的文本注释：综合指南

通过图神经网络进行恶意软件家族分析的序列特征提取

LinkBERT：使用文档链接改进语言模型训练

LinkBERT：使用文档链接改进语言模型训练