How to Fully Automate Text Data Cleaning with Python in 5 Steps
在Python中自动化文本数据清洁使您可以轻松地通过删除错误和组织错误来修复混乱的数据。仅在5个简单的步骤中,您就可以将原始文本快速变成干净的,即准备分析的数据。
Why Multilingual AI Text Data is Crucial for Training Advanced AI Models
世界是美丽的多元的。虽然我们被地理位置、边界、语言、意识形态等分开,但我们被情感以及我们有时通过无声的语言理解情感的方式团结在一起。不幸的是,计算机和机器还不理解情感和抽象的感觉。尽管人工智能 (AI) 正在各个行业蓬勃发展 […]
How to Use the Hugging Face Tokenizers Library to Preprocess Text Data
文本预处理是 NLP 中的重要步骤。让我们学习如何使用 Hugging Face Tokenizers 库来预处理文本数据。
Generative AI in the Real World: Shreya Shankar on AI for Corporate Data Processing
企业有很多数据,但是大多数数据是非结构化的文本数据:报告,目录,电子邮件,笔记等。没有结构,业务分析师就无法理解数据。数据中有价值,但不能使用它。 AI可以是查找和提取结构的工具[…]
Exploring Empty Spaces: Human-in-the-Loop Data Augmentation
数据增强对于使机器学习模型更加强大和安全至关重要。但是,增强数据可能具有挑战性,因为它需要生成各种数据点以严格评估边缘案例的模型行为并减轻潜在危害。创建涵盖这些“未知未知数”的高质量增强是一项时间和创造力的任务。在这项工作中,我们介绍了Amplio,这是一种交互式工具,可帮助从业者在非结构化文本数据集中导航“未知未知数”,并通过系统地识别空的数据空间来探索来改善数据多样性。 amplio…
dMel: Speech Tokenization Made Simple
大型语言模型通过利用自我监督的大量文本数据预处理来彻底改变了自然语言处理。受到这一成功的启发,研究人员研究了复杂的语音令牌化方法,以离散连续的语音信号,以便将语言建模技术应用于语音数据。但是,现有方法要么模型语义(内容)令牌,可能会丢失声学信息或模型声音令牌,从而冒着语义(内容)信息丢失的风险。拥有多种令牌类型也使体系结构复杂化,并且需要……
Optimizing LLM test-time compute involves solving a meta-RL problem
TL;DR:训练模型以优化测试时间计算并学习“如何发现”正确答案,而不是学习“输出什么答案”的传统学习范式,这可以使模型更好地利用数据。迄今为止,改进大型语言模型 (LLM) 的主要策略是使用越来越多的高质量数据进行监督微调 (SFT) 或强化学习 (RL)。不幸的是,这种扩展形式似乎很快就会遇到障碍,预训练的扩展定律会趋于稳定,并且有报告称,用于训练的高质量文本数据可能在 2028 年耗尽,特别是对于更困难的任务,例如解决推理问题,这似乎需要将当前数据扩展约 100 倍才能看到任何显着的改进。LLM 在这些困难任务中的问题上的当前表现仍然令人失望(见示例)。因此,迫切需要数据高效的方法来训练
AI model predicts cancer prognoses, responses to treatment
斯坦福医学院的研究人员开发了一种人工智能工具,能够整合医学图像和文本数据。
Large language models: a primer for economists
Byeungchun Kwon、Taejin Park、Fernando Perez-Cruz 和 Phurichai Rungcharoenkitkul 在本文中为经济学家提供了关于法学硕士的入门知识:大型语言模型 (LLM) 是分析文本数据的强大工具,在经济和中央银行应用中具有巨大的未开发潜力。大量的文本档案,包括政策声明、财务报告和新闻,为 […] 提供了丰富的机会
现有的人工智能可能有知觉吗?如果没有,那还缺少什么?当今的大型语言模型 (LLM) 已经非常擅长生成听起来深思熟虑且聪明的类似人类的响应。许多人都认为 LLM 已经达到了艾伦·图灵著名测试的门槛,该测试的目标是在对话中表现得与人无异。这些 LLM 能够生成听起来深思熟虑且聪明的文本,并且可以令人信服地模仿情绪的表现。智能的幻觉尽管它们能够令人信服地模仿人类的对话,但当前的 LLM 不具备思考或情感的能力。它们产生的每个单词都是基于从大量文本数据中学习到的统计模式的预测。随着每个单词一次生成,此预测过程会重复发生。与人类不同,LLM 无法记忆或自我反思。它们只是按顺序输出下一个单词。预测下一个单
Choosing and Implementing Hugging Face Models
将预先训练好的模型从盒子中取出,用于您的用例照片由 Erda Estremera 在 Unsplash 上拍摄我最近在日常工作中尝试使用 Hugging Face 目录中的模型,从中获得了很多乐趣,我认为这可能是一个很好的时机来分享我所学到的知识,并为读者提供一些如何以最小的压力应用这些模型的提示。我最近的具体任务是查看大量非结构化文本数据(如备忘录、电子邮件、自由文本注释字段等)并根据与业务用例相关的类别对其进行分类。有很多方法可以做到这一点,我一直在尽可能多地探索,包括模式匹配和词典搜索等简单的东西,也扩展到使用预构建的神经网络模型来实现许多不同的功能,我对结果感到相当满意。我认为最好的策
One AI Model to Rule All Robots
用于控制机器人的软件通常高度适应其特定的物理设置。但现在研究人员已经创建了一种通用的机器人控制策略,可以操作机械臂、轮式机器人、四足动物甚至无人机。将机器学习应用于机器人技术的最大挑战之一是数据匮乏。虽然计算机视觉和自然语言处理可以搭载互联网上发现的大量图像和文本数据,但收集机器人数据既昂贵又耗时。为了解决这个问题,人们越来越多地努力汇集不同团体收集的不同类型机器人的数据,包括 Open X-Embodiment 和 DROID 数据集。希望对不同的机器人数据进行训练将导致“正向迁移”,即从一项任务的训练中学到的技能有助于提高另一项任务的表现。问题是机器人通常具有非常不同的实施(用于描述其物理
在本文中,我们将探讨如何使用新的 EMR Serverless 集成、Spark 的分布式处理以及由 LangChain 编排框架提供支持的 Amazon OpenSearch Service 向量数据库构建可扩展且高效的检索增强生成 (RAG) 系统。此解决方案使您能够处理大量文本数据,生成相关嵌入,并将它们存储在强大的向量数据库中,以实现无缝检索和生成。
Exploring NLP Preprocessing Techniques: Stopwords, Bag of Words, and Word Cloud
自然语言处理 (NLP) 是一个迷人的领域,它弥合了人类交流与机器理解之间的鸿沟。NLP 的基本步骤之一是文本预处理,即将原始文本数据转换为可被算法有效分析和利用的格式。在本博客中,我们将深入探讨三种基本的 NLP 预处理技术:停用词删除、词袋和词云生成。我们将探索每种技术是什么、为什么使用它以及如何使用 Python 实现它。让我们开始吧!停用词删除:过滤掉噪音什么是停用词?停用词是常见的词,它们几乎没有什么有意义的信息,通常在预处理过程中从文本数据中删除。例子包括“the”、“is”、“in”、“and”等等。删除停用词有助于将注意力集中在对文本含义有贡献的更重要的词上。为什么要删除停用词
NLP: Text Summarization and Keyword Extraction on Property Rental Listings — Part 1
NLP:房产租赁清单上的文本摘要和关键字提取 - 第 1 部分文本摘要、NER、主题建模和文本分类等 NLP 技术在租赁清单数据上的实际应用简介自然语言处理 (NLP) 可以显著增强租赁清单描述的分析和可用性。在本练习中,我们将探索文本摘要、命名实体识别 (NER) 和主题建模等 NLP 技术的实际应用,以提取见解并丰富东京 Airbnb 房源数据中的房源描述。使用公开可用的数据和 spaCy 和 SciKit-Learn 等工具,您可以跟着做,重现结果,或将这些技术应用于您自己的文本数据,只需进行最少的调整。代码库可在 GitHub 上找到,您可以 fork 并进行试验。本文演示了如何使用各
虽然大型语言模型 (LLM) 已显示出实现类似人类对话的前景,但它们主要是在文本数据上进行预训练的。结合音频或视频可以提高性能,但收集大规模多模态数据和预训练多模态 LLM 具有挑战性。为此,我们提出了一种融合低秩自适应 (FLoRA) 技术,该技术可以有效地调整预训练的单模态 LLM,通过低秩自适应来使用新的、以前未见过的模态。对于设备导向的语音检测,使用 FLoRA,多模态 LLM 实现了相等错误率 (EER) 相对降低 22% ......
Synthetic Query Generation using Large Language Models for Virtual Assistants
这篇论文被 SIGIR 2024 的行业轨道所接受。虚拟助手 (VA) 是重要的信息检索平台,可帮助用户通过口头命令完成各种任务。语音识别系统 (语音转文本) 使用仅对文本进行训练的查询先验来区分语音上令人困惑的替代方案。因此,生成类似于现有 VA 用法的合成查询可以极大地提高 VA 的能力 - 尤其是对于配对音频/文本数据中尚未出现的用例。在本文中,我们提供了初步探索……
Text Annotation in Machine Learning: A Comprehensive Guide
什么是机器学习中的文本注释? 机器学习中的文本注释是指向原始文本数据添加元数据或标签,以创建用于训练、评估和改进机器学习模型的结构化数据集。 这是自然语言处理 (NLP) 任务中的关键步骤,因为它可以帮助算法理解、解释和根据 [...] 做出预测