Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum
大型语言模型 (LLM) 通常在由固定长度的标记序列组成的数据集上进行训练。这些数据集是通过随机连接不同长度的文档,然后将它们分块为预定目标长度的序列 (concat-and-chunk) 来创建的。最近的注意力实现掩盖了跨文档注意力,减少了标记块的有效长度。此外,由于注意力的二次成本,对长序列的训练在计算上变得难以承受。在本研究中,我们引入了数据集分解,一种新颖的可变序列长度……
Award-winning dataset aids in earthquake liquefaction research
没有人确切知道地震会在何时何地发生。但计算机模拟正在帮助科学家和工程师提高对液化现象的预测——液化现象是一种有时致命的地震效应,土壤失去硬度,从而导致建筑物倒塌等。
Why ETL-Zero? Understanding the shift in Data Integration as a Beginner
当我准备 Salesforce Data Cloud 认证时,我遇到了 Zero-ETL 这个术语。继续阅读 Towards Data Science »
XPONENTIAL 2024: Integrating Wind and Weather Hazard Data into Airspace Management and UTM Systems
在 XPONENTIAL 2024 上,Vigilant Aerospace Systems 首席执行官兼联合创始人 Kraettli Epperson 发表了关于将天气和风灾害数据集成到空域管理系统中以实现更安全的无人机和无人驾驶航空系统 (UAS) 操作的演讲。主要产品 FlightHorizon 利用基于 NASA 技术的检测和规避 (DAA) 功能,实现实时跟踪和管理 […]XPONENTIAL 2024:将风和天气灾害数据集成到空域管理和 UTM 系统中的文章首次出现在 Vigilant Aerospace Systems, Inc. 上。
Real Identities Can Be Recovered From Synthetic Datasets
如果 2022 年标志着生成 AI 的颠覆性潜力首次引起公众广泛关注的时刻,那么 2024 年则是其基础数据合法性问题成为渴望利用其力量的企业关注焦点的一年。美国的合理使用原则以及长期以来允许 […]文章 真实身份可以从合成数据集中恢复首先出现在 Unite.AI 上。
How to Create a RAG Evaluation Dataset From Documents
使用 LLM 自动创建任何语言的特定领域数据集继续阅读 Towards Data Science »
构建 PubMed 列出的心血管疾病研究出版物数据集的分步说明作者拍摄照片挑战当我开始撰写硕士论文“与 NIH 资助的心脏病研究中有影响力的科学出版物相关的因素”时,第一个任务是构建一个原始数据集来研究。为了实现这一目标,我求助于 PubMed,这是美国国家医学图书馆 (NLM) 提供的免费研究数据库,用于访问生物医学文献。数据集需要满足几个特定标准,包括:跨越尽可能长的时间段。包括由国立卫生研究院 (NIH) 资助的研究。专注于心血管疾病研究出版物。提供有关第一作者的详细信息,例如其全名、性别、机构隶属关系和研究机构所在的国家/地区。包含每篇文章收到的引用次数、NIH 百分位排名、文章中的总
大型语言模型 (LLM) 和对话助手的快速发展需要动态、可扩展和可配置的对话数据集来进行训练和评估。这些数据集必须适应不同的用户交互模式,包括文本和语音,每种模式都带来了独特的建模挑战。知识图谱 (KG) 具有结构化和不断发展的特性,为当前和精确的知识提供了理想的基础。尽管存在人工策划的基于知识图谱的对话数据集,但它们难以跟上快速变化的用户信息需求。我们提出……
Oversampling and Undersampling, Explained: A Visual Guide with Mini 2D Dataset
数据预处理人工生成和删除数据,以造福大众⛳️ 更多数据预处理,解释:· 缺失值插补 · 分类编码 · 数据缩放 · 离散化 ▶ 过采样和欠采样收集每个类别都有完全相同数量的类别需要预测的数据集可能是一个挑战。实际上,事情很少能完美平衡,当你制作分类模型时,这可能是一个问题。当一个模型在这样的数据集上训练时,一个类别比另一个类别有更多的示例,它通常会变得更擅长预测较大的组,而更不擅长预测较小的组。为了解决这个问题,我们可以使用过采样和欠采样等策略——为较小的组创建更多示例或从较大的组中删除一些示例。目前有许多不同的过采样和欠采样方法(名字吓人,如 SMOTE、ADASYN 和 Tomek Lin
Multilayer Perceptron, Explained: A Visual Guide with Mini 2D Dataset
分类算法剖析微型神经网络的数学(带视觉效果)有没有感觉神经网络无处不在?它们出现在新闻中、手机中,甚至出现在社交媒体中。但说实话 — 我们大多数人都不知道它们实际上是如何工作的。所有那些花哨的数学和像“反向传播”这样的奇怪术语?这里有一个想法:如果我们把事情变得非常简单会怎么样?让我们探索多层感知器 (MLP) — 最基本的神经网络类型 — 使用小型网络对简单的 2D 数据集进行分类,只需处理少量数据点。通过清晰的视觉效果和逐步解释,您将看到数学变得生动,确切地观察数字和方程式如何在网络中流动以及学习是如何发生的!所有视觉效果:作者使用 Canva Pro 创建。针对移动设备进行了优化;在桌面
Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison
将语言模型与人类偏好相一致的目标需要能够揭示这些偏好的数据。理想情况下,可以花费时间和金钱仔细收集和定制针对每个下游应用程序的定制偏好数据。然而,在实践中,少数几个公开可用的偏好数据集通常用于训练奖励模型,以从人类反馈 (RLHF) 进行强化学习。虽然新的偏好数据集正在以越来越高的频率被引入,但目前还没有对它们进行测量和比较的努力。在本文中,我们系统地研究了…
欢迎阅读我们的月度文摘,在这里您可以了解您可能错过的任何 AIhub 故事、阅读最新消息、回顾最近发生的事件等等。本月,我们将了解一个评估数据集多样性的框架,了解银行如何从战略上降低实时支付系统中的欺诈风险,以及 […]
Interview with Jerone Andrews: a framework towards evaluating diversity in datasets
Jerone Andrews、Dora Zhao、Orestis Papakyriakopoulos 和 Alice Xiang 凭借其立场论文《测量数据集多样性。不要只是宣称它》在国际机器学习会议 (ICML) 上获得了最佳论文奖。我们与 Jerone 讨论了该团队的方法论,以及他们如何开发一个框架来概念化、操作化和评估机器学习的多样性 […]
All You Need Is Statistics to Analyze Tabular Datasets
要分析表格数据集,无需深度学习或大型语言模型继续阅读 Towards Data Science »
Study: Transparency is often lacking in datasets used to train large language models
研究人员开发了一种易于使用的工具,使 AI 从业者能够找到适合其模型目的的数据,从而提高准确性并减少偏差。
An Off-Beat Approach to Train-Test-Validation Split Your Dataset
确保小数据集分割的分布完整性使用 Microsoft Designer 生成我们都需要对总体进行抽样,以进行统计分析并获得见解。当我们这样做时,目的是确保样本的分布与总体的分布紧密匹配。为此,我们有各种方法:简单随机抽样(其中每个总体成员都有相同的被选中的机会)、分层抽样(包括将总体划分为子组并从每个子组中抽样)、聚类抽样(其中将总体划分为簇并随机选择整个簇)、系统抽样(包括选择总体的每第 n 个成员)等。每种方法都有其优势,并根据研究的特定需求和特点进行选择。在本文中,我们不会关注抽样方法本身,而是关注使用这些概念将用于机器学习方法的数据集拆分为训练-测试-验证集。这些方法适用于所有类型的表
Enhanced datasets: Viam's simplified data solution | Viam
探索 Viam 的增强数据集,以简化数据管理和模型训练,轻松而精确地增强您的 ML 项目。