Real Identities Can Be Recovered From Synthetic Datasets
如果 2022 年标志着生成 AI 的颠覆性潜力首次引起公众广泛关注的时刻,那么 2024 年则是其基础数据合法性问题成为渴望利用其力量的企业关注焦点的一年。美国的合理使用原则以及长期以来允许 […]文章 真实身份可以从合成数据集中恢复首先出现在 Unite.AI 上。
How to Create a RAG Evaluation Dataset From Documents
使用 LLM 自动创建任何语言的特定领域数据集继续阅读 Towards Data Science »
构建 PubMed 列出的心血管疾病研究出版物数据集的分步说明作者拍摄照片挑战当我开始撰写硕士论文“与 NIH 资助的心脏病研究中有影响力的科学出版物相关的因素”时,第一个任务是构建一个原始数据集来研究。为了实现这一目标,我求助于 PubMed,这是美国国家医学图书馆 (NLM) 提供的免费研究数据库,用于访问生物医学文献。数据集需要满足几个特定标准,包括:跨越尽可能长的时间段。包括由国立卫生研究院 (NIH) 资助的研究。专注于心血管疾病研究出版物。提供有关第一作者的详细信息,例如其全名、性别、机构隶属关系和研究机构所在的国家/地区。包含每篇文章收到的引用次数、NIH 百分位排名、文章中的总
大型语言模型 (LLM) 和对话助手的快速发展需要动态、可扩展和可配置的对话数据集来进行训练和评估。这些数据集必须适应不同的用户交互模式,包括文本和语音,每种模式都带来了独特的建模挑战。知识图谱 (KG) 具有结构化和不断发展的特性,为当前和精确的知识提供了理想的基础。尽管存在人工策划的基于知识图谱的对话数据集,但它们难以跟上快速变化的用户信息需求。我们提出……
Oversampling and Undersampling, Explained: A Visual Guide with Mini 2D Dataset
数据预处理人工生成和删除数据,以造福大众⛳️ 更多数据预处理,解释:· 缺失值插补 · 分类编码 · 数据缩放 · 离散化 ▶ 过采样和欠采样收集每个类别都有完全相同数量的类别需要预测的数据集可能是一个挑战。实际上,事情很少能完美平衡,当你制作分类模型时,这可能是一个问题。当一个模型在这样的数据集上训练时,一个类别比另一个类别有更多的示例,它通常会变得更擅长预测较大的组,而更不擅长预测较小的组。为了解决这个问题,我们可以使用过采样和欠采样等策略——为较小的组创建更多示例或从较大的组中删除一些示例。目前有许多不同的过采样和欠采样方法(名字吓人,如 SMOTE、ADASYN 和 Tomek Lin
Multilayer Perceptron, Explained: A Visual Guide with Mini 2D Dataset
分类算法剖析微型神经网络的数学(带视觉效果)有没有感觉神经网络无处不在?它们出现在新闻中、手机中,甚至出现在社交媒体中。但说实话 — 我们大多数人都不知道它们实际上是如何工作的。所有那些花哨的数学和像“反向传播”这样的奇怪术语?这里有一个想法:如果我们把事情变得非常简单会怎么样?让我们探索多层感知器 (MLP) — 最基本的神经网络类型 — 使用小型网络对简单的 2D 数据集进行分类,只需处理少量数据点。通过清晰的视觉效果和逐步解释,您将看到数学变得生动,确切地观察数字和方程式如何在网络中流动以及学习是如何发生的!所有视觉效果:作者使用 Canva Pro 创建。针对移动设备进行了优化;在桌面
Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison
将语言模型与人类偏好相一致的目标需要能够揭示这些偏好的数据。理想情况下,可以花费时间和金钱仔细收集和定制针对每个下游应用程序的定制偏好数据。然而,在实践中,少数几个公开可用的偏好数据集通常用于训练奖励模型,以从人类反馈 (RLHF) 进行强化学习。虽然新的偏好数据集正在以越来越高的频率被引入,但目前还没有对它们进行测量和比较的努力。在本文中,我们系统地研究了…
欢迎阅读我们的月度文摘,在这里您可以了解您可能错过的任何 AIhub 故事、阅读最新消息、回顾最近发生的事件等等。本月,我们将了解一个评估数据集多样性的框架,了解银行如何从战略上降低实时支付系统中的欺诈风险,以及 […]
Interview with Jerone Andrews: a framework towards evaluating diversity in datasets
Jerone Andrews、Dora Zhao、Orestis Papakyriakopoulos 和 Alice Xiang 凭借其立场论文《测量数据集多样性。不要只是宣称它》在国际机器学习会议 (ICML) 上获得了最佳论文奖。我们与 Jerone 讨论了该团队的方法论,以及他们如何开发一个框架来概念化、操作化和评估机器学习的多样性 […]
All You Need Is Statistics to Analyze Tabular Datasets
要分析表格数据集,无需深度学习或大型语言模型继续阅读 Towards Data Science »
Study: Transparency is often lacking in datasets used to train large language models
研究人员开发了一种易于使用的工具,使 AI 从业者能够找到适合其模型目的的数据,从而提高准确性并减少偏差。
An Off-Beat Approach to Train-Test-Validation Split Your Dataset
确保小数据集分割的分布完整性使用 Microsoft Designer 生成我们都需要对总体进行抽样,以进行统计分析并获得见解。当我们这样做时,目的是确保样本的分布与总体的分布紧密匹配。为此,我们有各种方法:简单随机抽样(其中每个总体成员都有相同的被选中的机会)、分层抽样(包括将总体划分为子组并从每个子组中抽样)、聚类抽样(其中将总体划分为簇并随机选择整个簇)、系统抽样(包括选择总体的每第 n 个成员)等。每种方法都有其优势,并根据研究的特定需求和特点进行选择。在本文中,我们不会关注抽样方法本身,而是关注使用这些概念将用于机器学习方法的数据集拆分为训练-测试-验证集。这些方法适用于所有类型的表
Enhanced datasets: Viam's simplified data solution | Viam
探索 Viam 的增强数据集,以简化数据管理和模型训练,轻松而精确地增强您的 ML 项目。
Introducing a New Dataset to Further the Field of AI Research
今天,我们很高兴地宣布,我们将发布一个匿名数学辅导对话数据集,用于评估 AI 模型如何充当导师。虽然许多研究人员和公司都在探索 AI 进行计算的能力,但在 Khan Academy,我们对 AI 像老师一样进行计算的能力感兴趣 […]文章《引入新数据集以进一步推进 AI 研究领域》首次出现在 Khan Academy 博客上。
欢迎阅读我们的月度文摘,在这里您可以了解您可能错过的任何 AIhub 故事,浏览最新消息,回顾最近发生的事件等等。本月,我们将了解 Ge'ez-Amharic-English 数据集,会见 AAAI 研究员 Mausam,并了解网络资源分配。会见 AAAI 研究员 Mausam 教授 AAAI 每年都会表彰 […]
自然语言处理中的开放域问答 (ODQA) 涉及构建使用大规模知识语料库回答事实问题的系统。最近的进展源于多种因素的融合,例如大规模训练数据集、深度学习技术和大型语言模型的兴起。高质量的数据集用于在现实场景中训练模型,并支持对可能看不见的数据进行系统评估。标准化指标有助于比较不同的 ODQA 系统,使研究人员能够客观地跟踪进展……
Improved Modelling of Federated Datasets using Mixtures-of-Dirichlet-Multinomials
实际上,使用联邦学习进行训练的速度可能比标准集中式训练慢几个数量级。这严重限制了可以进行的实验和调整的数量,使得在给定任务上获得良好性能变得具有挑战性。服务器端代理数据可用于运行训练模拟,例如用于超参数调整。这可以通过减少在真实客户端上执行的调整运行次数来大大加快训练流程。然而,确保这些模拟准确反映动态是一项挑战……