数据集关键词检索结果

引入新数据集以进一步推进 AI 研究领域

Introducing a New Dataset to Further the Field of AI Research

今天,我们很高兴地宣布,我们将发布一个匿名数学辅导对话数据集,用于评估 AI 模型如何充当导师。虽然许多研究人员和公司都在探索 AI 进行计算的能力,但在 Khan Academy,我们对 AI 像老师一样进行计算的能力感兴趣 […]文章《引入新数据集以进一步推进 AI 研究领域》首次出现在 Khan Academy 博客上。

AIhub 月度文摘:2024 年 6 月——网络资源分配、蛋白质结构预测和吉兹语-阿姆哈拉语-英语数据集

AIhub monthly digest: June 2024 – network resource allocation, protein structure prediction, and a Ge’ez-Amharic-English dataset

欢迎阅读我们的月度文摘,在这里您可以了解您可能错过的任何 AIhub 故事,浏览最新消息,回顾最近发生的事件等等。本月,我们将了解 Ge'ez-Amharic-English 数据集,会见 AAAI 研究员 Mausam,并了解网络资源分配。会见 AAAI 研究员 Mausam 教授 AAAI 每年都会表彰 […]

面向稳健评估:大型语言模型时代开放域问答数据集和指标的综合分类

Towards Robust Evaluation: A Comprehensive Taxonomy of Datasets and Metrics for Open Domain Question Answering in the Era of Large Language Models

自然语言处理中的开放域问答 (ODQA) 涉及构建使用大规模知识语料库回答事实问题的系统。最近的进展源于多种因素的融合,例如大规模训练数据集、深度学习技术和大型语言模型的兴起。高质量的数据集用于在现实场景中训练模型,并支持对可能看不见的数据进行系统评估。标准化指标有助于比较不同的 ODQA 系统,使研究人员能够客观地跟踪进展……

改进的联邦建模使用狄利克雷多项式混合的数据集

Improved Modelling of Federated Datasets using Mixtures-of-Dirichlet-Multinomials

实际上,使用联邦学习进行训练的速度可能比标准集中式训练慢几个数量级。这严重限制了可以进行的实验和调整的数量,使得在给定任务上获得良好性能变得具有挑战性。服务器端代理数据可用于运行训练模拟,例如用于超参数调整。这可以通过减少在真实客户端上执行的调整运行次数来大大加快训练流程。然而,确保这些模拟准确反映动态是一项挑战……

欧盟数字世界立法数据集

A dataset on EU legislation for the digital world

有关数字世界的欧盟立法的数据集Conor Brummell2024 年 6 月 6 日星期四 - 11:36此 Bruegel 数据集旨在提供全面的视图:过去颁布的与数字化相关的立法措施;当前立法会议(2019-2024 年)期间颁布的措施;以及可能在可预见的未来导致新立法的欧盟正在进行的政策举措(表 1);为实施和执行与数字化相关的立法措施做出贡献的欧盟政府和非政府机构(表 2)。这是该数据集的第三版。它提供了截至 2019 年至 2024 年当前任务期限结束时的最终状态。2023 年 7 月和 2023 年 11 月版本还包括 2020 年至 2023 年每年的数字,显示通过共同立法者在当

采访 Henok Biadglign Ademtew:创建阿姆哈拉语、吉兹语和英语并行数据集

Interview with Henok Biadglign Ademtew: Creating an Amharic, Ge’ez and English parallel dataset

非洲语言在自然语言处理 (NLP) 中没有得到很好的体现。这在很大程度上是由于缺乏训练模型的资源。Henok Biadglign Ademtew 和 Mikiyas Girma Birbo 创建了一个阿姆哈拉语、吉兹语和英语并行数据集,以帮助推进对资源匮乏语言的研究。我们与 Henok 谈论了这个项目,[…]

22 个最佳开源 OCR 和手写数据集用于训练您的 ML 模型

22 Best Open-source OCR & Handwriting Datasets to Train your ML models

商业世界正在以惊人的速度转型,但这种数字化转型远没有我们希望的那么广泛。从大公司到小型企业,人们仍然在日常运营中处理物理文档。虽然使用频率已经大大降低,但还没有完全消除 […]

33 个最佳 NLP 数据集用于训练您的自然语言处理模型

33 Best NLP Datasets to Train Your Natural Language Processing Models

自然语言处理是机器学习装甲中的重要组成部分。然而,它需要大量的数据和训练才能使模型正常工作。NLP 的一个重要问题是缺乏可以覆盖该领域内广泛关注领域的训练数据集。如果你刚开始 […]

自动化不仅仅是一件事:来自两个人口普查数据集的见解

Automation Isn’t Just One Thing: Insights from Two Census Datasets

最近的两个人口普查局数据集揭示了机器人和人工智能的采用趋势,揭示了这些技术在不同行业中的不同路径。自动化不仅仅是一件事:来自两个人口普查数据集的见解首先出现在《美国企业》上研究所 - A.E.I.

人工智能数据集为龙卷风检测开辟了新道路

An AI dataset carves new paths to tornado detection

TorNet 是一个公共人工智能数据集,它可以帮助模型揭示龙卷风形成的时间和原因,从而提高预报员发出警告的能力。

机器学习项目的最佳开源医疗数据集

Best Open Source Medical Datasets for Machine Learning Projects

全球医疗保健系统每天都会产生大量医疗数据,这些数据有可能用于机器学习应用。在所有行业中,数据都被视为宝贵的资产,使公司能够获得竞争优势,医疗保健行业也不例外。本文将简要介绍 […]

为您的 AI 模型选择正确的语音识别数据集

Choosing the Right Speech Recognition Dataset for Your AI Model

想象一下与 Siri 或 Alexa 互动。它们理解我们语音的能力令人着迷。这种能力源于它们训练中使用的数据集。这些数据集是来自不同语言和口音的大量口语单词、短语和句子的集合。它们为训练 AI 模型提供了原始材料。随着技术的发展,对 […]

医疗数据集:医疗 AI 的福音

Healthcare Datasets: Boon for Healthcare AI

人工智能,这个曾经主要出现在科幻小说中的术语,如今已成为推动各行各业发展的现实。Next Move Strategy Consulting 预测,未来十年人工智能 (AI) 市场将大幅增长。目前,这个市场价值约 1000 亿美元,预计将达到 2 万亿美元 […]

2023/10/11 团队开发数据集以支持 DARPA 分类挑战

2023/10/11 Teams Developing Datasets to Support DARPA Triage Challenge

创伤医学观察研究基础设施 (RITMO) 工作旨在将从创伤患者受伤后早期获得的大量多模式传感器、干预和医疗结果数据整合到一个数据库中。通过使用去识别化的患者数据,研究人员可以确保患者隐私受到保护。 RITMO 收集的数据将支持 DARPA 分类挑战计划,以识别新的生理特征,从而增强在严峻、复杂和造成大规模伤亡的环境中的分类决策。

ChattyChef 的新数据集将人工智能引入烹饪

Новый набор данных ChattyChef привносит ИИ в кулинарию

人工智能可以帮助人们购物、计划和写作,但不能帮助人们做饭。算法很难按照正确的顺序一步一步地遵循食谱,但佐治亚理工学院计算机学院的新研究可能会改变这一点。

随机簇嵌入——一种可视化大数据集的新方法

Stochastic cluster embedding – a new method for visualizing large datasets

研究人员设计了一种新的 AI 算法,旨在以尽可能清晰、易于观察和人类理解的方式可视化数据簇和其他宏观特征。

陆军将在2040年之前加强数据集成和人工智能能力

Army to strengthen data integration, AI capabilities ahead of 2040

阿拉巴马州亨茨维尔 - 设计 2040 年陆军需要深入了解未来潜在威胁和作战可能性以及敏锐的...

现成的训练数据集如何让您的 ML 项目顺利起步?

How do Off-the-Shelf Training Datasets get your ML projects to a Running Start?

关于使用现成数据集为企业开发高端人工智能解决方案的争论一直存在。但对于没有专门的内部数据科学家、工程师和注释者团队的组织来说,现成的训练数据集可能是完美的解决方案。即使组织拥有大规模 [...] 的团队