本文介绍了一种新颖的“公平性”数据集,以衡量 AI 模型对不同年龄、性别、表观肤色和环境光照条件的稳健性。我们的数据集由 3,011 名受试者组成,包含 45,000 多个视频,平均每人 15 个视频。这些视频是在美国多个州录制的,参与者是不同年龄、性别和表观肤色组的成年人。一个关键特征是每个受试者都同意参与并使用他们的肖像。此外,我们的年龄和性别注释由受试者自己提供。一组训练有素的注释者使用 Fitzpatrick 皮肤类型量表标记受试者的表观肤色 [ 6 ]。此外,还提供了在低环境光下录制的视频的注释。作为衡量跨某些属性的预测稳健性的应用,我们评估了最先进的表观年龄和性别分类方法。我们的实验从公平对待来自不同背景的人的角度对这些模型进行了彻底的分析。
描述:具有全球覆盖范围和不同(粒度)时间片的各种空间和光谱分辨率的卫星(和/或航空)图像。这些数据在农业(土壤成分、作物产量和作物类型检测)、森林和高风险生态系统监测(树高/类型和土地覆盖估计)、城市(建筑物高度估计)、能源(风力涡轮机和太阳能电池板定位)以及跨行业(甲烷、二氧化碳和一氧化二氮测量)中有着广泛的应用。不同的应用需要不同的空间、光谱和时间分辨率以及不同类型的标签。例如,对于能源、建筑和运输领域的许多监测应用,空间分辨率更为重要,并且经常使用非常高分辨率的 RGB 图像。光谱分辨率对于植被和土地利用等更为重要。
引言诊断成像数据集(DID)是一个每月的数据收集,涵盖了有关英格兰NHS患者的诊断成像测试的数据。它包括对癌症的关键诊断测试的GP使用的估计,例如胸部成像,非脑化超声和大脑MRI。DID是为了监控改善预后的进展:癌症的策略1。这种策略阐明了政府,NHS和公众如何帮助预防癌症,提高癌症服务的质量和效率,并朝着实现最佳成果迈进。其中一个方面是确保GP可以访问正确的诊断测试,以帮助他们更早地诊断或排除癌症。因此,DID报告了成像活动,转介源和及时性。这些数据是从放射学信息系统(RISS)中整理的,该系统是用于管理放射学部门工作流程的医院管理系统,并将其上传到NHS Digital维护的数据库中。1.1经常使用的首字母缩写
纳米孔测序是第三代测序技术,具有生成长阅读序列并直接测量DNA/RNA分子的修改,这使其非常适合生物学应用,例如人类端粒对象至tomemere(T2T)基因组组装,Ebola Virus Surveillance和Covid-19 Mrna vaccine vaccine vacine vaccine vacine vaccine vaccine vaccine vacine。但是,纳米孔测序数据分析的各种任务中计算方法的准确性远非令人满意。例如,纳米孔RNA测序的碱基调用精度约为90%,而目标的基础精度约为99.9%。这凸显了机器学习社区的迫切需要。一种阻止机器学习研究人员进入该领域的瓶颈缺乏大型集成基准数据集。为此,我们提出了纳米巴塞利布(Nanobaselib),这是一个综合的多任务台上数据集。它将16个公共数据集与纳米孔数据分析中的四个关键任务进行了超过3000万个读取。为了促进方法开发,我们已经使用统一的工作流进行了预处理所有原始数据,并以统一的格式存储了所有中级结果,分析了针对四个基准测试任务的各种基线方法分析的测试数据集,并开发了一个软件包来轻松访问这些结果。纳米巴斯利布可在https://nanobaselib.github.io上找到。
在自主系统[22,24](例如自动驾驶汽车(SDC))的背景下开发工具,由于研究人员和从业人员依赖昂贵的计算硬件和仿真软件,因此很耗时且昂贵。我们提出了Sensodat,这是一个由32,580个执行基于仿真的SDC测试用例的数据集,该测试案例用SDC的最新测试发电机生成。数据集由轨迹日志和来自SDC的各种传感器数据组成(例如,RPM,车轮速度,制动热,传输等)表示为时间序列。总共Sensodat提供了来自81个不同模拟传感器的数据。在使用Sensodat时,SDC领域的未来研究不一定取决于执行昂贵的测试用例。此外,有了大量和多种传感器数据,我们认为感觉模型可以为研究做出贡献,尤其是用于AI开发,用于基于模拟的SDC测试的回归测试技术,模拟中的片段等。链接到数据集:https://doi.org/10.5281/zenodo.10307479
我们考虑直接从自然语言描述生成设计的任务,并将平面图生成视为最初的研究领域。语言条件生成模型最近在生成高质量艺术图像方面非常成功。然而,设计必须满足生成艺术图像时不存在的不同约束,特别是空间和关系约束。我们为启动这项任务的研究做出了多项贡献。首先,我们引入了一个新数据集 Tell2Design (T2D),其中包含 80,000 多个与自然语言指令相关的平面图设计。其次,我们提出了一个 Sequence-to-Sequence 模型,可作为未来研究的坚实基线。第三,我们用几个文本条件图像生成模型对这项任务进行基准测试。最后,我们对生成的样本进行人工评估并提供人类表现的分析。我们希望我们的贡献能够推动语言引导设计生成的研究向前发展 1。
摘要 — 注意力缺陷多动障碍 (ADHD) 是儿童中最常见的神经发育障碍。它以多种方式影响患者的生活:注意力不集中、刺激抑制困难或运动功能调节困难。目前存在不同的治疗方法,但这些治疗方法可能会产生副作用或并非对所有亚组都有效。神经反馈 (NF) 是一种创新治疗方法,包括大脑活动显示。NF 训练可以包括虚拟现实 (VR) 视频游戏,其中参与者的注意力会影响游戏。注意力通过生理信号进行评估,主要步骤之一是设计注意力状态的估计器。我们提出了一个新颖的框架,能够记录特定注意力状态下的生理信号并能够估计相应的注意力状态。我们提出了一个由脑电图信号 (EEG) 和一个眼动仪组成的数据库,该眼动仪标有代表 32 名健康参与者注意力持续时间的分数。从信号中提取不同的特征并提出机器学习 (ML) 算法。我们的方法在注意力估计方面表现出很高的准确性,这证实了注意力状态与生理信号(即 EEG、眼动追踪信号)之间的相关性。该数据集已公开,以促进该领域的研究,我们鼓励其他科学家使用自己的方法进行注意力估计。
目前,全球太阳能发电量为 485 千兆瓦,该行业每年的增长率为 29%。除了制造、运输和安装可能造成的故障外,这些太阳能资产在其整个使用寿命期间还会受到环境因素的影响而退化,需要进行检查以确保电力生产符合预期的财务模型。随着太阳能行业规模的扩大,检查越来越依赖于遥感。检查太阳能模块的热像通常需要训练有素的专家来识别异常。然而,这些数据并不广泛提供给有办法自动应对这些数据挑战的机器学习研究人员。本文介绍了一个新的数据集 InfraredSolarModules,其中包含不同类型的缺陷、故障和发现,可用作自动异常分类的基础。1
创建带有人工注释的大型语料库在时间和资源上都是一个艰巨的过程。研究团队通常采用远程监督或无监督方法从文本数据中提取训练示例。在机器阅读理解 (MRC)(Hermann 等人,2015 年)中,可以通过获取多句未标记的段落以及另一小段文本(也未标记,通常是下一句)来自动构建训练实例。然后用占位符替换小段文本的命名实体。在这种情况下,MRC 系统经过训练(并评估其能力)阅读段落和小段文本,并猜测被占位符替换的命名实体,该命名实体通常是段落的命名实体之一。这种问答 (QA) 也称为完形填空题(Taylor,1953 年)。有几个数据集
简介 诊断成像数据集 (DID) 是一个月度数据收集,涵盖了英格兰 NHS 患者的诊断成像测试数据。它包括全科医生直接使用癌症关键诊断测试的估计值,例如胸部成像、非产科超声和脑部 MRI。引入 DID 是为了监测“改善结果:癌症战略 1 ”的进展情况。该战略阐述了政府、NHS 和公众如何帮助预防癌症、提高癌症服务的质量和效率,并朝着实现与最佳结果相媲美的方向迈进。其中一个方面是确保全科医生能够获得正确的诊断测试,以帮助他们更早地诊断或排除癌症。因此,DID 报告了成像活动、转诊来源和及时性。这些数据是从放射信息系统 (RIS) 中整理出来的,放射信息系统是用于管理放射科工作流程的医院管理系统,并上传到 NHS Digital 维护的数据库中。 1.1 常用首字母缩略词