生成式人工智能 (gen-AI) 的最新进展使得只需单击一下即可生成照片般逼真且具有艺术灵感的照片,满足数百万在线用户的需求。要探索人们如何使用 DALLE 和 StableDiffusion 等 gen-AI 模型,了解 AI 生成的照片中的主题、内容和变化至关重要。在这项工作中,我们介绍了 TWIGMA(带有 MetadatA 的 TWItter Generative-ai 图像),这是一个全面的数据集,涵盖了 2021 年 1 月至 2023 年 3 月在 Twitter 上收集的 800,000 多张 gen-AI 图像,以及相关元数据(例如推文文本、创建日期、点赞数),可在 https://zenodo.org/records/8031785 上找到。通过将 TWIGMA 与自然图像和人类艺术作品进行比较分析,我们发现与非 gen-AI 图像相比,gen-AI 图像具有独特的特征,并且平均而言表现出较低的可变性。此外,我们发现 gen-AI 图像与自然图像之间的相似性与点赞数量呈反比。最后,我们观察到 Twitter 上 AI 生成图像的主题发生了纵向变化,用户越来越多地分享艺术上复杂的内容,例如复杂的人类肖像,而他们对自然场景和动物等简单主题的兴趣有所下降。我们的研究结果强调了 TWIGMA 作为研究 AI 生成图像的独特数据资源的重要性。
摘要。机器学习正在改变视频编辑行业。计算机视觉领域的最新进展提升了视频编辑任务的水平,例如智能重构、转描、调色或应用数字化妆。然而,大多数解决方案都集中在视频处理和视觉特效上。这项工作引入了视频编辑的解剖结构、数据集和基准,以促进人工智能辅助视频编辑的研究。我们的基准套件专注于视频编辑任务,而不仅仅是视觉效果,例如自动素材组织和辅助视频组装。为了在这些方面开展研究,我们从电影场景中采样的 196176 个镜头中注释了超过 150 万个标签,其中包含与电影摄影相关的概念。我们为每个任务建立了有竞争力的基线方法和详细的分析。我们希望我们的工作能够激发对人工智能辅助视频编辑的未开发领域的创新研究。代码可在以下位置获得:https://github.com/dawitmureja/AVE.git。
天气模式异常和气候变化以各种方式极大地影响了人类活动和环境。无论是自然引起的还是人为活动的,它仍然是全球公共卫生的威胁。预先了解天气/气候变化有助于减轻由这些变化引起的灾害的影响。高空气象数据在天气和气候预测中发挥着极其重要的作用。然而,尼日利亚和非洲许多地区都缺乏地面真实气象数据。因此,需要测量和存档这些数据。物联网和区块链技术被用于构建一个系统,该系统可捕获和记录海拔 9,0 0 0 米以上的气象数据。本数据文章中介绍的气象数据涵盖了 2021 年 1 月 18 日至 2021 年 7 月 26 日期间乌约地方政府区域的高空气压、温度、露点、时间和捕获它们的海拔高度。
阅读过程中抽象的眼动动作提供了一个了解认知过程和语言理解的窗口,但是缺少中断数据的稀缺性 - 学习者在日常学习环境中经常遇到这些数据 - 妨碍了智能学习技术发展的进步。我们介绍了Interead - 一种新颖的50个参与者数据集的目光数据集,该数据集在对现实世界文本的自定进度读取过程中记录。Interead进一步提供了整个文本中散布的中断的细粒度注释以及这些中断产生的恢复滞后。中断。我们通过报告有关凝视行为的不同度量的跨学科分析来验证我们的数据集。与先前的研究一致,我们的分析表明,中断以及单词长度和单词频率效应会显着影响阅读过程中的眼睛运动。我们还探索了数据集中的个体差异,从而阐明了量身定制的教育解决方案的潜力。可以从我们的数据集访问网页:https://www.ife.uni-stuttgart.de/en/llis/research/datasets/。
蛋白质 - 蛋白质相互作用(PPI)是理解生物学过程并在治疗进步中起关键作用的基础。作为PPI增益吸引力的深度学习对接方法,基准测试协议和针对有效培训的数据集,用于有效培训和评估其在现实世界情景中的一般性功能和绩效。旨在克服现有方法的局限性,我们引入了Pinder,这是一个全面的注释数据集,该数据集使用结构聚类来得出非冗余接口的数据拆分和In-Incon-Includes holo(bound),apo(Unbound),apo(Unbound)和组合预测的结构。Pinder由2,319,564个二聚体PPI系统(最高2500万个增强PPI)和1,955个高质量测试PPI组成,并删除了接口数据泄漏。在方面,Pinder提供了一个带有180个二聚体的测试子集,可与Alphafold-Multimer进行比较,而没有任何接口泄漏其训练集。毫不奇怪,Pinder-Bench-Mark表明,在漏水测试集评估时,现有对接模型的性能被高估了。最重要的是,通过在Pinder界面聚集的分裂上重新培训,我们表明训练分裂的基于接口群集的采样,以及多样化且较少的漏水验证拆分,可实现强大的概括改进。
摘要 - 数据是AI中的重要资产,因为高质量的数据集可以显着提高机器学习模型的性能。在自动驾驶汽车等安全性领域中,离线深度强化学习(Offline DRL)经常用于在预采用的数据集中训练模型,而不是通过与现实世界环境进行互动作为在线DRL来培训这些模型。为了支持这些模型的开发,许多机构可以通过开放源许可公开获得数据集,但是这些数据集有可能滥用或侵权的风险。向数据集注入水印可能会保护数据的知识产权,但是它无法处理已经发布的数据集,并且以后无法更改。其他现有解决方案,例如数据集推理和会员推理,由于不同的模型行为特征和离线设置约束,因此在离线DRL方案中无法正常工作。
摘要:云和其他数据伪像经常限制从远程感知的地球观测中检索关键变量。我们训练具有高保真海洋模拟的自然语言处理(NLP)启发的算法,以准确地重建海面温度(SST)领域的掩盖或缺失数据,这是由全球气候观察系统确定的54个基本气候变量之一。我们证明,所谓的模型(称为e nki)反复超过先前采用的钻头技术,最多可以在重建错误中的数量级,同时即使在大多数像素被掩盖的情况下也显示出非凡的性能。此外,对具有至少40%的掩盖百分比的真实红外传感器数据的实验显示出比该传感器的已知不确定性少的重建误差(均方根误差(RMSE)≲0.1K)。我们将E nki的成功归因于NLP的细心性质与现实的SST模型输出相结合,这种方法可以扩展到其他远程感知的变量。这项研究表明,基于E nki或其他类似的先进系统的系统可能会产生最佳解决方案,以减轻气候关键海洋数据集中对迅速变化的地球进行采样的蒙面像素。
1。引言语言和扫盲技能的发展是基础教育的基石。然而,国家对教育进步评估的经验结果强调了现实:美国37%的四年级学生没有证明阅读能力与年级的期望相符(Irwin等人,2022)。扫盲基础是在关键的幼儿园和幼儿园时期建立的,在那里孩子们发展了诸如语音意识和信件知识之类的识字能力(Bus and van Ijzendoorn,1999年)。因此,这些早期发展阶段需要集中注意力和资源来促进语言增长。为了增强学习经验并利用这些进步,在教育空间中使用系统已变得司空见惯(Williams等人,2013年),但技术进步仍然必须解决一个重大障碍:当代的自动语音识别技术的表现不足,任务是为儿童的反应得分(Dutta等人,2022; Yeung and Alwan,2018年)。自动产生的儿童语音转录的容易出错的性质对他们整合到教育应用中构成了重大挑战。,1997; P´aez等。,2007年; Snow等。,2007年)。然而,综合儿童的语音数据库的显着稀缺性仍然存在于该领域,尤其是在纵向数据集中。,2022; Safavi等。,2012年; Yeung and Alwan,2018年)。,2018年; Kory等。研究的重点是幼儿园年龄的儿童强调了该年龄段的专门量身定制ASR系统的必要性,因为在Pre-K和幼儿园水平上开发的语音学和字母知识等识字能力可以支持识字技能的发展(Biemiller和Slonim,Slonim,Slonim,2001; Fishman and Pinkerman,2003; Hart et;这些纵向资源对于调查语言发展和精炼以儿童为中心的自动语音识别和说话者识别系统是无价的(Dutta等人。通过跟踪同一儿童,研究人员可以绘制语言获取的轨迹。这种理解可以指导专门针对儿童言语不断发展的特征的系统和技术的开发。(Yeung和Alwan,2019年)。纵向数据还促进了通过提供有关儿童语音模式如何发展,支持个性化学习环境和儿童手机互动等领域的应用程序的见解,从而促进了专门针对儿童声音的教育应用的发展。要有效地从儿童那里收集数据,研究人员必须设计涉及孩子体验的数据收集机制。社会机器人,具有交互式吸引儿童的能力,具有在临床和教育环境中实施这些数据驱动的见解的巨大潜力(Kanero等人,2013年; Westlund and Breazeal,2015年)。jibo被用来为幼儿园,幼儿园和一年级的儿童管理一系列结构化和半结构化任务。机器人可以促进针对各种目标的有针对性活动,包括评估语音发展和语音习得,以及加强发音技能。利用社会机器人的互动功能,Jibo(Spaulding and Chen,2018年),本文介绍了两年内收集的新颖的儿童演讲数据集。这些任务包括字母和数字标识以及说明任务。数据集的纵向组件,其中一部分参与者返回后续记录,促进了儿童言语中对发展轨迹的分析。作为较大的人类机器人相互作用(HRI)研究的一部分,评估了Yeung等人在课堂环境中社会机器人的有效性。(2019b),Yeung等。(2019a),Tran等。(2020),Johnson等。 (2022b)和Johnson等。 (2022a),本文对数据集的集合进行了全面讨论,包括设计注意事项和记录条件。(2020),Johnson等。(2022b)和Johnson等。(2022a),本文对数据集的集合进行了全面讨论,包括设计注意事项和记录条件。
数据集对于培训和评估机器学习模型至关重要。但是,它们也是许多不良模型行为的根本原因,例如偏见的预测。为了解决这个问题,机器学习社区正在提议作为最佳实践,以采用描述数据集的常见准则。但是,这些准则基于数据集的自然语言描述,从而妨碍了对此类描述的自动计算和分析。为了克服这种情况,我们提出了Descriveml,这是一种语言工程工具,可准确地描述机器学习数据集,以结构化的形式来描述其组成,出处和社会问题。该工具被实现为视觉工作室代码扩展。