我们介绍了Biotrove,这是旨在推进生物多样性应用程序的最大公共访问数据集。Biotrove从Intaturist平台策划,并审查仅包括研究级数据,包含16190万张图像,提供了三个主要王国的前所未有的规模和多样性:Animalia(“动物”),真菌(“ Fungi”),“ Fungi”)和parterae(“植物”),跨越了大约366.6k种。每个图像都用科学名称,分类层次结构和通用名称注释,可提供丰富的元数据,以支持各种物种和生态系统跨越准确的AI模型开发。我们通过释放一套使用4000万个字幕图像的子集(称为Biotrove-Train)训练的剪辑模型来证明Biotrove的价值。This subset focuses on seven categories within the dataset that are underrepresented in standard image recognition models, selected for their critical role in biodiversity and agriculture: Aves ("birds"), Arachnida ("spiders/ticks/mites"), Insecta ("insects"), Plantae ("plants"), Fungi ("fungi"), Mollusca ("snails"), and Reptilia (“蛇/蜥蜴”)。为了支持严格的评估,我们介绍了几个新的基准测试和报告模型的准确性,以跨生活阶段,稀有物种,混杂物种和多种分类学水平进行零拍学习。我们预计生物群将刺激AI模型的开发,这些模型支持用于害虫控制,作物监测,生物多样性评估和环境保护的数字工具。这些进步是确保粮食安全,保存生态系统并减轻气候变化影响的范围。Biotrove公开可用,易于访问,并准备立即使用。
本研究是一篇艺术作品分析论文和展览过程说明论文,描述了 ISEA(国际电子艺术研讨会)的准备过程。本文提出了两个主要主题:ISEA 的作用和 CFP(征集提案)的重要性,以及展览趋势的分析。首先,本研究找出了 ISEA 的作用和 CFP 的重要性,并处理了一个可以涵盖整个 2019 年 ISEA 研讨会的主题。其次,本研究研究了现代艺术家解释数据和人工智能的趋势,并观察他们如何在作品中表达它们。在 ISEA 2019 中,艺术家们对人工智能的各种观点进行了阐述。由此,可以确认,艺术家在看待数据时,作品的倾向性得到了扩展。此外,本文还为规划未来基于数据的艺术展览的通用方法做出了贡献。
M. M. Zedouc 1,†,Caire Blin 2, *,†,Nico L.L.louwen 1,豪尔赫(Jorge)的名字,1,卢雷罗(Loureiro)1,Chantal D. Bader 3,Constance B。女人3、6,何塞D.D。节日7,猜测14,我不知道Hanif 15,Eric J.N.由55、70、75,Rile和S59、60,拉奎尔hag AS 67,力量Charri 25,77,77,Hyukjae Choi Chroy 83,Melinda S31,夏洛特和OW,32岁, Robin T以弗39, Al-Sumukh A. Alharthi 52,Mariela Rojo 53,Amr A. Arishi Avalon 56,J。Abr和Av Elar-Rivas 57,Kyle K. AXT 34,Hellen B克里斯汀·比梅尔曼斯(Christine Beemelmanns)3,24, Ricardo M. Borges 67,Rainer Bordes 68,69,Milena Breit 16,17, Cano-Prieto 2,Joy 74,Victor J.31,夏洛特和OW,32岁, Robin T以弗39, Al-Sumukh A. Alharthi 52,Mariela Rojo 53,Amr A. Arishi Avalon 56,J。Abr和Av Elar-Rivas 57,Kyle K. AXT 34,Hellen B克里斯汀·比梅尔曼斯(Christine Beemelmanns)3,24, Ricardo M. Borges 67,Rainer Bordes 68,69,Milena Breit 16,17, Cano-Prieto 2,Joy 74,Victor J.JéromeCollemare 82,JAC。路易斯·卡莱布·达马斯·拉莫斯(Luis Caleb Damas-Ramos 2),达米亚尼(Damiani)87的泰特斯(Titus of Damiani 87在1 95,Erin A. Garza 96,Athina Gavriilidou 23,Andrea Gentiles 97,98,Jennif,hans Gerstmans 100,101,102, Greco 52,Juan E. Green 46,Sebastian War 7,9,Shaday Flores 104, 107,Kristina Haslinger 108,Beibel He 109 109 109 87,Jethro L. Hemmann 110,Hindr和Hindr和1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 113 h 2,当耶和华AB 1,114,115,Thanh-Hau Huynh 116和手2,Eunah Jeong 81,Jiayi Jing 1,Jung Jng 116,Yong Kang 116, 121,金122,罗伯特·A。
对植物物种的快速准确鉴定越来越多地寻求采用分子技术。ITS2区域在DNA条形码中高度评价,因为它的短长度和易于测序,使其成为物种识别的理想候选者。在这项研究中,通过对广泛植物分类群的底漆序列进行细致的分析和比较,我们策划了一系列具有证明普遍性的底漆,能够有效地扩大不同植物物种的ITS2区域。为了验证识别引物的普遍性,我们均采用了硅和体外方法。在计算机分析中涉及生物信息学工具,以评估公共数据库中可用的大量植物DNA序列的底漆结合位点。随后,使用从各种植物标本中提取的DNA样品进行了体外实验,以验证引物的扩增成功。通过这个全面的验证过程,我们确保了选定的引物用于DNA键编码目的的可靠性和适用性。我们发现的重要性在于使用ITS2区域建立了标准化的DNA栏编码方法,这有助于准确而有效的植物物种识别。通过为研究人员提供一组普遍适用的底漆,我们旨在简化底漆选择过程,从而减少实验设计所涉及的时间和精力。该标准化协议促进了DNA条形码研究中的一致性和可重复性,最终促进了我们对植物生物多样性的理解并有助于保护工作。
摘要 - 尽管进行了持续研究,但网络钓鱼电子邮件攻击正在上升,并且缺乏用于培训和测试电子邮件过滤技术的丰富策划数据集。为了解决这个问题,我们生产并发布了七个策划的数据集,其中包含203,176个电子邮件实例,可与机器学习一起使用(ML),以区分网络钓鱼电子邮件和合法的电子邮件。我们通过精心策划网络钓鱼和来自不同存储库的合法电子邮件来创建这些数据集。然后证明我们的策划数据集适合该目的,我们进行了定量分析,以评估五种ML算法的性能。我们还分析了这些策划数据集中不同特征对这些ML算法的重要性和影响。这些策划的数据集以及定量分析的发现将推动针对网络钓鱼攻击的强大防御。
。cc-by-nc 4.0国际许可证是根据作者/资助者提供的,他已授予Medrxiv的许可证,以永久显示预印本。(未通过同行评审认证)
摘要:背景:尽管电子健康记录(EHR)提供了对疾病模式和患者治疗优化的有用见解,但它们对非结构化数据的依赖表现出了很难的文化。超声心动图报告为心血管患者提供广泛的病理信息,由于其叙事结构,提取和分析特别具有挑战性。尽管自然语言处理(NLP)已成功地用于各种医学领域,但它并未在超声心动图分析中使用。目的:开发一种基于NLP的方法,通过准确转换(例如LVOT VTI,AV VTI和TR VMAX)和离散(例如,反应性严重性)在半结构的叙事形式中逐渐结构或允许未来的研究,从而将基于超声心动图报告中提取和分类数据进行分类。方法:135,062跨性超声心动图(TTE)报告源自146967基线超声心动图报告,分为三个同类:培训和验证(n = 1075),测试数据集(n = 98)和应用程序集(n = 133,889)。NLP系统是开发的,并使用医学专家知识迭代地进行了修订。该系统用于从133,889个报告的提取中策划一个中等实力数据库。由两名临床医生盲目注释并提取了98个报告的固定验证集,以与NLP提取进行比较。一致性,歧视,准确性和校准结果度量提取。该系统表现出与临床医生提取的高度一致性和一致性。结果:包括LVOT VTI,AV VTI和TR VMAX在内的连续结果使用级别的相关得分(ICC = 1.00,p <0.05)表现出完美的评估者可靠性,并表明了NLP系统和临床医生之间的理想对齐。在诸如LVOT直径,横向MAPSE,峰值E速度,横向E速度,PV VMAX,Valsalva的Sinuses,valsalva的sinuse,valsalva和升高主动脉直径等结果中观察到了良好水平(ICC = 0.75–0.9,p <0.05)的评价者间可靠性。此外,在混淆矩阵分析中,离散结果度量的准确率为91.38%,表明有效性能。结论:基于NLP的技术在从超声心动图报告中提取和分类数据时产生了良好的结果。本研究通过提供有用的工具将半结构化文本转换为可用于数据管理的结构化回声报告,从而有助于使用半结构化数据。医疗保健设置中的其他验证和实施可以提高数据可用性,并支持研究和临床决策。
生成模型的快速进步导致了构成质量的令人印象深刻的飞跃,从而模糊了合成数据和真实数据之间的界限。网络规模的数据集现在易于通过合成数据不可避免地污染,直接影响了未来生成的模型的培训。已经在文献中出现了自我消耗生成模型的一些理论结果(又称迭代性重新训练),表明模型崩溃或稳定性可能取决于每个重新培训步骤中使用的生成数据的分数。但是,实际上,合成数据通常受到人类反馈的约束,并在在线使用和上载之前由用户策划。例如,流行的文本到图像生成模型的许多接口(例如稳定的扩散或Midjourney)为给定查询产生了几种图像的变化,最终可以由用户策划。在本文中,我们从理论上研究了数据策展对生成模型的迭代重新培训的影响,并表明它可以看作是一种隐式优先优化机制。但是,与标准偏好优化不同,生成模型无法访问成对比较所需的奖励功能或负面样本。此外,我们的研究不需要访问密度函数,而只需要访问样品。我们证明,如果数据是根据奖励模型策划的,则最大化迭代重新训练程序的预期奖励。我们在每个步骤使用真实数据的正分数时进一步提供了关于重新循环的稳定性的理论结果。最后,我们在合成数据集和CIFAR10上进行说明性实验,表明这种过程扩大了奖励模型的偏见。
媒体行业越来越多地采用人工智能 (AI) 来策划和分发新闻。本评论论文研究了人工智能对新闻行业影响的当前研究状况,重点关注人工智能在新闻编辑室中的使用、人工智能对新闻报道多样性和准确性的影响、人工智能对新闻分发的影响以及人工智能使用的道德和监管问题。评论发现,人工智能有可能提高新闻行业的效率并覆盖更多人。尽管如此,它还是引发了人们对偏见、不准确性和人类编辑作用减弱的重要担忧。当使用人工智能传播新闻时,人们还担心过滤气泡和回音室。评论还强调了新闻行业使用人工智能的透明度、问责制和监管的必要性。
作者贡献声明中央Yin Yee-写作 - 原始草稿;数据策划;正式分析;调查,Lam Ghai Lim-正式分析;写作 - 评论和编辑;调查,宁静的母猪锁 - 正式分析;监督;写作 - 评论和编辑;调查,Norwahyu Jusoh - 资源;写作 - 评论和编辑;数据策划,钟长Yiin - 资源;写作 - 评论和编辑;数据策划,Bridgid Lai Fui Chin - 资源;写作 - 评论和编辑;数据策划,yi herng chan - 资源;写作 - 评论和编辑;数据策划,Adrian Chun Minh Loy - 资源;写作 - 评论和编辑;数据策划,穆罕默德·穆巴希尔(Muhammad Mubashir) - 资源;写作 - 评论和编辑;数据策划