大生物多样性数据集具有较大的分类,地理和时间范围,具有监测和研究的巨大潜力。此类数据集对于评估物种种群和分布的时间变化尤为重要。可用数据中的差距,尤其是空间和时间差距,通常意味着数据不能代表目标人群。这阻碍了大规模推论,例如关于物种的趋势,并可能导致放错了保护作用。在这里,我们概念化了生物多样性监视数据的差距是缺少的数据问题,该数据为不同类型的生物学数据集的挑战和潜在解决方案提供了一个统一的框架。我们将典型的数据差距类型表征为不同类别的缺少数据类别,然后使用丢失的数据理论来探讨有关物种趋势和影响事件/丰富性的因素的含义。通过使用此框架,我们表明,当影响采样和/或数据可用性与影响物种的因素重叠时,可能会由于数据差距而产生的偏差。,但数据集本身没有偏见。结果取决于生态问题和统计方法,该方法确定了围绕哪些变异来源考虑的选择。我们认为,使用监视数据进行长期物种趋势建模的典型方法特别容易受到数据差距的影响,因为这种模型不倾向于说明驱动缺失的因素。为了确定解决此问题的一般解决方案,我们回顾了实证研究并使用仿真研究来比较一些最常使用的方法来处理数据差距,包括亚采样,加权和插补。所有这些方法具有减少偏差的潜力,但可能以增加参数估计的不确定性成本。加权技术可以说是迄今为止生态学中最不使用的,并且具有减少参数估计的偏差和方差的潜力。无论方法如何,降低偏见的能力都取决于对数据差距的知识和数据的可用性。在处理数据收集和分析工作流的不同阶段的数据差距时,我们使用此评论概述了必要的考虑。
抽象背景:CRISPR-CAS9辍学屏幕是用于研究以前所未有的精度和规模研究生物学的强大工具。但是,数据的偏见会导致对解释和损害总体质量的潜在混杂影响。CAS9的活性受到目标位点的结构特征的影响,包括拷贝数放大(CN偏置)。更令人担忧的是,近端靶向基因座倾向于产生与CRISPR-CAS9靶向(接近度偏差)的基因无关的反应,这可能是由于CAS9引起的整个染色体臂截断或其他基因组结构特征和不同的染色质访问性水平。结果:我们对八种计算方法进行了基准测试,严格评估了它们在迄今为止两个最大的公开可用的CRISPR-CAS9屏幕中减少CN和接近性偏置的能力。我们还通过评估处理后的数据允许准确检测真正的阳性基本基因的程度,确定的肿瘤遗传成瘾以及已知的癌症依赖性生物标志物,来评估每种方法保持数据质量和异质性的能力。我们的分析阐明了每种方法在不同情况下纠正偏见的能力。当共同处理具有可用CN信息的模型的多个模型屏幕时,AC-CHRONOS的校正CN和CORXIM偏差的其他方法都超过了其他方法,而CRISPRCHEANR是单个屏幕的最佳性能方法,或者是CN信息的最佳性能。此外,计时和AC-CHRONOS产生的最终数据集能够更好地概括已知的必需基因和非必需基因。结论:总的来说,我们的调查根据其优势,劣势和实验环境,为选择最合适的偏见方法的选择提供了指导。
©2024作者。开放访问。本文获得了创意共享归因及其商业商业期4.0国际许可证的许可,该许可允许以任何中等或格式的任何非商业用途,共享,分发和复制,只要您与原始作者提供适当的信誉,并为原始的许可证提供了链接,并符合您的创造地点的链接,并指明您的授权材料。您没有根据本许可证的许可来共享本文或部分内容的适用材料。本文中的图像或其他第三方材料包含在文章的创意共享许可中,除非在信用额度中另有说明。如果本文的创意共享许可中未包含材料,并且您的预期用途不受法定法规的允许或超过允许的用途,则您需要直接从版权所有者那里获得许可。要查看此许可证的副本,请访问http://creativecommons.org/licenses/by-nc-nd/4.0/。
大生物多样性数据集具有较大的分类,地理和时间范围,具有监测和研究的巨大潜力。此类数据集对于评估物种种群和分布的时间变化尤为重要。可用数据中的差距,尤其是空间和时间差距,通常意味着数据不能代表目标人群。这阻碍了大规模推论,例如关于物种的趋势,并可能导致放错了保护作用。在这里,我们概念化了生物多样性监视数据的差距是缺少的数据问题,该数据为不同类型的生物学数据集的挑战和潜在解决方案提供了一个统一的框架。我们将典型的数据差距类型表征为不同类别的缺少数据类别,然后使用丢失的数据理论来探讨有关物种趋势和影响事件/丰富性的因素的含义。通过使用此框架,我们表明,当影响采样和/或数据可用性与影响物种的因素重叠时,可能会由于数据差距而产生的偏差。,但数据集本身没有偏见。结果取决于生态问题和统计方法,该方法确定了围绕哪些变异来源考虑的选择。我们认为,使用监视数据进行长期物种趋势建模的典型方法特别容易受到数据差距的影响,因为这种模型不倾向于说明驱动缺失的因素。为了确定解决此问题的一般解决方案,我们回顾了实证研究并使用仿真研究来比较一些最常使用的方法来处理数据差距,包括亚采样,加权和插补。所有这些方法具有减少偏差的潜力,但可能以增加参数估计的不确定性成本。加权技术可以说是迄今为止生态学中最不使用的,并且具有减少参数估计的偏差和方差的潜力。无论方法如何,降低偏见的能力都取决于对数据差距的知识和数据的可用性。在处理数据收集和分析工作流的不同阶段的数据差距时,我们使用此评论概述了必要的考虑。
社交媒体平台虽然有影响力的人权行动,言论自由和动员工具,但也承担了公司所有权和商业利益的影响。这个双重字符可能会导致对这些平台运营的利益冲突。这项研究集中在2021年5月在东耶路撒冷举行的Sheikh Jarrah事件,这是以色列 - 帕勒斯坦冲突中引起了全球关注的焦点。在此期间,巴勒斯坦激进主义者及其盟友观察并遇到了自动化内容审核动作的显着增加,例如阴影禁令和删除内容。我们调查了201个面临内容适度的用户,并与政治影响者进行了12次访谈,以评估这些实践对行动主义的影响。我们的分析集中在自动内容审核和透明度上,研究用户和活动家如何看待社交媒体平台使用的内容审核系统及其不透明度。的发现表明,由于不透明和混淆含量降级的技术机制,亲帕勒斯坦激进主义者的审查制度,使损害证明和缺乏补救机制变得复杂。在自动化内容审核的领域中,我们将这种困难视为算法危害的一部分。这种动态对行动主义的未来具有深远的影响,并提出了有关数字空间中权力集中化的问题。
mastvei tshishyn是比利时的Libre de Bruxelles大学计算生物学和生物信息学集团的博士候选人。他的研究重点是研究蛋白质变异的研究以及预测突变对蛋白质不同生物物理特征的影响的方法。Fabrizio Pucci是比利时的Libre de Bruxelles大学计算生物学和生物信息学集团的助理教授。他的主要研究领域包括蛋白质和RNA设计,遗传变异解释,基于AI的方法开发和免疫信息学。Marianne Rooman是科学研究基金的荣誉研究主任,也是比利时的Libre de Bruxelles大学计算生物学和生物信息学集团的教授。她在多个研究领域具有专业知识,包括结构性生物信息学,量子化学和机器学习技术在生物分子系统中的应用以及数学生物建模。收到:2023年6月30日。修订:2023年10月2日。接受:2023年12月5日©作者2024。牛津大学出版社出版。这是根据Creative Commons Attribution许可条款(https://creativecommons.org/licenses/4.0/)分发的一篇开放访问文章,该文章允许在任何媒介中不受限制地重复使用,分发和再现,前提是适当地引用了原始工作。
在创意环节中,参与者在发散过程和收敛过程中都表现出认知偏差。在各种情况下,观察到发散过程依赖于或与 ChatGPT 给出的方向密切相关。尽管三组在创意方法上有所不同,并且各自决定在创意生成的早期阶段纳入或排除生成性 AI 工具,但他们的最终结果几乎倾向于同一方向:创建一个颜色编码的分隔空间,让专注、放松和协作可以共存。结果的细节再次相似或在多个情况下相同:使用舒适的座椅(在研讨会 1、2 和 3 期间建议 14 次)、窗帘(在研讨会 1 和 3 期间建议 3 次)、灵活的座椅(在研讨会 1 和 2 期间建议 13 次)和隔音(在研讨会 1、2 和 3 期间建议 13 次)。这些例子是特意选择作为例证的,因为它们在二人的 ChatGPT 对话中反复出现。
图 1 研究框架 (a) 和所分析模拟群落的描述,包括不同物种组成和 DNA 输入、评估的标记和用于生物多样性评估的代理 (b)。所有模拟群落均使用来自圣弗朗西斯科河流域 (SFRB) 和热基蒂尼奥尼亚河流域 (JQRB) 的物种构建。 (1) 标准化圣弗朗西斯科河模拟群落 (SFmc) 包含来自 SFRB 的 23 个物种,具有相同的 DNA 浓度 (10 ng/ μ L) 和 (2) 使用不同 DNA 浓度偏斜的 SFmc。 (3) 圣弗朗西斯科和热基蒂尼奥尼亚河组合模拟群落 (SFJQmc) 使用来自标准化热基蒂尼奥尼亚河模拟群落 (JQmc) JQmc 和 SFmc 的 38 个独特物种构建。 (4) 标准化热基蒂尼奥尼亚河模拟群落 (JQmc) 由来自 JQRB 的 23 个物种组成,使用相同浓度的 DNA 构建。 (5)JQmc skewed:由来自 JQRB 的 23 个物种组成的模拟群落,采用 DNA 浓度倾斜构建。
摘要 本文的主要目的是反思为解决 COVID-19 大流行引起的问题而开发的人工智能 (AI) 系统所造成的偏见的影响,特别关注为分类和风险预测而开发的系统。第二个目的是回顾为防止人工智能系统出现偏见而开发的评估工具。此外,我们还对与此特定背景下的偏见相关的一些术语进行了概念性澄清。我们主要关注非种族偏见,现有文献中在处理人工智能系统中的偏见时可能较少考虑这些偏见。在论文中,我们发现用于 COVID-19 的人工智能系统中存在偏见可能导致算法正义,而为防止偏见出现而制定的法律框架和战略未能充分考虑健康的社会决定因素。最后,我们就如何纳入更多样化的专业人员资料提出了一些建议,以便开发能够增加认知多样性的人工智能系统,以应对 COVID-19 大流行期间及以后的人工智能偏见。
近年来,RNA 测序激发了大量的研究领域。大多数方案依赖于在逆转录反应过程中合成更稳定的 RNA 分子互补 DNA (cDNA) 拷贝。结果 cDNA 池经常被错误地认为在数量和分子上与原始 RNA 输入相似。遗憾的是,偏差和伪影会混淆结果 cDNA 混合物。依赖逆转录过程的人们在文献中经常忽视或忽略这些问题。在这篇评论中,我们向读者展示了 RNA 测序实验过程中逆转录反应引起的样本内和样本间偏差和伪影。为了打消读者的疑虑,我们还提供了大多数问题的解决方案并介绍了良好的 RNA 测序实践。我们希望读者能够利用这篇评论,从而为科学合理的 RNA 研究做出贡献。