摘要 睡眠阶段评分是诊断睡眠障碍的重要组成部分。不幸的是,这是一项耗时的任务,需要临床专家为每位患者注释一整晚的记录。因此,机器学习模型通过自动化此任务提供了减轻这一负担的潜力。虽然学习模型在整理数据上实现了可接受的准确度,但这些模型在部署到医疗中心时仍然会对某些患者产生高度不准确的评分。这是因为特定的人群子集可能无法在用于训练模型的数据中得到充分体现。例如,数据不易获取(例如,特定年龄组,如儿童)或难以或无法收集(例如,患有罕见疾病或以前未知病理的患者)。这会产生信任问题,因为错误的评分可能会造成严重后果,例如未检测到的疾病。为了解决这个问题,我们建议在现有模型中添加一个拒绝选项,如果模型犯错的风险很高,则可以放弃进行预测。我们表明,传统的拒绝框架在某些情况下可能会系统性地过于谨慎,即使模型可以做出良好的预测,也会放弃。我们提出了一个解决方案,通过考虑数据分布和模型预测。我们在现实世界的睡眠评分用例上证明了我们的方法的有效性。此外,我们发现我们的方法可以提高几个公开可用的基准测试的性能。
目的:本研究探讨 GPT-4 在头颅 CT 扫描中识别和注释脑出血的能力。它代表了 NLP 模型在放射影像学中的一种新应用。方法:在这项回顾性分析中,我们收集了 2023 年 1 月至 9 月期间在上海交通大学医学院附属仁济医院进行的 208 次 CT 扫描,这些 CT 扫描包含 6 种类型的脑出血。所有 CT 图像都混合在一起并按顺序编号,因此每张 CT 图像都有自己对应的编号。生成从 1 到 208 的随机序列,并按随机序列的顺序将所有 CT 图像输入 GPT-4 进行分析。随后使用 Photoshop 检查输出,并由经验丰富的放射科医生根据 4 分量表进行评估,以评估识别的完整性、准确性和成功率。结果:6 种类型脑出血的总体识别完整率为 72.6%(SD 18.6%)。具体而言,GPT-4 在硬膜外出血和脑实质内出血中的识别完整度较高(分别为 89.0%、SD 19.1% 和 86.9%、SD 17.7%),但其在慢性硬膜下出血中的识别完整度百分比很低(37.3%、SD 37.5%)。复杂性出血(54.0%、SD 28.0%)、硬膜外出血(50.2%、SD 22.7%)和蛛网膜下腔出血(50.5%、SD 29.2%)的误识别率相对较高,而急性硬膜下出血(32.6%、SD 26.3%)、慢性硬膜下出血(40.3%、SD 27.2%)和脑实质内出血(26.2%、SD 23.8%)的误识别率相对较低。大出血和轻微出血的识别完整性百分比均未显示
抽象数据预处理,将数据转换为适合训练模型的合适格式的步骤,很少发生在数据库系统中,而是在外部Python库中,因此需要首先从数据库系统中提取。但是,对数据库系统进行了调整以进行有效的数据访问,并提供汇总功能,以计算数据(偏见)中某个值的不足或过分代表所需的分布频率。我们认为,具有SQL的数据库系统能够执行机器学习管道,并发现技术偏见(通过数据预处理引起的)有效地。因此,我们提供了一组SQL查询,以涵盖数据预处理和数据检查:在预处理过程中,我们用标识符注释元组以计算列的分布频率。要检查分布更改,我们将预处理的数据集与元组标识符上的原始数据集一起加入,并使用聚合功能来计算每个敏感列的出现数量。这使我们能够检测到过滤元组的操作,从而删除了列的技术偏见,即使已经删除了列。为了自动生成此类查询,我们的实施将Mlinspect项目扩展到以Python编写的现有数据预处理管道到SQL查询,同时使用视图或公共表格表达式(CTES)维护详细的检查结果。评估证明,超出主机数据库系统的现代现代化,即umbra,加速了预处理和检查的运行时。即使是基于磁盘的数据库系统,甚至在实现视图时也显示出与UMBRA的相似性能。
patella caerulea(Linnaeus,1758)是胃足类的软体动物。地中海流行,它被认为是基石物种,因为它在结构和调节潮汐和潮汐栖息地的生态平衡中的主要作用。目前,它被用作评估沿海海水的环境质量的生物指导者,并用作了解适应海洋酸化的模型物种。在这里,我们为闭藻提供了高质量的参考基因组组装和注释。我们从一个个体中生成了约30 GB的太平洋生物科学高保真数据,并提供了最终的749.8 MB组件,其中包含62个重叠群,包括线粒体基因组(14,938 bp)。n50为48.8 MB,其中98%的组装中包含在18个最大的重叠群中,该组件靠近染色体规模。基准的通用单拷贝直系同源物分数很高(Mollusca,87.8%完成; Metazoa,97.2%完成),与其他染色体级the骨基因组观察到的指标相似,突出了Mollusca数据库中可能的偏差。,我们从相同位置收集的第二个人产生了转录组光照明数据,并将其与蛋白质证据一起注释基因组。总共发现了23,938个蛋白质编码基因模型。通过将该注释与其他已发表的patella注释进行比较,我们发现,尽管方法不同,但外显子和基因长度的分布和中位数与其他patella物种相媲美。目前可在GenBank上获得的高质量P. caerulea参考基因组(Bioproject:PRJNA1045377;组装:GCA_036850965.1),是未来生态和进化研究的重要资源。
小麦是一种重要的谷物,全球一半人口都食用小麦。小麦面临环境压力,人们使用了不同的技术(CRISPR、基因沉默、GWAS 等)来提高其产量,但 RNA 编辑 (RES) 在小麦中尚未得到充分探索。RNA 编辑在控制环境压力方面具有特殊作用。对不同类型的小麦基因型中的 RES 进行了全基因组鉴定和功能表征。我们通过 RNA 测序分析采用了六种小麦基因型来实现 RES。研究结果表明,RNA 编辑事件均匀发生在所有染色体上。RNA 编辑位点随机分布,在小麦基因型中检测到 10-12 种类型的 RES。在耐旱基因型中检测到的 RES 数量较多。在六种小麦基因型中还鉴定了 A-to-I RNA 编辑(2952、2977、1916、2576、3422 和 3459)位点。基因本体分析后发现,大多数基因参与了分子过程。还检查了小麦中的 PPR(五肽重复序列)、OZ1(细胞器锌指序列)和 MORF/RIP 基因表达水平。正常生长条件使这三个不同基因家族的基因表达出现差异,这意味着不同基因型的正常生长条件可以改变 RNA 编辑事件并影响基因表达水平。而 PPR 基因的表达没有变化。我们使用变异效应预测器(VEP)来注释 RNA 编辑位点,Local White 在蛋白质的 CDS 区域具有最高的 RES。这些发现将有助于预测其他作物的 RES,并有助于小麦抗旱性的发育。
在人类连接组计划的带动下,具有超高梯度强度的扫描仪的开发显著提高了体内扩散 MRI 采集的空间、角度和扩散分辨率。可以利用改进的数据质量来更准确地推断微观结构和宏观结构解剖结构。然而,这种高质量的数据只能在全世界少数几台 Connectom MRI 扫描仪上采集,而且由于硬件和扫描时间的限制,在临床环境中仍然无法使用。在本研究中,我们首先更新了基于纤维束成像的手动注释主要白质通路的经典协议,以使其适应当今最先进的扩散 MRI 数据所能产生的更大体积和更大变化的流线。然后,我们使用这些协议手动注释来自 Connectom 扫描仪的数据中的 42 条主要通路。最后,我们表明,当我们使用这些手动注释的通路作为具有解剖邻域先验的全局概率纤维束成像的训练数据时,我们可以在质量低得多、更广泛可用的弥散 MRI 数据中对相同的通路进行高精度、自动重建。这项工作的成果包括来自 Connectom 数据的 WM 通路的全新综合图谱,以及我们的纤维束成像工具箱的更新版本,即受基础解剖学约束的 TRActs (TRACULA),该工具箱使用该图谱中的数据进行训练。图谱和 TRACULA 均作为 FreeSurfer 的一部分公开分发。我们首次全面比较了 TRACULA 与更传统的多感兴趣区域自动纤维束成像方法,并首次演示了在高质量 Connectom 数据上训练 TRACULA 以造福使用更温和的采集协议的研究。
交互式3D环境是对体现的AI代理进行培训和评估的关键,这使得对现实的大型3D数据集的可用性对于该地区未来的杂志至关重要。然而,现代的最先进的模拟数据库很少包含一百多个相互影响的场景[26] [19] [14],因为手动场景既耗时又耗时且昂贵。虽然已经努力从头开始生成模拟场景[5],但在这些环境中训练AI代理的结果并不令人满意[12],可能是因为这些解决方案使用过度简单的规则,导致了不现实的世代。同时,扫描真实环境构建的3D重建数据集可能包含数千个现实的场景[4] [42] [40],而缺乏交互所需的物理对象注释。在此项目中,我们引入了一个解决方案,该解决方案利用了在线可用于在两个阶段的程序生成的在线可用的Abun dant 3D重建数据。首先,我们使用接地的SAM [33],这是一个强大的开放式对象检测和半分割工具来分割和注释输入3D网格,并使用用户定义的对象类别。第二,我们使用剪辑[28]图像表示和上一步预测的类标签找到了每个检测到的对象的最近数据库对象(语义和方向上的类似)。此过程可用于将任何3D网格场景(重建或生成)转换为具有较高的环境,通过用丰富的注释数据库对象替换其原始网格顾问来通过重新流动。
镜像检测是计算机视频中的一个主动研究主题。但是,所有现有的镜像探测器都从大规模像素的数据集中学习镜像代表,这些数据集乏味且获得昂贵。尽管在相关主题中广泛探索了弱监督的学习,但我们注意到流行的弱监督信号(例如,边界框,涂鸦,点)仍然需要用户的一些努力来定位目标对象,并以强烈的假设是,注释的图像始终包含目标对象。这样的假设可能会导致miror子的过度分割。我们对这项工作的关键思想是,在一段时间内,伴侣的存在可能是较弱的监督,以训练镜像探测器,原因有两个。首先,如果网络可以预测镜子的存在,则可以从本质上找到镜子。第二,我们观察到镜子的反射内容往往与相邻帧中的内容相似,但与遥远框架的区域形成了鲜明的对比(例如,非MIRROR框架)。在本文中,我们提出了Zoom,这是从视频中人均零镜像指示器的极度弱势注释中学习强大镜像表示形式的第一种方法。缩放的关键见解是在时间变化中对相似性和对比度进行建模,以定位和分割mir or。为此,我们提出了一种新颖的融合策略,以利用镜像定位的时间一致性信息,以及一个新颖的时间相似性对比模型模型用于镜像分割。我们构建了一个新的视频镜数据集,以进行培训和评估。在新的和标准指标下的实验结果表明,Zoom对现有的全面监督镜像检测方法的性能有益。
摘要 — 以时间序列形式出现的信号测量是医学机器学习应用中最常见的数据类型之一。此类数据集通常规模较小,收集和注释成本高昂,并且可能涉及隐私问题,这阻碍了我们为生物医学应用训练大型、最先进的深度学习模型的能力。对于时间序列数据,我们可以用来扩展数据集大小的数据增强策略套件受到需要维护信号基本属性的限制。生成对抗网络 (GAN) 可以用作另一种数据增强工具。在本文中,我们提出了 TTS-CGAN,这是一种基于 Transformer 的条件 GAN 模型,可以在现有的多类数据集上进行训练并生成任意长度的特定于类的合成时间序列序列。我们详细阐述了模型架构和设计策略。我们的模型生成的合成序列与真实序列没有区别,可以用来补充或替换相同类型的真实信号,从而实现数据增强的目标。为了评估生成数据的质量,我们修改了小波相干性度量,以便能够比较两组信号之间的相似性,并进行了一个案例研究,其中使用合成数据和真实数据的混合来训练用于序列分类的深度学习模型。结合其他可视化技术和定性评估方法,我们证明 TTS-CGAN 生成的合成数据与真实数据相似,并且我们的模型比其他为时间序列数据生成构建的最先进的 GAN 模型表现更好。TTS-CGAN 源代码:github.com/imics-lab/tts-cgan
事件摘要确定基因功能是主要生物能源作物高粱 (L.) Moench 的一个重要目标,特别是与其显著的非生物胁迫耐受性相关的基因。然而,对与这些性状相关的基因的详细分子理解有限。我们对高粱进行的深入转录组研究表明了这一点,研究表明其近 50% 的转录组尚未注释。在本报告中,我们描述了转化高粱所需的全套工具,以便验证和注释基因。我们首先努力修改一种转化方法,该方法使用形态发生基因 Baby Boom 和 Wuschel2(胚珠发育蛋白 2)来加快转化速度并扩大适宜的基因型。根据我们的经验,转化不含形态发生基因的 RTx430 需要约 18 到 21 周,而使用含有形态发生基因的方法生成 T 0 植物则需要约 10 到 12 周。利用形态发生基因还可以转化几种以前未转化或历史上难以转化的高粱基因型,即快速循环 SC187、保绿 BTx642、BTx623 和甜高粱 Ramada。为了通过工程验证候选基因,同时引入形态发生基因,开发了一种称为利他转化的共转化策略。为了完成对目标基因(八氢番茄红素去饱和酶)的编辑,我们创建了新的构建体,其中也包括形态发生基因。为了能够全面表征转化植物,我们采用了技术来确定高通量水平的拷贝数和事件的独立性。通过这些努力,我们创建了一条从农杆菌感染到高通量分子基因分型的完整途径,可用于确定基因功能并加快这种广泛种植的生物能源作物植物的基础遗传研究。