摘要 — 与电子设备对话并在最短时间内获取所需信息已成为当今的常态。尽管人工智能对话代理已经渗透到商业市场,但它们在公共环境中的使用仍在不断发展。我们假设在灾害多发地区部署聊天机器人可以有利于在危机期间观察、监控和警告人们。此外,成功实施这种技术可以挽救生命。在这项工作中,我们讨论了部署一个名为 FloodBot 的实时洪水监测聊天机器人。我们收集、注释和视觉解析潜在危险区域的图像。我们通过堆叠深度学习模型(例如卷积神经网络 (CNN)、单次多框物体检测 (SSD))来检测洪水状况并识别危险物体。然后,我们将图像内容输入到我们的人工智能 FloodBot 的知识库中,并使用端到端内存网络探索其 AI 对话能力。我们还展示了跨领域迁移学习和模型融合技术的强大功能。索引词 — 聊天机器人、深度学习、计算机视觉、深度自然语言处理、移动计算
当前医学图像处理研究在很大程度上依赖于输入数据的数量和质量。具体来说,监督机器学习方法需要注释良好的数据集。缺乏注释工具限制了实现大容量处理和具有适当奖励机制的扩展系统的潜力。我们开发了基于 Web 的工具 MarkIt,用于使用人工智能和区块链技术协作注释医学图像数据。我们的平台可处理医学数字成像和通信 (DICOM) 和非 DICOM 图像,并允许用户以高效的方式注释它们以进行分类和对象检测任务。MarkIt 可以加速注释过程并跟踪用户活动以计算公平的奖励。对三名经过专业培训的放射科医生进行了概念验证实验,他们每人注释了 1,000 份胸部 X 光片以进行多标签分类。我们计算了评分者之间的一致性并估计了数据集的价值,以使用加密货币分配注释者的奖励。我们假设 MarkIt 可以让通常很繁琐的注释任务变得更加高效。此外,MarkIt 还可以作为一个平台,用于评估数据的价值,并在未来以更具可扩展性的方式交易注释结果。该平台可在 https://markit.mgh.harvard.edu 上公开测试。
抽象的单细胞RNA测序(SCRNA-SEQ)正在彻底改变对复杂和动态细胞机制的研究。然而,细胞类型的注释仍然是一个主要挑战,因为它主要依赖于先验知识和手动策展,这是繁琐且主观的。越来越多的SCRNA-SEQ数据集以及众多已发表的遗传研究激励了我们建立全面的人类细胞类型参考地图集。在这里,我们介绍了解码细胞类型特异性(DECS),这是一种自动细胞类型注释方法增强了人类细胞类型表达pro纤维和标记基因的全面集合。我们使用DECS来注释来自各种组织类型的SCRNA-SEQ数据,并系统地评估了在不同条件下的注释精度,包括参考面板,测序深度和特征选择策略。我们的结果表明,扩展参考对于提高注释准确性至关重要。与许多现有的最新注释工具相比,分数显着减少了计算时间和提高准确性。DEC可以集成到标准的SCRNA-SEQ分析管道中,以增强细胞类型的注释。最后,我们证明了DECS的广泛效用
摘要目前,我们目睹了生命所有分支的生物的基因组序列的爆炸性积累。但是,通常基因组数据缺乏有关相应生物最佳生长条件的信息。因此,使用基因组数据来研究生物体和生物分子对不同环境的适应性变得具有挑战性。为了解决此问题,我们创建了一个数据库GOSHA,请访问http://melnikovlab.com/gshc。该数据库汇集了有关25,324种的基因组序列和最佳生长温度的信息,其中包括约89%的具有已知基因组序列的细菌物种。使用此数据库,可以注释数千种物种的基因组序列,并将基因和基因组的变化与最佳生长温度相关。数据库界面允许用户检索细菌,真核生物和古细菌的最佳生长温度,从而提供了一种探索生物,基因组以及个体蛋白质和核酸的工具。我们希望该数据库通过帮助更好地理解对热和寒冷的分子适应性,从而为医学和生物技术做出贡献,从而为保存生物样品,工程师有用的酶以及开发生物材料和生物体,并具有对热和寒冷的需求耐受性的新方法。
蛋白质序列相似性搜索是基因组学研究的基础,但是当前方法通常无法考虑可以指示蛋白质功能的关键基因组环境信息,尤其是在微生物系统中。在这里,我们提出了Gaia(基因组AI注释器),这是一个序列注释平台,可在基因组数据集跨基因组数据集进行快速,上下文感知的蛋白质序列搜索。Gaia利用GLM2是一种在氨基酸序列及其基因组邻域训练的混合模式基因组语言模型,以生成整合序列结构 - 膜片信息的嵌入。这种方法允许识别在保守的地理环境中发现的功能相关基因,仅传统序列或基于结构的搜索可能会错过。GAIA可以实时搜索来自131,744个微生物基因组的超过8500万蛋白簇(定义为90%序列身份)的策划数据库。我们将基于GLM2嵌入的搜索的序列,结构和上下文灵敏度与MMSEQS2和FOLDSEEK等现有工具的序列,上下文灵敏度进行了比较。我们展示了噬菌体尾蛋白和铁载体合成基因座的基本发现,这些发现以前很难用传统工具注释。Gaia搜索可在https://gaia.tatta.bio上免费获得。
受体酪氨酸激酶 (RTK) 共表达促进肿瘤耐药性,这是由于磷脂酰肌醇-3'-激酶/蛋白激酶 B 和 KRAS/细胞外信号调节激酶信号通路等存在冗余。致癌 RTK 肝细胞生长因子受体 (MET)、表皮生长因子受体 (EGFR) 和人表皮生长因子受体 2 (HER2) 之间的串扰与肿瘤对 RTK 靶向疗法的耐药性有关。方法:在相关肾细胞癌患者来源的异种移植模型中,我们使用 89 Zr 标记的抗 RTK 抗体 (免疫 PET) 奥那妥珠单抗、帕尼单抗和曲妥珠单抗分别监测 MET、EGFR 和 HER2 蛋白水平,在使用模型对其有耐药性(西妥昔单抗)或敏感(INC280 和曲美替尼)的药物治疗期间。结果:西妥昔单抗治疗导致肿瘤持续生长,以及免疫 PET 和细胞水平的离体肿瘤中所有 RTK 蛋白水平增加。相反,在双重 MET/丝裂原活化蛋白激酶抑制后,肿瘤生长明显减缓,并且与 RTK 水平降低相对应。结论:这些数据表明 RTK 靶向免疫 PET 可用于注释 RTK 蛋白表达变化并告知肿瘤对靶向治疗的反应。
Magellanmapper是一款软件套件,旨在以内存有效的方式进行大型,3D脑成像数据集的视觉检查和端到端自动处理。迅速增长的大容量,高分辨率数据集需要在宏观和微观水平上可视化原始数据,以评估数据和自动化处理的质量,以量化数据的方式,以对大量样品进行比较。为了促进这些分析,MagellanMapper提供了用于手动检查的图形用户界面,也提供了用于自动图像处理的命令行界面。在宏观级别上,图形接口允许研究人员在每个维度中同时查看完整的体积图像并注释解剖标签位置。在显微镜水平上,研究人员可以在高分辨率下检查感兴趣的区域,以构建细胞位置(例如核位置)的地面真相数据。使用命令行界面,研究人员可以在体积图像上自动化细胞检测,改进解剖图集标签以适合基本的组织学,将这些地图集注册以采样图像,并通过解剖区域进行统计分析。MagellanMapper利用建立的开源计算机视觉库,本身就是开源,可以免费下载和扩展。
深度学习已成功应用于 EEG 数据,用于睡眠分期、癫痫发作检测和伪影识别。然而,自动注释的性能还不足以在临床环境中取代经过训练的注释者。因此,我们提出了一个决策支持系统来帮助人类注释者更快、更有效地工作。作为解决这些挑战的第一步,我们在 Python 中开发了 Robin's Viewer (RV),它基于绘图库 Plotly 和流行的 M/EEG 分析工具箱 MNE。目标是创建一个独立于平台的交互式 Web 应用程序,它是开源的,支持许多常见的 EEG 文件格式,以便于与各种 EEG 工具箱轻松集成。RV 包括其他 EEG 查看器的许多常见功能,例如视图滑块、标记坏通道和瞬态伪影以及可自定义的预处理。 RV 与现有 EEG 查看器的主要区别在于,它能够可视化经过训练以识别 EEG 数据中的模式的深度学习模型的输出预测。其结果是为科学家和临床医生提供了一个决策支持系统,他们可以使用 RV 来注释伪影、睡眠阶段、异常和其他分类任务。25
经常出现的皮质唤醒与睡眠呼吸呼吸的人的心血管功能障碍有关。心率变异性(HRV)的变化可以代表与自主神经系统功能障碍相关的病理状况。先前的研究表明,由于皮质唤醒引起的心脏活性变化。然而,很少有研究检查了种族多样化的人群中皮质唤醒和HRV之间的瞬时关联。在这项研究中,我们在动脉粥样硬化数据集的多种族研究中包括了1,069个受试者来自无人看管的多聚会学的全夜心电图信号。采用了一种自动的深度学习工具来注释ECG信号的唤醒事件。通过时间分析对每个唤醒事件的病因(例如,呼吸道或自发)进行了分类。时间结构域HRV和平均心率是根据每个唤醒事件的25 s期间的前,内部和后段和后部段计算的。我们观察到,在唤醒片段的唤醒弹药过程中,心率和HRV升高,这与唤醒病因有关。此外,HRV对皮质唤醒发生的反应因性别和唤醒发生的睡眠阶段而有所不同。女性唤醒引起的更强烈的HRV变异可能会导致唤醒负担与长期死亡率之间的潜在较强的关联。由唤醒引起的REM中过度的突然交感神经升高可能会提供有关睡眠与猝死之间关联的见解。
新孢子虫主要感染牛,导致牛流产,估计每年对全球经济造成 10 亿美元的损失。然而,对其生物学的研究一直被忽视,因为既定范式认为它与其近亲、广泛研究的人类病原体弓形虫几乎完全相同。通过使用第三代测序技术重新审视基因组序列、组装和注释,我们在此表明,新孢子虫基因组最初是在与弓形虫同源的假设下错误组装的。我们表明这些物种之间发生了重大染色体重排。重要的是,我们表明最初命名为 Chr VIIb 和 VIII 的染色体确实融合了,从而将新孢子虫和弓形虫的核型都减少到 13 条染色体。我们重新注释了新孢子虫基因组,揭示了 500 多个新基因。我们对非光合质体和线粒体基因组进行了测序和注释,并表明尽管顶质体基因组几乎相同,但物种和菌株之间存在高水平的基因碎片化和重组。我们的结果纠正了目前在 N. caninum 和 T. gondii 基因组数据库中广泛分布的组装伪影,更重要的是,突出了线粒体是以前被忽视的变异源,并为改变同源性范式铺平了道路,鼓励重新思考基因组作为这些病原体比较独特生物学的基础。