DNA结合蛋白在不同的生物学过程中至关重要,包括DNA复制,转录,包装和染色质重塑。探索它们的特征和功能已与各种科学领域相关。计算生物学和生物信息学有助于研究DNA结合蛋白,补充了传统的分子生物学方法。虽然机器学习的最新进展使预测系统与生物信息学方法的整合在一起,但仍需要有可推广的管道来将未知蛋白识别为DNA结合,并评估他们识别的特定类型的DNA链。在这项工作中,我们介绍了Rudeus,这是一个python库,其具有层次分类模型,旨在识别DNA结合程序并评估特定的相互作用类型,无论是单链还是双链。Rudeus具有多功能管道,能够训练预测模型,通过监督学习算法协同蛋白质语言模型,并整合贝叶斯优化策略。训练有素的模型具有高性能,DNA结合识别的精确率为95%,单链和双链相互作用之间的辨别率为89%。Rudeus包括一个用于评估未知蛋白序列的探索工具,将其注释为DNA结合,并确定其识别的DNA链的类型。结构性生物信息学管道已被整合到Rudeus中,以通过DNA-蛋白质分子对接验证已鉴定的DNA链。这些全面的策略和直接实施表现出与高端模型的可比性,并增强了将其集成到蛋白质工程管道中的可用性。
科学机器学习是指将机器学习与传统科学方法相结合,近年来已成为一种强大的工具。本论文建立了创新的机器学习方法,结合了物理学、数值分析和计算机科学的知识,用于自动发现量子控制方案和相图。从概念上讲,给定量子系统的(时间相关)汉密尔顿量或林德布拉量,很容易确定其在固定初始状态下的时间演化。根据物理环境,我们将用普通或随机微分方程来描述动力学。控制量子系统的(随机)动力学需要解决逆问题,这在量子计量和信息处理等领域是不可或缺的。然而,通过从头开始推导高性能控制方案来解决控制问题通常很困难。特别是,最好开发能够对系统波动作出反应的反馈控制器,使其成为非常强大的控制系统。到目前为止,还没有通用的现成方法来设计有效的控制策略,因为现有的基于黑盒强化学习的方法很难优化。在这篇论文的第一部分,我们提出了一种基于可微分编程范式的自动控制方案设计,这使我们能够利用有关物理系统结构的先验知识。具体来说,我们采用一种神经网络形式的控制器,该控制器根据当前量子态或观察到的测量记录选择在每个时间步中要应用的控制驱动。神经网络参数在一系列时期内根据通过 (伴随) 灵敏度方法计算的梯度信息进行优化。我们在各种场景中展示了我们的方法,例如进行同相检测的量子比特的状态准备和稳定。同相检测信号仅包含有关系统实际状态的最小信息,被不可避免的光子数波动所掩盖。在第二部分中,我们开发了两种数据驱动的方法来自动识别物理系统中的相边界。第一种方法基于训练预测模型(例如神经网络),以根据物理系统的状态推断其参数。推断出的参数与正确的底层参数之间的偏差最容易受到影响,并且在相边界附近指向相反的方向。因此,模型预测的矢量场发散中的峰值揭示了相变。这种基于预测的方法适用于任意参数维度的相图,而无需有关相的先验信息。我们将该方法应用于二维 Ising 模型、Wegner 的 Ising 规范理论、广义环面代码、Falicov-Kimball 模型和耗散的 Kuramoto-Hopf 模型。作为第二种方法,我们引入了一种基于(适当)输入特征选择的物理驱动、计算上有利且可解释的方法。该方法依赖于平均输入特征之间的差异作为相变的指标,而不使用预测模型。至关重要的是,这种基于均值的方法可以直接洞察揭示的相图,而无需事先标记或了解其相。作为一个例子,我们考虑物理上丰富的
第 1 章 总则,1.1 目的,第 8 页 1.2 范围,第 8 页 1.3 缩写和术语解释,第 8 页 1.4 适用性,第 8 页 1.5 偏差和修正,第 8 页 第 2 章 职责 2.1 DOE-萨凡纳河联络点 (DOE-SR POC),第 10 页 2.2 DOE-整合和规划助理经理 (AMIP),第 10 页 2.3 SRNS 接口管理办公室,第 10 页 2.4 计划、培训、动员和安全局 (DPTMS),第 10 页 2.5 DPTMS 首席培训部,第 10 页 2.6 戈登堡靶场控制运营,第 10 页 2.7 戈登堡设施靶场经理,第 10 页 2.8 戈登堡靶场控制、萨凡纳河场地训练设施协调员(TFC),第 10 页 2.9 营/中队指挥官,第 10 页 2.10 主管军官 (OIC) 和靶场安全官 (RSO),第 11 页 第 3 章 训练活动规划和批准流程 3.1 总则,第 11 页 3.2 场地使用批准,第 11 页 3.3 支持成本,第 12 页 3.4 年度训练预测,第 12 页 年度训练流程图,第 13 页 3.5 SRS 训练区域规划图,第 12 页 3.6 30、60、90 天通知流程,第 14 页 3.6.1 90 天通知,第 14 页 3.6.2 60 天计划和协调会议,第 14 页 3.6.3 30 单位协调包提交,第 14 页 3.7 短期通知训练活动,第 15 页3.8 安全计划/流程,第 15 页 第 4 章 访问控制 4.1 访问/出口,第 16 页 4.2 履带式车辆,第 16 页 4.3 设备清单,第 16 页 4.4 禁止携带物品,第 16 页 4.5 SRS 单位入职介绍简报,第 17 页 4.6 无徽章陆军人员地面访问 – 协调说明,第 17 页 4.6.1.人员出入名册,第 17 页 4.6.2 人员名册的新增内容,第 17 页 4.6.3 人员名册的删除内容,第 17 页 4.6.4 拒绝陆军人员出入,第 17 页 4.7 徽章程序,第 18 页 4.7.1 临时场地徽章,第 18 页 4.7.2 永久场地徽章,第 18 页 4.8 萨凡纳河场地 (SRS) 限制区域,第 19 页 4.9 私人车辆,第 19 页 4.10 用于场地访问和侦察训练设施的政府车辆 (GOV) 和战术车辆出入,第 19 页 4.11 陆军轮式车辆的 SRS 周边大门出入,第 20 页
用于空间领域感知应用的加速 AI 驱动大气预测 丹尼·费尔顿 诺斯罗普·格鲁曼公司 玛丽·艾伦·克拉多克、希瑟·凯利、兰德尔·J·阿利斯、埃里克·佩奇、杜安·阿普林 诺斯罗普·格鲁曼公司 摘要 太空激光和监视应用经常受到大气效应的影响。气溶胶、云和光学湍流引起的大气衰减和扭曲会产生有害影响,从而对任务结果产生负面影响。2019 年 AMOS 会议上简要介绍的一篇论文介绍了 2017 年在哈莱阿卡拉峰安装的地面仪器。这些仪器仍在积极收集数据,它们正在提供前所未有的空间环境实时表征,包括精确的大气传输损耗。虽然实时测量是理解和表征空间环境的第一步,但仅靠它们是不够的。为了优化任务规划,许多应用都需要对空间环境进行准确的短期大气预测。虽然大气预报并不是什么新鲜事,但最近随着 21 世纪人工智能 (AI) 技术的应用,大气预报的技能得到了极大提升。这些技术是高性能计算 (HPC) 和深度学习 (DL) 的结合。本演讲的主题是使用来自地面大气收集系统的 TB 级数据训练预测模型,并使用图形处理单元 (GPU) 加速其训练和推理的能力。本研究侧重于预测的三个时间尺度。这些时间尺度包括短期(0 到 60 分钟)、中期(1 小时到 3 小时)和长期(3 到 48 小时)。这些时间尺度代表激光和/或监视应用和任务的各种决策点。在短期预测情况下,多种 DL 技术应用于从光学地面站 (OGS) 收集的本地数据。这些 DL 技术包括使用 U-Net 卷积神经网络和多层感知器 (MLP) 和随机森林 (RF) 模型的集合。 MLP 用于从激光云高仪和红外云成像仪 (ICI) 等仪器收集的点数据。对于中间时间尺度,卷积长短期记忆 (LSTM) 网络和 U-Net 均使用来自 NOAA 地球静止卫星云图集合的图像进行训练。最后,组合 U-Net 和自动编码器神经网络用于训练由 HPC 数值天气预报 (NWP) 模型模拟的大气预测器以进行长期预测。NWP 会产生许多 TB 的数据,因此,使用这些神经网络是优化其预测能力的理想选择。本研究利用了多种 HPC 资源。其中包括由四个 NVIDIA Tesla V100 GPU 组成的内部 GPU 节点以及毛伊高性能计算中心 (MHPCC) 的资源。结果表明,在几乎所有情况下,这些预测技术都优于持久性,而且偏差很小。使用 HPC 和 DL 推理实时进行预测的能力是未来的重点,将在会议上报告。1. 简介大气衰减和失真降低了太空激光和监视应用的功效。特别是,云层可以部分或完全遮挡目标,并阻止或要求降低光通信系统的数据速率。但是,通过准确表征和预测大气影响,可以减轻许多负面影响。本研究的目的是开发和完善一种最先进的大气预测系统,该系统可生成高分辨率的大气衰减预测,以支持太空激光和监视应用的决策辅助。为了实现这一目标,HPC 和 AI 的进步与数 TB 的高分辨率地面和太空大气数据集合相结合。多种 HPC 资源用于处理本研究所需的地面和卫星数据,并使用四个 NVIDIA Tesla V100 GPU 加速 AI 预测技术的训练和推理。该技术用于进行多时间尺度大气预测:1 小时预测、2 小时以上预测和 48 小时预测。最长 1 小时;最长 2+ 小时;最长 48 小时。最长 1 小时;最长 2+ 小时;最长 48 小时。