摘要:机器学习 (ML) 识别共价配位位点可能会加速靶向共价抑制剂的设计,并有助于扩大可用药的蛋白质组空间。本文我们报告了基于树的模型和卷积神经网络 (CNN) 的严格开发和验证,这些模型和神经网络是在新近整理的数据库 (LigCys3D) 上训练的,该数据库包含近 800 种蛋白质中的 1,000 多个配位半胱氨酸,由蛋白质数据库中的 10,000 多个三维结构代表。树模型和 CNN 的未见测试分别产生了 94% 和 93% 的 AUC(受试者工作特征曲线下面积)。基于 AlphaFold2 预测的结构,ML 模型以超过 90% 的召回率重现了 PDB 中新配位的半胱氨酸。为了协助共价药物发现社区,我们报告了 392 种人类激酶中预测的可配体半胱氨酸及其在序列比对激酶结构(包括 PH 和 SH2 结构域)中的位置。此外,我们还发布了可搜索的在线数据库 LigCys3D(https://ligcys.computchem.org/)和网络预测服务器 DeepCys(https://deepcys.computchem.org/),这两个数据库都将通过包含新发布的实验数据不断更新和改进。本研究代表了迈向由机器学习主导的大型基因组数据和结构模型集成的第一步,旨在为下一代共价药物发现注释人类蛋白质组空间。
由于带注释的样本稀缺,病理性脑损伤在图像数据中的复杂表现对监督检测方法提出了挑战。为了克服这个困难,我们将重点转移到无监督异常检测。在这项工作中,我们专门使用健康数据训练所提出的模型,以识别测试期间未见的异常。这项研究需要调查基于三元组的变分自动编码器,以同时学习健康脑数据的分布和去噪能力。重要的是,我们纠正了先前基于投影的方法中固有的一个误解,该误解依赖于这样的假设:图像内的健康区域在重建输出中将保持不变。这无意中暗示了病变图像和无病变图像在潜在空间表示上存在相当大的相似性。然而,这种假设可能并不成立,特别是由于病变区域强度对投影过程的潜在重大影响,特别是对于具有单一信息瓶颈的自动编码器。为了克服这个限制,我们将度量学习与潜在采样分离。这种方法确保病变和无病变输入图像都投影到相同的分布中,特别是无病变投影。此外,我们引入了一个语义引导的门控交叉跳过模块来增强空间细节检索,同时抑制异常,利用解码器更深层中存在的健壮健康大脑表示语义。我们还发现,将结构相似性指数测量作为额外的训练目标可以增强所提模型的异常检测能力。
部分 总权重 A 阅读技巧 20 MB 写作技巧 24 MC 语法 10 MD 文学教科书 26 M 总计 80 M 部分 A:阅读技巧(10+10=20 分) • 此部分将包含两段未见的文章,最高字数限制为 600 字。文章可以是以下任意两种类型:文学/事实/散文。请参阅主要课程书。 • 客观题(包括多项选择题)和简答题将用于测试推理、评价、分析和上下文词汇。 部分 B:写作技巧 24 分 本部分将包含各种短篇和长篇写作任务。 • 为学校集会/居民福利协会/学校活动/课堂信息等撰写通知(最多 50 字)4 分 • 对话写作(最多 100 字)5 分 • 非正式信函(最多 120 字)7 分 • 根据口头或视觉提示,就主课书中的两个主题之一写一段话(最多 150 字)8 分 C 部分:语法 10 分 语法项目将在一段时间内教授和评估。 1. 时态 2. 情态动词 1. 主语 - 动词一致 2. 间接引语 (i)命令和请求 (ii)陈述 (iii)问题 3. 从句: (i)名词从句 (ii)副词从句 (iii)关系从句 4. 限定词 以上项目可以通过以下测试类型进行测试: • 填空 3 分 • 编辑或省略 4 分
药物-靶标相互作用 (DTI) 预测是药物再利用领域中一项相关但具有挑战性的任务。计算机模拟方法引起了特别的关注,因为它们可以降低传统方法的相关成本和时间投入。然而,当前最先进的方法存在几个局限性:现有的 DTI 预测方法在计算上成本高昂,从而阻碍了使用大型网络和利用可用数据集的能力,并且 DTI 预测方法对未见数据集的推广仍未探索,这可能会在准确性和稳健性方面改善 DTI 推断方法的开发过程。在这项工作中,我们介绍了 GE NN IUS(图嵌入神经网络相互作用发现系统),这是一种基于图神经网络 (GNN) 的方法,在各种数据集的准确性和时间效率方面均优于最先进的模型。我们还通过评估每个数据集中以前未知的 DTI 展示了其发现新相互作用的预测能力。我们通过在不同数据集上训练和测试 GE NN IUS 进一步评估了其泛化能力,结果表明该框架可以通过在大型数据集上训练并在较小的数据集上测试来潜在地改进 DTI 预测任务。最后,我们定性地研究了 GE NN IUS 生成的嵌入,发现 GNN 编码器在图卷积之后保留了生物信息,同时通过节点传播这些信息,最终在节点嵌入空间中区分蛋白质家族。
摘要 — 由于脑电图 (EEG) 的受试者间/受试者内变异性,脑机接口 (BCI) 在实践中难以使用。通常,BCI 系统需要一种校准技术来获取受试者/会话特定数据,以便在每次使用系统时调整模型。这个问题被认为是 BCI 的一个主要障碍,最近出现了一种基于领域泛化的新策略来解决它。鉴于此,我们专注于开发一个 EEG 分类框架,该框架可以直接应用于来自未知域(即受试者)的数据,仅使用先前从不同受试者获得的数据。为此,在本文中,我们提出了一个框架,该框架采用开放集识别技术作为辅助任务,从源数据集中学习特定于主题的风格特征,同时帮助共享特征提取器将看不见的目标数据集的特征映射为新的看不见的域。我们的目标是在同一域中施加跨实例样式不变性,并降低潜在未见主体的开放空间风险,以提高共享特征提取器的泛化能力。我们的实验表明,使用域信息作为辅助网络可以提高泛化性能。临床相关性——本研究提出了一种提高独立于主体的 BCI 系统性能的策略。我们的框架可以帮助减少进一步校准的需要,并可用于一系列心理状态监测任务(例如神经反馈、癫痫发作的识别和睡眠障碍)。
在现实条件下评估心理负荷是确保执行需要持续注意力的任务的工人表现的关键。先前的文献已经为此采用了脑电图 (EEG),尽管已经观察到脑负荷与脑电图的相关性因受试者和身体压力而异,因此很难设计出能够同时呈现不同用户可靠表现的模型。领域适应包括一组策略,旨在提高机器学习系统在训练时对未见数据的性能。然而,这些方法可能依赖于对所考虑的数据分布的假设,而这些假设通常不适用于 EEG 数据的应用。受这一观察的启发,在这项工作中,我们提出了一种策略来估计从不同受试者收集的数据中观察到的多种数据分布之间的两种差异,即边际和条件偏移。除了阐明对特定数据集成立的假设之外,使用所提出的方法获得的统计偏移估计值还可用于研究机器学习管道的其他方面,例如定量评估领域适应策略的有效性。具体来说,我们考虑了从在跑步机上跑步和在固定自行车上踩踏板时执行心理任务的个体收集的脑电图数据,并探索了通常用于减轻跨受试者变异性的不同标准化策略的影响。我们展示了不同的标准化方案对统计变化的影响,以及它们与在训练时对未见过的参与者进行评估的心理工作量预测准确性的关系。
摘要 — 目标:当存在多个声源时,当前助听器中的降噪算法缺乏有关用户关注的声源的信息。为了解决这个问题,它们可以与听觉注意解码 (AAD) 算法相辅相成,该算法使用脑电图 (EEG) 传感器解码注意力。最先进的 AAD 算法采用刺激重建方法,其中关注源的包络从 EEG 重建并与各个源的包络相关。然而,这种方法在短信号段上表现不佳,而较长的片段在用户切换注意力时会产生不切实际的长检测延迟。方法:我们提出使用滤波器组公共空间模式滤波器 (FB-CSP) 解码注意力的方向焦点作为替代 AAD 范式,它不需要访问干净的源包络。结果:提出的 FB-CSP 方法在短信号段上的表现优于刺激重建方法,在相同任务上的表现也优于卷积神经网络方法。我们实现了高精度(1 秒窗口为 80%,准瞬时决策为 70%),足以实现低于 4 秒的最小预期切换持续时间。我们还证明解码器可以适应来自未见对象的未标记数据,并且仅使用位于耳朵周围的部分 EEG 通道来模拟可穿戴 EEG 设置。结论:提出的 FB-CSP 方法可以快速准确地解码听觉注意力的方向焦点。意义:在非常短的数据段上实现高精度是朝着实用的神经引导听力设备迈出的重要一步。
摘要 — 目标:当存在多个声源时,当前听力假体中的降噪算法缺乏有关用户关注的声源的信息。为了解决这个问题,可以将它们与听觉注意力解码 (AAD) 算法相结合,该算法使用脑电图 (EEG) 传感器直接从大脑解码注意力。最先进的 AAD 算法采用刺激重建方法,其中关注源的包络从 EEG 重建并与各个源的包络相关联。然而,这种方法在短信号段上表现不佳,而较长的片段在用户切换注意力时会产生不切实际的长检测延迟。方法:我们提出使用滤波器组通用空间模式滤波器 (FB-CSP) 解码注意力的方向焦点作为替代 AAD 范式,它不需要访问干净的源包络。结果:提出的 FB-CSP 方法在同一任务上优于传统刺激重建方法以及卷积神经网络方法。我们实现了高精度(1 秒窗口为 80%,准瞬时决策为 70%),足以实现低于 4 秒的最小预期切换持续时间。我们还证明该方法可用于未见受试者的未标记数据,并且仅使用位于耳朵周围的部分 EEG 通道来模拟可穿戴 EEG 设置。结论:提出的 FB-CSP 方法可以快速准确地解码听觉注意力的方向焦点。意义:在非常短的数据段上实现高精度是朝着实用神经引导听力假体迈出的重要一步。
多智能体轨迹预测是一项基础任务,可应用于自动驾驶、物理系统建模和智慧城市等各个领域。该任务具有挑战性,因为智能体交互和底层连续动力学共同影响其行为。现有方法通常依赖图神经网络 (GNN) 或 Transformer 来提取智能体交互特征。然而,它们往往忽略了智能体之间的距离和速度信息如何动态地影响它们的交互。此外,以前的方法使用 RNN 或一阶常微分方程 (ODE) 来模拟时间动态,这可能缺乏对每个智能体如何受交互驱动的解释性。为了应对这些挑战,本文提出了 Agent Graph ODE,这是一种显式模拟智能体交互和连续二阶动力学的新方法。我们的方法采用变分自编码器架构,在编码器模块中结合了具有距离信息的时空Transformer和动态交互图的构建。在解码器模块中,我们采用具有距离信息的GNN来建模智能体交互,并使用耦合的二阶微分方程(ODE)来捕捉底层的连续动力学,该微分方程通过建模加速度和智能体交互之间的关系来构建模型。实验结果表明,我们提出的Agent Graph ODE在预测精度方面优于最先进的方法。此外,我们的方法在训练数据集中未见的突发情况下也表现良好。
摘要 MRI 已被广泛用于识别自闭症谱系障碍 (ASD) 的解剖和功能差异。然而,许多这些发现已被证明难以复制,因为研究依赖于小规模的队列,并且建立在许多复杂、未公开的分析选择之上。我们进行了一项国际挑战,以根据 MRI 数据预测 ASD 诊断,我们提供了来自 2,000 多人的预处理解剖和功能 MRI 数据。对预测的评估是严格盲测的。146 名挑战者提交了预测算法,这些算法在挑战结束时使用未见数据和额外的采集站点进行了评估。对于最佳算法,我们研究了 MRI 模式、大脑区域和样本量的重要性。我们发现证据表明 MRI 可以预测 ASD 诊断:10 个最佳算法可靠地预测了诊断,AUC~0.80 - 远远优于目前使用 20 倍大队列中的基因分型数据可以获得的结果。我们观察到功能性 MRI 对预测比解剖性 MRI 更重要,并且增加样本量可以稳步提高预测准确性,从而为改进生物标志物提供了一种有效的策略。我们还观察到,尽管有强烈的动机将其推广到看不见的数据,但给定数据集上的模型开发面临着过度拟合的风险:在现有数据的交叉验证中表现良好,但不能推广。最后,我们能够在挑战结束后添加的外部样本 (EU-AIMS) 上预测 ASD 诊断,尽管预测准确性较低 (AUC=0.72)。这表明,尽管基于大型多站点队列,但我们的挑战仍然产生了在数据集变化面前脆弱的生物标志物。