监督的机器学习模型依赖于具有正面(目标类)和负面示例的培训数据集。因此,培训数据集的组成对模型性能有直接影响。具体来说,关于不代表目标类别的样品的负样本选择偏见,在诸如文本分类和蛋白质 - 蛋白质相互作用预测等范围内提出了挑战。基于机器学习的免疫治疗设计是一个越来越重要的研究领域,重点是设计抗体或T细胞受体(TCR),可以与其具有高特异性和亲和力的靶标分子结合。鉴于免疫治疗药物的生物医学重要性,有必要解决负面训练集成分如何影响模型概括和生物学规则发现以实现合理和安全的药物设计的尚未解决的问题。我们着手在抗体 - 抗原结合预测问题的背景下通过改变负面类别,包括结合亲和力梯度来研究这个问题。我们的研究基于提供基于地面真理结构抗体 - 抗原结合数据的大型合成数据集,从而使结合界面上的残基结合能访问了残基的结合能。我们发现,分布式概括和绑定规则发现都取决于所使用的负数据集的类型。重要的是,我们发现模型学习正数据集的绑定规则的能力并不是其分类精度的微不足道相关性。我们通过现实世界中相关的实验数据确认了我们的发现。我们的工作强调了考虑培训数据集组成在基于机器学习的研究中实现最佳分布性能和规则学习的重要性。
监督的机器学习模型依赖于具有正面(目标类)和负面示例的培训数据集。因此,培训数据集的组成对模型性能有直接影响。具体来说,关于不代表目标类别的样品的负样本选择偏见,在诸如文本分类和蛋白质 - 蛋白质相互作用预测等范围内提出了挑战。基于机器学习的免疫治疗设计是一个越来越重要的研究领域,重点是设计抗体或T细胞受体(TCR),可以与其具有高特异性和亲和力的靶标分子结合。鉴于免疫治疗药物的生物医学重要性,有必要解决负面训练集成分如何影响模型概括和生物学规则发现以实现合理和安全的药物设计的尚未解决的问题。我们着手在抗体 - 抗原结合预测问题的背景下通过改变负面类别,包括结合亲和力梯度来研究这个问题。我们的研究基于提供基于地面真理结构抗体 - 抗原结合数据的大型合成数据集,从而使结合界面上的残基结合能访问了残基的结合能。我们发现,分布式概括和绑定规则发现都取决于所使用的负数据集的类型。重要的是,我们发现模型学习正数据集的绑定规则的能力并不是其分类精度的微不足道相关性。我们通过现实世界中相关的实验数据确认了我们的发现。我们的工作强调了考虑培训数据集组成在基于机器学习的研究中实现最佳分布性能和规则学习的重要性。
过去 20 年来,我们对基因调控特异性的认识发生了深刻变化。以前,人们认为调控因子控制着少数基因,通过“钥匙和锁”机制以精确的特异性识别。但最近,对调控因子结合位点占有率(无论是在 DNA 还是 RNA 靶标上)的全基因组探索揭示了每个研究调控因子的大量分子靶标列表。如此差的生化特异性表明每个调控因子控制许多基因,共同影响生物表型。在这里,我提出了第三种模型,即调控因子的生物特异性仅部分归因于“钥匙和锁”生物化学。相反,调控因子在微观尺度上影响许多基因,但大多数相互作用的生物学后果在中观尺度上被减弱:只有少数调控事件从微观传播到宏观尺度,其他调控事件因稳态机制而变得无关紧要。该模型得到了 microRNA 文献的充分支持,数据表明它扩展到其他调控因子。它一方面调和了来自生物化学和比较基因组学的矛盾观察结果,另一方面又调和了来自体内遗传学的矛盾观察结果,但这种概念上的统一却被常见的误解和违反直觉的图形显示模式所掩盖。要深刻理解基因调控,需要澄清概念,以及更适合的统计分析和图形表示。
学习通才体现的代理,能够解决不同领域中的多种任务是一个长期存在的问题。强化学习(RL)很难扩大规模,因为它需要为每个任务进行复杂的奖励设计。相比之下,语言可以以更自然的方式指定任务。当前的基础视觉模型(VLMS)通常需要进行微调或其他适应性,这是由于显着的域间隙在实施情况下被采用的。但是,此类域中缺乏多模式数据代表了开发用于具体应用的基础模型的障碍。在这项工作中,我们通过介绍多模式基础世界模型来克服这些问题,能够将基础VLM的表示和对齐为RL的潜在生成世界模型的潜在空间,而无需任何语言注释。最终的代理学习框架GenRL允许人们通过视觉和/或语言提示指定任务,将其扎根在体现的域的动态中,并学习想象中的相应行为。通过机车和操纵域中的大规模多任务基准测试评估,GenRL可以通过语言和视觉提示来实现多任务概括。此外,通过引入无数据的政策学习策略,我们的方法为使用生成世界模型的基础政策学习奠定了基础。
脑肿瘤死亡率高,治疗选择有限,是全球重大健康问题。这些肿瘤是由脑内细胞异常生长引起的,大小和形状各异,因此,对于医疗专业人员来说,通过磁共振成像 (MRI) 扫描手动检测它们是一项主观且具有挑战性的任务,因此需要自动化解决方案。本研究探讨了深度学习(特别是 DenseNet 架构)自动化脑肿瘤分类的潜力,旨在提高临床应用的准确性和通用性。我们利用了 Figshare 脑肿瘤数据集,该数据集包含 233 名患者的 3,064 张 T1 加权增强 MRI 图像,这些患者患有三种常见肿瘤类型:脑膜瘤、神经胶质瘤和垂体瘤。使用来自 ImageNet 的迁移学习评估了四种预训练的深度学习模型——ResNet、EfficientNet、MobileNet 和 DenseNet。DenseNet 实现了最高的测试集准确率 96%,优于 ResNet(91%)、EfficientNet(91%)和 MobileNet(93%)。因此,我们专注于提高 DenseNet 的性能,同时将其视为基础模型。为了增强基础 DenseNet 模型的通用性,我们实施了一种微调方法,该方法采用了正则化技术,包括数据增强、dropout、批量归一化和全局平均池化,并结合了超参数优化。这种增强的 DenseNet 模型实现了 97.1% 的准确率。我们的研究结果证明了 DenseNet 结合迁移学习和微调对脑肿瘤分类的有效性,凸显了其在临床环境中提高诊断准确性和可靠性的潜力。
人类和动物擅长从有限的数据中进行泛化,这种能力尚未被人工智能完全复制。本视角研究生物和人工深度神经网络 (DNN) 在分布内和分布外环境下的泛化能力。我们提出两个假设:首先,与离散认知实体(如物体、词语和概念)相关的神经流形的几何性质是强大的序参量。它们将神经基础与泛化能力联系起来,并提供一种统一的方法论来弥合神经科学、机器学习和认知科学之间的差距。我们概述了神经流形几何研究的最新进展,特别是在视觉物体识别方面,并讨论了将流形维数和半径与泛化能力联系起来的理论。其次,我们认为广度 DNN 的学习理论,尤其是在热力学极限下的学习理论,为生成所需神经表征几何和泛化的学习过程提供了机制上的见解。这包括权重范数正则化、网络架构和超参数的作用。我们将探讨该理论的最新进展和持续面临的挑战。我们还将讨论学习的动态及其与大脑表征漂移问题的相关性。
洛斯阿拉莫斯国家实验室是一家采取平权行动/提供平等机会的雇主,由 Triad National Security, LLC 为美国能源部国家核安全局运营,合同编号为 89233218CNA000001。通过批准本文,出版商承认美国政府保留非独占的、免版税的许可,可以为了美国政府的目的出版或复制本文的已发表形式,或允许他人这样做。洛斯阿拉莫斯国家实验室要求出版商将本文注明为在美国能源部的支持下完成的工作。洛斯阿拉莫斯国家实验室坚决支持学术自由和研究人员的发表权利;但是,作为一个机构,实验室并不认可出版物的观点,也不保证其技术上的正确性。
了解神经网络在看不见的数据上如何概括对于设计更健壮和可靠的模型至关重要。在本文中,我们使用拓扑数据分析的方法研究了神经网络的概括差距。为此,我们计算训练阶段后神经元激活相关性构建的加权图的同源持久图,旨在捕获与网络的通用能力相关的模式。我们比较了持久图的不同数值摘要的有用性,并表明其中一些可以准确预测并部分解释概括差距而无需测试集。对两项计算机视觉识别任务(CIFAR10和SVHN)的评估显示,与最新方法相比,竞争性的泛化差距预测。
了解神经网络在看不见的数据上如何概括对于设计更多的易萧条和可靠的模型至关重要。在本文中,我们使用拓扑数据分析的方法研究了神经网络的概括差距。为此,我们计算训练阶段后神经元激活相关性构建的加权图的同源持久图,旨在捕获与网络的通用能力相关的模式。我们比较了持久图的不同数值摘要的有用性,并表明其中一些可以准确预测并部分解释生成间隙而无需测试集。对两项计算机视觉识别任务(CIFAR10和SVHN)的评估显示,与最新方法相比,竞争性的泛化差距预测。
面对新的预测或分类任务时,最明显的是哪种机器学习算法最适合。一种常见的方法是评估一组机器学习者在数据的保留分区或通过交叉验证的性能,然后选择最小化所选损失指标的机器学习者。但是,这种方法是不完整的,因为将多个学习者组合为一个最终预测可能会导致与每个学习者相比,可能会导致卓越的表现。这种可能性激发了堆积的概括,或者只是“堆叠”(参见Wolpert [1992]和Breiman [1996])。堆叠是模型平均形式。Van der Laan,Polley和Hubbard(2007)的理论结果支持堆叠的使用,因为它至少是渐近的,并且只要基础学习者的数量不大。