偏向多数人群的算法偏差对机器学习在精准医疗中的应用构成了关键挑战。在本文中,我们评估了脑功能磁共振成像行为表型预测模型中的这种偏差。我们使用两个由混合族裔/种族组成的独立数据集(青春期前与成年)检查了预测偏差。当使用以白人美国人(WA)为主的数据训练预测模型时,非裔美国人(AA)的样本外预测误差通常高于 WA。这种对 WA 的偏差对应于模型学习到的更多类似 WA 的大脑行为关联模式。当仅使用 AA 训练模型时,与仅使用 WA 或相同数量的 AA 和 WA 参与者进行训练相比,AA 预测准确度有所提高,但仍低于 WA。总体而言,结果表明,需要谨慎对待当前大脑行为预测模型在少数族裔人群中的应用,并进行进一步研究。
监督的机器学习模型依赖于具有正面(目标类)和负面示例的培训数据集。因此,培训数据集的组成对模型性能有直接影响。具体来说,关于不代表目标类别的样品的负样本选择偏见,在诸如文本分类和蛋白质 - 蛋白质相互作用预测等范围内提出了挑战。基于机器学习的免疫治疗设计是一个越来越重要的研究领域,重点是设计抗体或T细胞受体(TCR),可以与其具有高特异性和亲和力的靶标分子结合。鉴于免疫治疗药物的生物医学重要性,有必要解决负面训练集成分如何影响模型概括和生物学规则发现以实现合理和安全的药物设计的尚未解决的问题。我们着手在抗体 - 抗原结合预测问题的背景下通过改变负面类别,包括结合亲和力梯度来研究这个问题。我们的研究基于提供基于地面真理结构抗体 - 抗原结合数据的大型合成数据集,从而使结合界面上的残基结合能访问了残基的结合能。我们发现,分布式概括和绑定规则发现都取决于所使用的负数据集的类型。重要的是,我们发现模型学习正数据集的绑定规则的能力并不是其分类精度的微不足道相关性。我们通过现实世界中相关的实验数据确认了我们的发现。我们的工作强调了考虑培训数据集组成在基于机器学习的研究中实现最佳分布性能和规则学习的重要性。
摘要 - 这项研究介绍了一种新的方法,以实现运动计划,并在FRENET坐标系统中使用增强式学习(RL)代理告知分析算法。该组合直接解决了自主驾驶中适应性和安全性的挑战。运动计划算法对于导航动态和复杂方案至关重要。传统方法缺乏不可预测的环境所需的灵活性,而机器学习技术,尤其是强化学习(RL),具有适应性,但遭受了不稳定和缺乏解释性的困扰。我们独特的解决方案协同RL的动态适应性协同传统运动计划算法的可预测性和稳定性,从而产生了有效管理复杂情况并适应不断变化的环境条件的系统。对我们综合方法的评估显示,碰撞的改善,风险管理的改善以及在多种情况下提高了目标成功率。本研究中使用的代码可作为开放源软件公开使用,可以通过以下链接访问:https://github.com/tum-avs/frenetix-rl。索引术语 - 自适应算法,自动驾驶汽车,避免碰撞,增强学习,机器人学习
监督的机器学习模型依赖于具有正面(目标类)和负面示例的培训数据集。因此,培训数据集的组成对模型性能有直接影响。具体来说,关于不代表目标类别的样品的负样本选择偏见,在诸如文本分类和蛋白质 - 蛋白质相互作用预测等范围内提出了挑战。基于机器学习的免疫治疗设计是一个越来越重要的研究领域,重点是设计抗体或T细胞受体(TCR),可以与其具有高特异性和亲和力的靶标分子结合。鉴于免疫治疗药物的生物医学重要性,有必要解决负面训练集成分如何影响模型概括和生物学规则发现以实现合理和安全的药物设计的尚未解决的问题。我们着手在抗体 - 抗原结合预测问题的背景下通过改变负面类别,包括结合亲和力梯度来研究这个问题。我们的研究基于提供基于地面真理结构抗体 - 抗原结合数据的大型合成数据集,从而使结合界面上的残基结合能访问了残基的结合能。我们发现,分布式概括和绑定规则发现都取决于所使用的负数据集的类型。重要的是,我们发现模型学习正数据集的绑定规则的能力并不是其分类精度的微不足道相关性。我们通过现实世界中相关的实验数据确认了我们的发现。我们的工作强调了考虑培训数据集组成在基于机器学习的研究中实现最佳分布性能和规则学习的重要性。
摘要 - 针对分布(OOD)样本的鲁棒性是轨迹预测模型的关键性能指标。但是,最先进(SOTA)模型的开发和排名是由其在单个竞争数据集上的分布(ID)性能驱动的。我们提出了一个OOD测试协议,该协议在两个大规模运动数据集中均质化数据集和预测任务。,我们基于模型的输入和输出侧的代理轨迹和道路几何形状的多项式表示引入了一种新颖的预测算法。随着模型大小,训练工作和推理时间的较小,我们到达Sota Performence进行ID测试,并显着提高OOD测试中的鲁棒性。在我们的OOD测试方案中,我们进一步研究了SOTA模型的两种增强策略及其对模型概括的影响。强调ID和OOD性能之间的对比度,建议将OOD测试添加到轨迹预测模型的评估标准中。
引言:量子机器学习 (QML) [1] 使用参数化量子电路 [2] 作为统计模型,近年来引起了广泛关注,并被应用于自然科学 [3-8] 或生成建模 [9-13]。即使 QML 模型具有高表达能力 [14] 且在某些特定情况下表现出优于经典模型 [15,16],但在深度神经网络时代,量子计算机 [17] 能获得什么样的优势仍不清楚。另一方面,量子数据可能是应用 QML 的自然范例,量子优势已得到证实 [18]。人们希望可以通过量子传感器 [19] 收集量子数据,并最终直接连接到量子计算机。在本文中,我们模拟了通过在量子设备上直接构建量子数据来处理量子数据的可能性。我们使用变分基态求解器来获得真实基态的近似值,以模拟嘈杂的真实世界数据。具体而言,本信函讨论了使用监督学习方法计算哈密顿量 H 的基态相图。即使已经针对二元情况 [ 20 , 21 ] 探索了类似的问题,具有多个类别 [ 22 ] 并在超导平台上进行了计算 [ 23 ],所有这些方法都受到构造限制,即瓶颈。事实上,由于训练需要标签,并且因为它们是通过分析或数值计算的,这些技术只能加快
引言:量子机器学习 (QML) [1] 使用参数化量子电路 [2] 作为统计模型,近年来引起了广泛关注,并被应用于自然科学 [3-8] 或生成建模 [9-13]。即使 QML 模型具有高表达能力 [14] 且在某些特定情况下表现出优于经典模型 [15,16],但在深度神经网络时代,量子计算机 [17] 能获得什么样的优势仍不清楚。另一方面,量子数据可能是应用 QML 的自然范例,量子优势已得到证实 [18]。人们希望可以通过量子传感器 [19] 收集量子数据,并最终直接连接到量子计算机。在本文中,我们模拟了通过在量子设备上直接构建量子数据来处理量子数据的可能性。我们使用变分基态求解器来获得真实基态的近似值,以模拟嘈杂的真实世界数据。具体而言,本信函讨论了使用监督学习方法计算哈密顿量 H 的基态相图。即使已经针对二元情况 [ 20 , 21 ] 探索了类似的问题,具有多个类别 [ 22 ] 并在超导平台上进行了计算 [ 23 ],所有这些方法都受到构造限制,即瓶颈。事实上,由于训练需要标签,并且因为它们是通过分析或数值计算的,这些技术只能加快
在现实条件下评估心理负荷是确保执行需要持续注意力的任务的工人表现的关键。先前的文献已经为此采用了脑电图 (EEG),尽管已经观察到脑负荷与脑电图的相关性因受试者和身体压力而异,因此很难设计出能够同时呈现不同用户可靠表现的模型。领域适应包括一组策略,旨在提高机器学习系统在训练时对未见数据的性能。然而,这些方法可能依赖于对所考虑的数据分布的假设,而这些假设通常不适用于 EEG 数据的应用。受这一观察的启发,在这项工作中,我们提出了一种策略来估计从不同受试者收集的数据中观察到的多种数据分布之间的两种差异,即边际和条件偏移。除了阐明对特定数据集成立的假设之外,使用所提出的方法获得的统计偏移估计值还可用于研究机器学习管道的其他方面,例如定量评估领域适应策略的有效性。具体来说,我们考虑了从在跑步机上跑步和在固定自行车上踩踏板时执行心理任务的个体收集的脑电图数据,并探索了通常用于减轻跨受试者变异性的不同标准化策略的影响。我们展示了不同的标准化方案对统计变化的影响,以及它们与在训练时对未见过的参与者进行评估的心理工作量预测准确性的关系。
在2022年之前,超过75%的数据库迁移到云环境中,挑战云供应商在SaaS方案中有效地管理物理设计[4]。这是针对动态工作负载和性能维护的快速优化策略。传统的RL模型培训及其静态性质,面临着适应此类数据库不断变化的需求的困难。典型地,数据库环境中的RL模型是用于固定工作负载和设置的,这意味着随着工作负载的进化,可以进行重新训练或适应的必要性[3]。鉴于数据和工作负载的动态性质(恒定状态)构成了重大的实际障碍。重用新的或不断变化的工作负载的重建模型会产生进化计算和时间成本,这是在实时处理至关重要的数据库系统中特别明显的障碍。
Vision语言基础模型(VLFM)显示出令人印象深刻的概括功能,使其适合域概括(DG)任务,例如合成图像的培训和对真实数据的测试。但是,现有评估主要使用由互联网图像构建的学术基准,类似于用于培训VLFM的数据集。本文评估了基于VLFM的DG算法在两个合成到实体分类数据集,Rareplanes Tiles和飞机上的性能,旨在模仿工业文本。我们的发现表明,虽然VLFMS上的基准优于随机初始化的净作品,但在这些类似工业的数据集中,它们的优势大大降低。这项研究强调了评估模型在不同的代表性数据上的重要性,以了解其现实世界的适用性和局限性。