算法在我们的私人和公共生活中扮演着许多重要角色。他们产生搜索引擎结果,在社交媒体上组织新闻源,并确定有希望的浪漫伴侣。他们为司法,贷款,社会福利和大学录取决定提供了信息。他们还提出了紧迫和烦恼的道德挑战。例如,美国刑事司法系统中使用的一些算法预测个人是否会累进。著名的是,已经发现这种算法表现出明显的种族和性别偏见,例如将黑人非累犯者评级为比白人非养育者更喜欢重新审判(Angwin等人(Angwin等),2016a,b)。在某种程度上对这种发现的反应中,算法公平的研究在计算机科学,哲学和其他领域中扮演着重要的作用。从这些研究中得出的理论上有趣且在道德上显着发现的是,实施明智的公平概念可以兑现,以付出代价(Corbett-Davies et al。,2017年; Menon和Williamson,2018年; Kearns and Roth,2019年)。
摘要:映射有助于功能的蛋白质构象的整体,可以用小分子药物来靶向,这仍然是一个重大的挑战。在这里,我们探讨了变异自动编码器的使用来减少蛋白质结构合奏生成问题中维度的挑战。我们将高维蛋白质结构数据转换为连续的,低维的表示,在以结构质量度量为导向的空间中进行搜索,然后使用由采样的结构信息引导的Rosettafold来生成3D结构。我们使用这种方法为癌症相关的蛋白质K-RAS生成合奏,在可用的K-Ras晶体结构的子集上训练VAE和MD模拟快照,并评估接近与训练中与晶体结构接近的取样程度。我们发现,我们的潜在空间采样程序迅速生成具有高结构质量的合奏,并且能够在固定晶体结构的1Å内进行采样,其一致性高于MD模拟或Alphafold2预测。采样结构充分概括了固定的K-RAS结构中的隐性口袋,以允许小分子对接。
探索了随机子空间集成学习方法在提高基于功能性近红外光谱的脑机接口 (fNIRS-BCIs) 性能方面的可行性。利用 fNIRS 发色团浓度变化的时间特征(如均值、斜率和方差)构建特征向量,以实现 fNIRS-BCIs 系统。采用 fNIRS-BCIs 中最受欢迎的特征均值和斜率。分别采用线性支持向量机和线性判别分析作为单个强学习器和多个弱学习器。使用每个通道和可用时间窗口内的所有特征来训练强学习器,并随机选择特征子集来训练多个弱学习器。确定随机子空间集成学习有利于提高 fNIRS-BCIs 的性能。
摘要 — 在本文中,我们研究了从脑电图 (EEG) 数据中解码跨受试者运动想象 (MI) 的问题。由于各种个体间差异(例如大脑解剖结构、性格和认知特征),多受试者 EEG 数据集呈现出几种领域转变。这些领域转变使多受试者训练成为一项具有挑战性的任务,也阻碍了跨受试者的稳健泛化。受领域泛化技术对于解决此类问题的重要性的启发,我们提出了一种两阶段模型集成架构,该架构由多个特征提取器(第一阶段)和一个共享分类器(第二阶段)构建,我们使用两个新颖的损失项对其进行端到端训练。第一个损失应用课程学习,迫使每个特征提取器专门针对训练对象的子集并促进特征多样性。第二个损失是集成内蒸馏目标,允许集成模型之间协作交换知识。我们将我们的方法与几种最先进的技术进行了比较,在两个大型 MI 数据集(即 PhysioNet 和 OpenBMI)上进行了独立于受试者的实验。我们的算法在 5 倍交叉验证和留一受试者评估设置中均优于所有方法,并且使用的可训练参数数量要少得多。我们证明了我们的模型集成方法结合了课程学习和协作训练的力量,可实现高学习能力和稳健的性能。我们的工作解决了多受试者 EEG 数据集中的域转移问题,为无校准脑机接口铺平了道路。我们将代码公开发布在:https://github.com/gzoumpourlis/Ensemble-MI。索引术语——脑机接口、EEG、运动意象解码、模型集成、域泛化
摘要 - 以各种内容,编辑样式和工件为特征的短形式视频的兴起,对基于学习的盲目视频质量评估(BVQA)模型构成了重大挑战。多模式大型语言模型(MLLM)以其出色的概括能力而闻名,提出了有希望的解决方案。本文的重点是有效利用预定的MLLM进行短形式视频质量评估,预处理和响应变异性的影响,以及将MLLM与BVQA模型相结合的见解。我们首先研究了框架预处理和采样技术如何影响MLLM的性能。然后,我们引入了一种基于轻量学习的集合方法,该方法可适应从MLLM和最先进的BVQA模型中进行预测。我们的结果表明,通过提出的集合方法表现出了优越的概括。此外,对内容感知的集合权重的分析强调,某些视频特征并未完全由现有的BVQA模型完全代表,从而揭示了潜在的方向以进一步改善BVQA模型。索引术语 - 视频质量评估,短形式视频,多模式大语模型,内容吸引合奏
摘要 - 拖延目标相互作用(DTI)预测在药物发现中起着至关重要的作用,而深度学习方法在这一领域中达到了最先进的表现。我们为DTI预测介绍了深度学习模型(ENSEMBLEDLM)的合奏。eNSEMBLEDLM仅使用化学化合物和蛋白质的序列信息,它汇总了来自多个深神经网络的预测。这种方法不仅在戴维斯和基巴数据集中实现了最先进的性能,而且在不同的生物活性类型和不同蛋白质类别的跨域应用中达到了尖端性能。我们还证明了EnseMbleDLM在新域中取得了良好的性能(Pearson相关系数和一致性指数> 0.8),而训练集的数据是传输学习的两倍数据。索引术语 - Trug-Target互动预测,集合建模,转移学习,卷积神经网络,深神经网络
摘要对第三极的当前和未来水周期的准确理解至关重要,因为该地区作为下游人口稠密地区的水塔起着作用。在复杂地形区域进行熟练气候评估的一种新兴而有希望的方法是公里尺度的气候建模。作为迈向第三极上此类模拟的基本步骤,我们提出了2019年10月至2020年9月的水文年度的千里规模区域模拟的多模型和多物理合奏。该合奏由由10个研究小组的国际联盟进行的13个模拟组成,配置了覆盖所有第三极区域的水平网格间距,范围为2.2至4 km。这些模拟是由ERA5驱动的,并且是协调的区域气候缩减实验旗舰试验研究的一部分。将模拟与可用的网格和原位观测和遥感数据进行了比较,以评估模型集成的性能和传播,与寒冷和温暖的季节的驾驶重新分析相比。尽管在该区域的网格降水数据集之间的巨大差异使整体评估受到阻碍,但我们表明,与ERE5相比,许多温暖的季节降水指标改善了合奏,包括大多数湿日和小时统计数据,并且在两个季节的湿法范围内都增加了价值。因此,合奏将为对该遥远但重要区域的氢化气候的过程的未来改进提供宝贵的资源。
文献中已经提出了统计和神经方法来预测医疗保健支出。然而,对比较这两种方法的预测以及医疗保健领域中的集合方法的关注更少。本文的主要目的是评估其预测某些止痛药每周平均支出的能力,以评估不同的统计,神经和集合技术。两个统计模型,持久性(基线)和自回归积分移动平均(ARIMA),一个多层感知器(MLP)模型,一个长期的短期内存(LSTM)模型以及结合ARIMA,MLP预测的集合模型和LSTM模型进行校准,以预测两种不同的止痛药的支出。在MLP和LSTM模型中,我们比较了训练数据的障碍和MLP和节点中某些节点的辍学的影响,并在训练过程中LSTMS中的LSTMS中的复发连接。结果表明,整体模型在两种止痛药中的持久性,Arima,MLP和LSTM模型都优于持久性。一般而言,不助长训练数据并添加辍学有助于MLP模型并助长了训练数据,而没有添加辍学帮助两种药物中的LSTM模型。我们强调了使用统计,神经和集合方法来预测医疗领域结果的时间序列。
摘要。患者分层通过基于其分子和/或临床特征鉴定出不同的亚组,在个性化医学中起着至关重要的作用。但是,许多基于机器学习的分层技术无法识别与每个患者组相关的本质生物标志物特征。在本文中,我们提出了一种使用分层集合聚类来解释的患者分层的新方法。我们的方法利用具有与主成分分析(PCA)结合的采样,以捕获最重要的模式和贡献生物标志物。我们使用机器学习基准数据集和来自癌症基因组地图集(TCGA)的现实世界数据的方法的有效性,展示了检测到的患者簇的可解释性。