虚拟筛选等预测方法已用于药物研发,目的是减少开发时间和成本。当前的机器学习和基于网络的方法存在与泛化、可用性或模型可解释性相关的问题,特别是由于目标蛋白的结构/功能的复杂性以及系统训练数据集的偏差。在这里,我们提出了一种新方法“DRUIDom”(DRUg 相互作用域预测),利用蛋白质的结构域模块化来识别药物候选化合物和靶标之间的生物相互作用,以克服与当前方法相关的问题。DRUIDom 由两个方法步骤组成。首先,将配体/化合物统计地映射到其靶蛋白的结构域,目的是识别它们的相互作用。这样,包含相同映射域或域对的其他蛋白质就成为相应化合物的新候选靶标。接下来,根据分子相似性对百万级小分子化合物数据集(包括上一步中映射到域的化合物)进行聚类,并将它们的域关联传播到同一聚类内的其他化合物。从公共数据库获得的经过实验验证的生物活性数据点经过精心筛选,构建活性/相互作用和非活性/非相互作用药物/化合物-靶标对的数据集(约 290 万个数据点),并用作计算化合物-域映射参数的训练数据,从而得到 250 个域和 8,165 种化合物之间的 27,032 个高置信度关联,最终输出约 500 万个新的化合物-蛋白质相互作用。通过对预测靶向 LIM-激酶蛋白的化合物进行合成和生物活性分析,对 DRUIdom 进行了实验验证,LIM-激酶蛋白在通过肌动蛋白丝动力学调节细胞运动、细胞周期进程和分化方面发挥关键作用。我们发现 LIMK-inhibitor-2 及其衍生物通过抑制 LIMK 磷酸化和下游蛋白肌动蛋白丝切蛋白,显著阻止癌细胞迁移。
虚拟筛选等预测方法已用于药物研发,目的是减少开发时间和成本。当前的机器学习和基于网络的方法存在与泛化、可用性或模型可解释性相关的问题,特别是由于目标蛋白的结构/功能的复杂性以及系统训练数据集的偏差。在这里,我们提出了一种新方法“DRUIDom”(DRUg 相互作用域预测),利用蛋白质的结构域模块化来识别药物候选化合物和靶标之间的生物相互作用,以克服与当前方法相关的问题。DRUIDom 由两个方法步骤组成。首先,将配体/化合物统计地映射到其靶蛋白的结构域,目的是识别它们的相互作用。这样,包含相同映射域或域对的其他蛋白质就成为相应化合物的新候选靶标。接下来,根据分子相似性对百万级小分子化合物数据集(包括上一步中映射到域的化合物)进行聚类,并将它们的域关联传播到同一聚类内的其他化合物。从公共数据库获得的经过实验验证的生物活性数据点经过精心筛选,构建活性/相互作用和非活性/非相互作用药物/化合物-靶标对的数据集(约 290 万个数据点),并用作计算化合物-域映射参数的训练数据,从而得到 250 个域和 8,165 种化合物之间的 27,032 个高置信度关联,最终输出约 500 万个新的化合物-蛋白质相互作用。通过对预测靶向 LIM-激酶蛋白的化合物进行合成和生物活性分析,对 DRUIdom 进行了实验验证,LIM-激酶蛋白在通过肌动蛋白丝动力学调节细胞运动、细胞周期进程和分化方面发挥关键作用。我们发现 LIMK-inhibitor-2 及其衍生物通过抑制 LIMK 磷酸化和下游蛋白肌动蛋白丝切蛋白,显著阻止癌细胞迁移。
准确预测航班延误是建立更高效的航空业务的基础。航空公司的核心业务是客户满意度。我们的预测在所有民航利益相关者的决策过程中都至关重要。恶劣天气、机械原因和飞机延误到达出发地都会导致航班延误和客户不满。利用航班数据和天气数据,我们提出了一个准时到达航班的预测模型。该项目使用机器学习模型,如决策树回归、贝叶斯岭、随机森林回归和梯度提升回归来预测某个航班是否会晚点到达。
*布莱恩·凯利(Bryan Kelly)在耶鲁大学管理学院,AQR Capital Management和Nber上。Semyon Malamud在瑞士金融学院,EPFL和CEPR,是AQR的顾问。kangy-ing周在耶鲁大学管理学院。我们感谢Cliff As-Ness的有益评论; Kobi Boudoukh;丹尼尔·邦西奇(Daniel Buncic);詹姆斯·崔;弗兰克·迪博尔德; Egemen Eren; Paul Goldsmith-Pinkham;阿米特·戈亚尔(Amit Goyal);罗恩·卡尼尔(Ron Kaniel)(讨论者); Stefan Nagel(编辑); Andreas neuhierl(铁饼); Matthias Pelster(讨论者); Olivier Scaillet(讨论者);基督教施拉格(讨论者); akos toereek; Hui Wang(讨论者); Guofu Zhou(讨论者); AQR,耶鲁大学,维也纳经济与商业大学,费城美联储,国际定居银行,纽约大学和EPFL的研讨会;和会议宏观金融社会的会议,亚当·史密斯资产定价会议,SFS骑兵北美会议,香港香港金融科技,AI和大数据商业大会,沃顿·雅各布斯 - 莱维会议,金融和经济学研讨会,关于金融和经济学研讨会,关于中国国际风险论坛,斯坦福大学的新领域,新领域,新领域。我们特别感谢Mohammad Pourmohammadi为我们的证明和技术条件提出了一些基本的改进。AQR Capital Management是一家全球投资管理公司,可能会或可能不采用本文所述的类似投资技术或分析方法。此处表达的观点是作者的观点,而不一定是AQR的观点。Semyon Malamud非常感谢瑞士金融学院和瑞士国家科学基金会的支持,授予100018_192692。我们已经阅读了《金融杂志》的披露政策,没有披露的意义上的冲突。
模型开发:开发一个可靠的机器学习模型,能够使用包含13个相关功能的数据集准确地预测糖尿病风险。准确性增强:实现高预测准确性和验证性能,同时确保模型概括到不同人群和现实世界情景的能力。特征重要性分析:识别和排名糖尿病预测中的影响力特征,阐明了最大程度地影响模型决策的因素。临床相关性:研究预测模型在临床环境中的实际应用,评估其协助医疗保健专业人员进行早期诊断和风险评估的潜力。数据质量和预处理:解决数据质量问题,包括缺失值和离群值,以提高模型预测的可靠性。隐私和道德注意事项:确保在糖尿病预测的个人健康数据收集和使用中可以充分解决数据隐私和道德注意事项。知识贡献:通过解决与模型准确性,特征可解释性和临床适用性相关的挑战,为糖尿病预测领域提供宝贵的见解。
1,2,3,4 UG学者,Mallareddy工程学院,海得拉巴-500100 51,2,3,4 UG学者,Mallareddy工程学院,海得拉巴-500100 5
摘要:糖尿病是关键疾病之一,许多人患有这种疾病。年龄,肥胖,缺乏运动,遗传性糖尿病,生活方式,不良饮食,高血压等。会引起糖尿病。患有糖尿病的人患有诸如心脏病,肾脏疾病,中风,眼睛问题,神经损伤等疾病的风险很高。目前在医院的实践是通过各种测试收集所需的糖尿病诊断信息,并根据诊断提供适当的治疗方法。大数据分析在医疗保健行业中起着重要作用。医疗保健行业有大量数据库。使用大数据分析,可以研究庞大的数据集并找到隐藏的信息,隐藏的模式,从数据中发现知识并相应地预测结果。在现有方法中,分类和预测准确性不是那么高。在本文中,我们提出了一个糖尿病预测模型,以更好地分类糖尿病,其中包括糖尿病的少数外部因素以及葡萄糖,BMI,年龄,胰岛素等常规因素。与现有数据集相比,新数据集可提高分类精度。进一步提出了旨在提高分类准确性的糖尿病预测的管道模型。I.引言医疗部门具有大量数据库。这样的数据库可能包含结构化的,半结构化或非结构化数据。考虑到当前情况,印度等主体国家(DM)已成为一种非常严重的疾病。现有大数据分析是一个过程,该过程分析了巨大的数据集并揭示隐藏的信息,隐藏的模式以从给定数据中发现知识。糖尿病性梅利氏菌(DM)被归类为非传染性疾病(NCB),许多人患有疾病。根据2017年统计数据,约有4.25亿人患有糖尿病。由于糖尿病,每年约有2-5万患者的生命。据说到2045年,这将增加到6.29亿。[1]糖尿病(DM)被分类为称为胰岛素依赖性糖尿病(IDDM)的Astype-1。人体无法产生足够的胰岛素,这种DM背后的原因,因此需要向患者注入胰岛素。类型-2也称为非胰岛素依赖性糖尿病(NIDDM)。当身体细胞无法正确使用胰岛素时,可以看到这种糖尿病的类型。-3型妊娠糖尿病,孕妇的血糖水平升高,未发现糖尿病的糖尿病会导致这种类型的糖尿病。dm具有与之相关的长期并发症。此外,糖尿病患者存在各种健康问题的高风险。一种称为预测分析的技术,结合了各种机器学习算法,数据挖掘技术和统计方法,该方法使用当前和过去的数据来找到知识并预测未来的事件。通过对医疗保健数据进行预测分析,可以做出重大决策并可以做出预测。可以使用机器学习和回归技术进行预测分析。预测分析旨在以最佳的准确性诊断疾病,增强患者护理,优化资源并改善临床结果。[1]机器学习被认为是最重要的人工智能功能之一,支持计算机系统的开发,具有从过去的经验中获取知识而无需每种情况进行编程的能力。机器学习被认为是当今情况的迫切需要,以通过支持最小缺陷来消除人类的努力。
心脏病(HD)仍然是全球发病率和死亡率的主要原因,对公共卫生系统造成了重大负担。随着社会继续经历人口统计和生活方式的改变,与HD相关的风险因素的流行,例如久坐的生活方式,饮食习惯差和压力的增加,已经大大增加了。在这种情况下,必须开发高清准确有效的预测模型,这对于及时干预并减轻这种普遍性心血管疾病的影响至关重要。机器学习(ML)和深度学习(DL)已成为医疗领域的强大工具,提供了彻底改变疾病预测和管理的潜力。这些方法利用大量的数据集揭示了传统统计方法可能无法辨别的复杂模式和关系。在高清领域中,预测发生或进展的可能性是一项复杂的任务,需要采用多方面的方法来考虑各种患者因素。本研究提出了一个混合模型,该模型将ML和DL技术的强度融合在一起,以提高HD预测的准确性和可靠性。利用涵盖人口统计信息,生活方式因素和病史的全面数据集,该模型旨在辨别有助于个人整体风险概况的微妙相关性。由于心血管健康在全球范围内的重要性越来越重要,因此精确的HD预测的重要性不能被夸大。通过结合算法,例如决策树,随机森林和神经网络架构,例如卷积神经网络和长期短期记忆网络,该模型旨在提供对高清风险的细微理解,以确保可解释性和预测能力。这项研究努力为预测医学的不断发展的景观做出贡献,提供了一种复杂而综合的解决方案,以解决HD风险评估中固有的复杂性。通过ML和DL的融合,这项研究旨在为更多知情和个性化的医疗保健策略铺平道路,最终降低了HD对多样性人群的发病率和影响。
心房颤动 (AF) 是最常见的持续性心律失常,全球有超过 4300 万人受其影响 [ 1 ]。在欧盟,2016 年有近 800 万 65 岁以上的人患有 AF,预计到 2060 年,这一数字将增加到 1400 多万,这是由于寿命延长和 AF 风险因素患病率增加,导致与 AF 检测、诊断和管理相关的成本增加。在诊断的第一年,德国每位 AF 患者的费用超过 2200 美元 [ 2 ]。筛查工作成本高昂:古腾堡健康研究的数据估计,在 65 至 74 岁的普通人群中,基于 12 导联心电图 (ECG) 的筛查每获得一个质量调整生命年的成本约为 30,000 美元 [ 3 ]。人工智能 (AI) 方法(包括机器学习和人工神经网络(深度学习))可以实现