标题:以任务为导向的预测(上)-Bert:使用单中心EHR数据作者预测糖尿病并发症的新方法:Humayera Islam 1,MS,Gillian Bartlett 1,2,4 1,2,4,PhD,Robert Pierce 4,Robert Pierce 4,MD,MD,MD,MD,Praveen Rao 1,3,Phd,Phd,Phd,Phd,Lemuel R.Waitman R.Waitman 1,2,2,4,PHD,X,1,2,4,x,1,2,4,x,x.对于数据科学和信息学,2生物医学信息学,生物统计学和医学流行病学系3电气工程和计算机科学系,美国密苏里大学医学院4,美国哥伦比亚大学摘要中,我们在这项研究中,我们评估了伯特(Bertirectional Encoders)的能力(来自变形金刚的双向编码者)的能力,以预测12个通用的疾病,以预测12个通用的风险,神经病和主要不良心血管事件(MACE)使用单中心EHR数据集。我们引入了一个面向任务的预测(TOP)-bert体系结构,它是使用顺序输入结构,嵌入层和bert固有的编码堆栈的独特端到端训练和评估框架。这种增强的体系结构训练并同时跨多个学习任务评估模型,从而增强了模型从有限数据中学习的能力。我们的发现表明,这种方法可以胜过传统的预处理模型和传统的机器学习方法,提供有前途的工具,用于早期鉴定有与糖尿病相关并发症风险的患者。我们还调查了不同的时间嵌入策略如何影响模型的预测能力,更简单的设计可产生更好的性能。使用综合梯度(IG)可增强我们的预测模型的解释性,从而产生特征归因,从而证实了这项研究的临床意义。最后,这项研究还强调了主动症状评估的重要作用以及合并症的管理在防止糖尿病患者并发症发展方面的发展。引言糖尿病引起的微血管并发症可能会对糖尿病管理和患者护理产生重大影响1,2。对这些并发症的早期预测允许鉴定高危患者并积极实施预防措施3-7。通过这种动机,研究人员开发了预测糖尿病相关并发症的模型,主要强调心血管结局,并且在较小程度上是肾脏和眼睛并发症3,8。但是,大多数先前的研究都集中在使用有限数量的风险因素来预测风险评分,通常是从以前的文献8-14中策划的。尽管许多机器学习(ML)和深度学习(DL)模型在最近的研究中出现,但经典的ML模型主导了这些研究 - 主要限于性能比较,只有少数群体深入研究新的风险因素并发现新知识15,16。电子健康记录(EHR)系统中的数字患者数据在开发临床风险预测模型中起着至关重要的作用,从而指导基于证据的医疗干预措施的发展13,17,18。因此,从EHR数据得出的特征向量可以实现传统的ML和DL技术19,20。结构化EHR系统系统地记录了患者遇到的时间表,包括人口统计学,生命体征,诊断,处方药,实验室测试结果和医疗程序等元素。但是,EHR数据中包含的复杂和丰富的信息通常被凝结,以创建预测模型的摘要特征。此过程可以减少数据的时间和上下文丰富性。这种简化经常忽略EHR数据的复杂性质,例如稀疏性,异质性和不规则访问模式,从而导致模型过度拟合和缺乏模型通用性21。
63100,雪兰莪Cyberjaya。*通讯作者:( jayapraj@srmist.edu.in; orcid:0000-0002-2548-9135)摘要 - 这项研究工作开发了一个新框架,将患者的反馈与跨疾病国家的循证最佳实践相结合,以改善药物建议。它以伯特为自由文本处理引擎来处理情感判断和分类。该系统的功能(名为“ Pharmabert”)包括接受药物审查数据作为全面的输入,药物分类,当处理广泛的治疗方法以及对基于BERT的模型进行微调,以获得对特定药物的正面或负面情绪。Pharmabert对BERT结构进行了各种药物和微调分类,以感知很多特定药物的可能情感。因此,Pharmabert将其所有训练和优化功能融合在一起,通过此功能,该系统的精度最高为91%,从而展示了该模型在捕获患者情感方面的效力。在成为Bert旋转时,Pharmabert利用自己的一套经验丰富的技术来理解和感知患者,医生或药剂师给出的与健康有关的文本输入。它使用转移学习,也就是说,它从语言表示中学习以迅速适应药物审查的复杂性。通过药剂师,医疗保健专业人员可能会从患者反馈中扩大诊断,从而构成更中性的决策。关键字 - 来自变压器(BERT),机器学习(ML),人工智能(AI),大语言模型(LLMS),深神经网络(DNN),自然语言处理(NLP)的双向编码器表示。
人类大脑如何处理语言一直是认知神经科学和心理语言学研究的中心课题。研究这个课题的典型方法是学习一个模型来预测受试者在做语言任务时的大脑活动。我们给受试者提供一些刺激——单词、短语、句子等,同时收集他们的生理数据——EEG、MEG、fMRI。这个计算模型背后的理论是语言表征的神经基础与广泛的语言语料库中神经表征的分布特性有关。学习这类预测模型的局限性在于大多数机器学习模型都需要大量数据。然而,在实践中很难获得足够的生理数据。在本研究中,我们利用预训练语言模型——BERT(一种近期广泛使用的预训练语言模型)的优势来缓解数据不足的限制。近年来,预训练语言模型极大地促进了NLP研究的各个方面。得益于预训练模型,几乎所有的NLP下游任务都达到了SOTA性能。语言模型学习预测单词序列的概率。预训练语言模型是使用大型语料库(例如Wikipedia)进行训练,从而编码广泛而一般的语言属性。然后可以通过少量特定于任务的数据集对预训练语言模型进行微调,将其用于下游NLP任务。结果表明,使用BERT和微调后的BERT可以预测EEG和一些凝视特征。这项研究证实了NLP预训练语言模型与人类之间的联系。它也为相关研究打开了一扇窗户。
少量学习 (FSL) 是从少量训练示例中学习识别以前未见过的图像类别的任务。这是一项具有挑战性的任务,因为可用的示例可能不足以明确确定哪些视觉特征最能体现所考虑类别的特征。为了缓解这个问题,我们提出了一种额外考虑图像类别名称的方法。虽然之前的工作已经探索过类名的使用,但我们的方法在两个关键方面有所不同。首先,虽然之前的工作旨在直接从词嵌入中预测视觉原型,但我们发现通过分别处理视觉和基于文本的原型可以获得更好的结果。其次,我们提出了一种使用 BERT 语言模型学习类名嵌入的简单策略,我们发现该策略大大优于之前工作中使用的 GloVe 向量。此外,我们提出了一种处理这些向量高维性的策略,该策略受到跨语言词嵌入对齐模型的启发。我们对 miniImageNet、CUB 和 tieredImageNet 进行了实验,结果表明我们的方法能够持续提高基于度量的 FSL 的最新水平。
摘要:在药物发现过程中,确定最佳候选药物非常重要。生物学和计算科学领域的研究人员一直试图利用机器学习 (ML) 来有效预测药物-靶标相互作用 (DTI)。近年来,根据预训练模型在自然语言处理 (NLP) 中的新兴用途,人们正在为化合物和靶蛋白开发预训练模型。本研究试图使用 Transformers (BERT) 预训练模型 ChemBERTa 来改进化合物的 DTI 预测模型。预训练的特点是使用简化的分子输入线路输入系统 (SMILES)。我们还使用预训练的 ProBERT 来预测靶蛋白(预训练使用氨基酸序列)。BIOSNAP、DAVIS 和 BindingDB 数据库 (DB) 被用于(单独或一起)学习。最终模型由 ChemBERTa 和 ProtBert 以及集成的 DB 共同教授,与之前的模型相比,根据受试者工作特征曲线下面积 (AUC) 和精确召回率-AUC 值,提供了迄今为止最佳的 DTI 预测性能。使用对 13 对底物和代谢酶细胞色素 P450 (CYP) 的特定案例研究验证了最终模型的性能。最终模型提供了出色的 DTI 预测。由于药物和靶蛋白之间的现实世界相互作用预计会表现出特定的模式,因此使用 ChemBERTa 和 ProtBert 进行预训练可以教授此类模式。如果学习采用涵盖药物和靶蛋白之间所有关系的大型、均衡的数据集,学习此类相互作用的模式将提高 DTI 准确性。
编辑委员会 Dieter Birnbacher,海因里希·海涅大学哲学研究所,杜塞尔多夫,北莱茵-威斯特法伦州,德国 Roger Brownsword,法学院,伦敦国王学院,英国伦敦 Ruth Chadwick,经济与社会研究理事会中心,卡迪夫,英国 Paul Stephen Dempsey,蒙特利尔大学,航空航天法研究所,蒙特利尔,加拿大 Michael Froomkin,迈阿密大学法学院,迈阿密大学,佛罗里达州科勒尔盖布尔斯,美国 Serge Gutwirth,埃特尔贝克校区,布鲁塞尔自由大学,比利时埃尔森 Henk Ten Have,杜肯大学医疗伦理中心,宾夕法尼亚州匹兹堡,美国 Søren Holm,曼彻斯特大学社会伦理与政策中心,英国曼彻斯特 George Khushf,南卡罗来纳大学哲学系,南卡罗来纳州哥伦比亚,美国 法官 Michael Kirby,澳大利亚高等法院,澳大利亚金斯敦 Bartha Knoppers,蒙特利尔大学,加拿大魁北克省蒙特利尔 David Krieger,和平基金会,美国加利福尼亚州圣巴巴拉 Graeme Laurie,AHRC 知识产权和技术法中心,英国爱丁堡 René Oosterlinck,欧洲空间局,法国巴黎 John Weckert,查尔斯特大学,澳大利亚北沃加沃加
摘要 - 主题建模是一种广泛使用的技术,用于从未标记的文本数据中提取隐藏的模式,从而促进了各种功能,例如文档组织,内容建议和检索。尽管传统上应用于英语文本,但主题建模最近在其他语言中获得了吸引力,包括孟加拉语,这是由于孟加拉语内容在线的日益增长的驱动而驱动。最近的研究已将某些主题建模方法应用于孟加拉语,但其在绩效方面的有效性尚未得到充分影响。本文介绍了Bert-LDA(一种混合主题建模的方法),应用于孟加拉新闻语料库,其中包括从在线孟加拉新闻门户收集的各种类别的文章。潜在的dirichlet分配(LDA)是一个概率模型,将每个文档表示为主题的混合,而Bert-LDA则利用了Bert上下文嵌入的语义丰富,结合了LDA的强大主题建模功能。通过整合两种方法的优势,我们的方法旨在提高本伽利文本主题建模的性能。实验结果表明,所提出的BERT-LDA模型始终优于各种评估指标的传统主题建模技术,从而在从孟加拉语文本数据中提取有意义的见解方面有了重大改进。
编辑委员会 Dieter Birnbacher,海因里希·海涅大学哲学研究所,杜塞尔多夫,北莱茵-威斯特法伦州,德国 Roger Brownsword,法学院,伦敦国王学院,英国伦敦 Ruth Chadwick,经济与社会研究理事会中心,卡迪夫,英国 Paul Stephen Dempsey,蒙特利尔大学,航空航天法研究所,蒙特利尔,加拿大 Michael Froomkin,迈阿密大学法学院,迈阿密大学,佛罗里达州科勒尔盖布尔斯,美国 Serge Gutwirth,埃特尔贝克校区,布鲁塞尔自由大学,比利时埃尔森 Henk Ten Have,杜肯大学医疗伦理中心,宾夕法尼亚州匹兹堡,美国 Søren Holm,曼彻斯特大学社会伦理与政策中心,英国曼彻斯特 George Khushf,南卡罗来纳大学哲学系,南卡罗来纳州哥伦比亚,美国 法官 Michael Kirby,澳大利亚高等法院,澳大利亚金斯敦 Bartha Knoppers,蒙特利尔大学,加拿大魁北克省蒙特利尔 David Krieger,和平基金会,美国加利福尼亚州圣巴巴拉 Graeme Laurie,AHRC 知识产权和技术法中心,英国爱丁堡 René Oosterlinck,欧洲空间局,法国巴黎 John Weckert,查尔斯特大学,澳大利亚北沃加沃加