摘要。在过去的十二年中,大规模的生物医学秘密索引和提问挑战挑战(BioASQ)一直在推动方法和工具的持续发展,以促进生物医学领域的不断增长的科学资源。在这个方向上,每年,BioASQ都会组织共享的任务,代表生物医学专家的真实信息需求并提供各自的基准数据集。以这种方式,它提供了一个独特的普通测试床,世界各地的研究团队可以测试并比较获得生物医学知识的新方法。第十三版BioASQ将在CLEF2025的背景下作为评估实验室举行,提供六个任务:(i)关于生物医学语义问题答案的任务B。(ii)关于回答开发生物医学主题的问题的任务协同作用。(iii)多语言临床摘要的任务多语。(iv)任务Bionne-b insed inted nested nation in link in俄语和英语。(v)心脏病学临床编码的任务elcardiocc。(vi)肠道相互作用信息上的任务gutbrainie。作为bioasq奖励胜过
可能彼此包含的嵌套命名实体的抽象识别可以增强发现命名实体的覆盖范围。此功能对于诸如关系提取,实体链接和知识图种群等任务特别有用。本文介绍了组织者关于Bionne竞赛的报告,该报告的重点是英语和俄语的医学文本中嵌套的名为实体识别系统。比赛包括三个子任务:双语,面向英语和面向俄语。培训和验证集源自Nerel-Bio数据集的一个子集,该数据集是PubMed摘要的语料库。对于Bionne评估,从原始数据集中选择了八种最常见的医疗实体类型。此外,为共享任务开发了一个新颖的测试集,其中包括英语和俄语的154个摘要。在BioASQ研讨会的框架内举行,竞争旨在推进生物医学领域内嵌套的研究。
i作为不同的国际会议和讲习班(例如KDD,VLDB,ROCOMB,ISH,ECCB)的演讲者提出了这些结果,并介绍了“多个假设测试和统计上声音模式挖掘”的ACM KDD'19和SIAM'21。我的博士学位论文获得了2021年SIGKDD D论文奖的荣誉,因此是全球采矿和知识发现的最佳三篇博士学位。此外,我被任命为ACM国际会议计划委员会的最佳成员之一2022年网络会议和2023年(认可分配给了前5%的PC成员)。在博士学位期间,我访问了布朗大学(美国普罗维登斯,美国普罗维登斯)的计算机科学系,与Eli Upfal教授一起工作。以前是博士学位,我开展了有关自动系统的开发和实验评估的研究活动,以在微重力的条件下对电缆的受控释放和回忆[C1,C2];在这个多学科项目中,我开发了用于自动控制的软件系统,并分析了收集的实验数据。该系统于2017年在意大利获得专利,并在2018年获得全球。此外,我研究了信息检索的算法状态[C3,C4]的研究。
摘要在本文中,我们在Clef 2024介绍了自动幽默分析(Joker)实验室的工作。小丑实验室的目的是研究幽默的自动处理,其中包括诸如检索,分类和解释各种形式的幽默文本等任务。我们的任务涉及将幽默文本分类为不同类型的不同类型,我们采用了两种不同的方法。这些方法涉及BERT(变压器架构)和传统的机器学习模型(例如随机森林分类器)的使用。在这两种模型中,伯特的精度得分较高,为0.6731。从中,我们得出的结论是,伯特在大多数自然语言过程中都更好。我们展示了有关培训数据的实验,并且在即将出版的页面中介绍了所提供的测试数据集的结果。
摘要在生物学中的自然语言处理(NLP)的进步取决于模型解释复杂的生物医学文献的能力。传统模型通常在该领域的复杂和特定领域的语言中挣扎。在本文中,我们提出了Biomamba,这是一种专门为生物医学文本挖掘设计的预培训模型。Biomamba建立在Mamba的建筑上,并在生物医学文学的典型语料库中进行了预培训。我们的实证研究表明,在各种生物医学任务上,Biomamba显着优于Biobert和General Domain Mamba等模型。,对于Intance,Biomamba可实现100倍的困惑性,而Bioasq上的跨透明镜损失减少了4倍[29]测试集。我们提供了模型体系结构,预训练过程和微调技术的概述。此外,我们发布了代码和经过训练的Model 1,以促进进一步的研究。
命名实体识别是一项信息提取任务,旨在识别文本中的命名实体并将其分类为预定义的类别。嵌套的命名实体识别涉及检测外部实体和内部实体。Bionne竞争[1]是CLEF 2024 Bioasq Lab [2]的一部分,重点是从生物医学文本中提取嵌套的实体。嵌套命名实体类型包括解剖(解剖学),化学物质(化学),疾病(DISO),生理学(物理),科学发现(发现),受伤或中毒损害(伤害_poisoning),实验室程序(LABPROC)和医疗设备(设备)[3]。挑战提供俄罗斯,英语和双语曲目。对于英语曲目,组织者提供了一个带有50个记录和一个带有50个记录的验证的培训集。每个记录都包含一个文本,即PubMed摘要,以及以Brat格式注释的实体列表,其本文中实体的起始和结束位置。在测试阶段,组织者发布了一个带有154个摘要和346个额外文件的测试集,总共有500个记录。我们的团队专注于Bionne English Track。我们的系统使用大型语言模型(特别是Mixtral 8x7b指示模型[4])和一个生物医学模型来查找文章中的实体。然后,系统使用统一的医学语言系统(UMLS)语义类型来过滤和汇总实体。实现可以在GitHub 1上找到。
摘要人工智能(AI)在学术评估中的应用是学术界的重要主题之一。广泛采用了生成AI(Genai)和大语言模型等技术似乎引入了新的学术评估机会。Genai是否具有进行学术评估的能力以及其能力与人类专家的能力之间存在什么差异的问题成为首先需要解决的主要问题。在这项研究中,我们开发了一系列评估标准和过程,以研究细胞生物学领域的853次同行评审后的论文,旨在观察Genai和人类专家之间的评分和评论风格的差异。我们发现,Genai给出的分数往往高于专家的分数,并且评估文本缺乏实质性内容。结果表明,Genai目前无法提供人类专家提供的理解和微妙分析的深度。
摘要在本文中,我们探讨了各种深度学习技术来开发机器学习模型,以预测患者的第二次自动评估的肌萎缩性侧面硬化功能评级量表(ALSFRS-R)得分,以预测肌萎缩性侧向硬化功能评级量表(ALSFRS-R)。要执行任务,使用自动编码器和多个插补技术来处理数据集中存在的缺失值。预先处理数据后,使用随机的森林算法进行特征选择,然后开发了4个深神经网络预测模型。使用多层感知器(MLP),Feed Hearver Near Network(FFNN),复发性神经网络(RNN)和Long-Short术语记忆(LSTM)开发了四个预测模型。However, the developed models performed poorly when compared to other models in the global ranking hence, 3 more algorithms (Random Forest, Gabbing Regressor and XGBoost algorithm) were used to improve the performance of the models and the developed XGBoost algorithm outperformed other models developed in this paper as it produces minimal MAE and RMSE values.