命名实体识别是一项信息提取任务,旨在识别文本中的命名实体并将其分类为预定义的类别。嵌套的命名实体识别涉及检测外部实体和内部实体。Bionne竞争[1]是CLEF 2024 Bioasq Lab [2]的一部分,重点是从生物医学文本中提取嵌套的实体。嵌套命名实体类型包括解剖(解剖学),化学物质(化学),疾病(DISO),生理学(物理),科学发现(发现),受伤或中毒损害(伤害_poisoning),实验室程序(LABPROC)和医疗设备(设备)[3]。挑战提供俄罗斯,英语和双语曲目。对于英语曲目,组织者提供了一个带有50个记录和一个带有50个记录的验证的培训集。每个记录都包含一个文本,即PubMed摘要,以及以Brat格式注释的实体列表,其本文中实体的起始和结束位置。在测试阶段,组织者发布了一个带有154个摘要和346个额外文件的测试集,总共有500个记录。我们的团队专注于Bionne English Track。我们的系统使用大型语言模型(特别是Mixtral 8x7b指示模型[4])和一个生物医学模型来查找文章中的实体。然后,系统使用统一的医学语言系统(UMLS)语义类型来过滤和汇总实体。实现可以在GitHub 1上找到。
可能彼此包含的嵌套命名实体的抽象识别可以增强发现命名实体的覆盖范围。此功能对于诸如关系提取,实体链接和知识图种群等任务特别有用。本文介绍了组织者关于Bionne竞赛的报告,该报告的重点是英语和俄语的医学文本中嵌套的名为实体识别系统。比赛包括三个子任务:双语,面向英语和面向俄语。培训和验证集源自Nerel-Bio数据集的一个子集,该数据集是PubMed摘要的语料库。对于Bionne评估,从原始数据集中选择了八种最常见的医疗实体类型。此外,为共享任务开发了一个新颖的测试集,其中包括英语和俄语的154个摘要。在BioASQ研讨会的框架内举行,竞争旨在推进生物医学领域内嵌套的研究。
摘要在本文中,我们在Clef 2024介绍了自动幽默分析(Joker)实验室的工作。小丑实验室的目的是研究幽默的自动处理,其中包括诸如检索,分类和解释各种形式的幽默文本等任务。我们的任务涉及将幽默文本分类为不同类型的不同类型,我们采用了两种不同的方法。这些方法涉及BERT(变压器架构)和传统的机器学习模型(例如随机森林分类器)的使用。在这两种模型中,伯特的精度得分较高,为0.6731。从中,我们得出的结论是,伯特在大多数自然语言过程中都更好。我们展示了有关培训数据的实验,并且在即将出版的页面中介绍了所提供的测试数据集的结果。
摘要在本文中,我们探讨了各种深度学习技术来开发机器学习模型,以预测患者的第二次自动评估的肌萎缩性侧面硬化功能评级量表(ALSFRS-R)得分,以预测肌萎缩性侧向硬化功能评级量表(ALSFRS-R)。要执行任务,使用自动编码器和多个插补技术来处理数据集中存在的缺失值。预先处理数据后,使用随机的森林算法进行特征选择,然后开发了4个深神经网络预测模型。使用多层感知器(MLP),Feed Hearver Near Network(FFNN),复发性神经网络(RNN)和Long-Short术语记忆(LSTM)开发了四个预测模型。However, the developed models performed poorly when compared to other models in the global ranking hence, 3 more algorithms (Random Forest, Gabbing Regressor and XGBoost algorithm) were used to improve the performance of the models and the developed XGBoost algorithm outperformed other models developed in this paper as it produces minimal MAE and RMSE values.
摘要人工智能(AI)在学术评估中的应用是学术界的重要主题之一。广泛采用了生成AI(Genai)和大语言模型等技术似乎引入了新的学术评估机会。Genai是否具有进行学术评估的能力以及其能力与人类专家的能力之间存在什么差异的问题成为首先需要解决的主要问题。在这项研究中,我们开发了一系列评估标准和过程,以研究细胞生物学领域的853次同行评审后的论文,旨在观察Genai和人类专家之间的评分和评论风格的差异。我们发现,Genai给出的分数往往高于专家的分数,并且评估文本缺乏实质性内容。结果表明,Genai目前无法提供人类专家提供的理解和微妙分析的深度。