命名实体识别是自然语言处理中的一项基本任务,旨在对文本中的命名实体进行定位和分类。由于大规模且经过良好注释的数据集,基于深度学习的方法(Li et al.,2022b;Devlin et al.,2019)取得了巨大成功。然而,在具有 112 个细粒度命名实体标签的真实数据集(如 Ling 和 Weld(2012))中,大量的实体类别可能会导致不可避免的注释缺失。此外,在实际场景中,为了获得大型 NER 数据集,远程监督方法(Ren et al.,2015;Fries et al.,2017)可能会使这个问题更加严重,因为实体词典无法覆盖所有实体。前人的研究(Li et al.,2021;Shang et al.,2018)发现这个问题严重阻碍了NER模型的性能,并将这个问题命名为无标记实体问题。如图1所示,未标记的第二个“NBA”可能会混淆模型并引入不必要的噪音。为了解决这个问题,人们从不同的角度提出了几种尝试。受到启发
命名实体识别是自然语言处理中的一项基本任务,旨在对文本中的命名实体进行定位和分类。由于大规模且经过良好注释的数据集,基于深度学习的方法(Li et al.,2022b;Devlin et al.,2019)取得了巨大成功。然而,在具有 112 个细粒度命名实体标签的真实数据集(如 Ling 和 Weld(2012))中,大量的实体类别可能会导致不可避免的注释缺失。此外,在实际场景中,为了获得大型 NER 数据集,远程监督方法(Ren et al.,2015;Fries et al.,2017)可能会使这个问题更加严重,因为实体词典无法覆盖所有实体。前人的研究(Li et al.,2021;Shang et al.,2018)发现这个问题严重阻碍了NER模型的性能,并将这个问题命名为无标记实体问题。如图1所示,未标记的第二个“NBA”可能会混淆模型并引入不必要的噪音。为了解决这个问题,人们从不同的角度提出了几种尝试。受到启发
摘要:从个人工作管理到商业操作,虚拟助手至关重要。机器学习(ML)和自然语言处理(NLP)在本文中用于改善虚拟助手系统。建议的方法始于用于强大任务自动化和预测建模的ML算法。虚拟助手可以通过研究用户行为和历史数据,提高生产率和用户体验来预测用户需求,自动化重复过程并积极建议。NLP还可以让虚拟助手理解并响应自然语言请求。助手可以使用情感分析,实体识别和语义理解来准确掌握用户意图并进行上下文回复。该框架还通过使用隐私保护ML算法并遵守数据保护法律来处理隐私和数据安全问题。用户反馈和持续学习允许虚拟助手随着时间的推移而发展。通过测试和评估,建议的框架证明了其准确性,效率和用户满意度。升级的虚拟助理系统用于客户服务,医疗保健,教育和智能家庭自动化。这项研究通过使用ML和NLP来构建符合数字环境中不同用户需求的智能,适应性和用户的系统来推动虚拟助理技术。
在过去的十年中,在数字化梵语文本和推进语言的计算分析方面取得了重大进展。然而,为促进NLP的努力促进了诸如语义类比预测,命名实体识别和其他人的复杂语义下游任务,而其他人仍然有限。此差距主要是由于缺乏建立在大规模梵文文本数据上的坚固,预先训练的梵文模型,因为这需要大量的计算资源和数据准备。在本文中,我们介绍了Sansgpt,这是一种生成的预培训模型,已在大量的梵文文本上进行了培训,旨在促进下游NLP任务的微调和开发。我们的目标是该模型是推进梵语NLP研究的催化剂。此外,我们开发了一种专门针对梵语文本优化的自定义令牌,从而实现了复合词的有效令牌化,并使其更适合生成任务。我们的数据收集和清洁过程涵盖了各种各样的可用梵文文献,以确保培训的全面代表。我们通过对语义类比预测和明喻元素提取进行微调来进一步证明该模型的疗效,分别达到了大约95.8%和92.8%的令人印象深刻的精度。
增量学习(IL)在视觉和自然语言处理(NLP)社区中一直是一个长期存在的问题。近年来,随着预先训练的语言模型(PLM)在各种NLP下游任务中取得了显着的进步,将PLM作为骨架作为骨架已成为NLP IL最近研究的普遍做法。大多数人认为灾难性遗忘是实现IL绩效的最大障碍,并提出了各种技术来克服这一问题。但是,我们发现这个假设是有问题的。具体来说,我们在四个分类任务(文本分类,意图分类,关系提取和命名实体识别)上进行了20多种方法,但可以在两个最受欢迎的IL设置(类增量和任务提名)中,并揭示其中大多数人严重低估了PLMS固有的反遗产能力。基于观察结果,我们提出了一种令人沮丧的简单方法,称为seq* for plms。结果表明,与ART(SOTA)IL方法相比,SEQ*具有竞争性或卓越的性能,但需要训练参数和培训时间明显较少。这些发现敦促我们用PLM重新审视IL,并鼓励未来的研究对PLM中的大型遗忘有根本的了解。数据,代码和脚本可公开可用1。
信息中的论文7009无关紧要:在月球上管理Richard Nidel,独立顾问,nideljr@comcast.net,尽管我们在商学院教授了什么,并且管理专家的坚持,信息并不是一切。甚至是知识,最终是精通商业的知识,最终是有缺陷的。必须出现一个新的范式,以表彰当地知识和文化的力量,并应用信息技术和知识管理系统来解决当今全球组织面临的挑战。7102决策计划模型,以解决动态辅助辅助启发式启发式job商店问题luma aal-kindi,巴格达的科技大学,luma_alkindi@yahoo.com工作店的工作调整是有吸引力的研究人员,这是工业革命的早期阶段,仍然是绿色领域的早期绿色领域的研究和经济的主要问题。这项研究的目的是开发一种新方法,该方法可以用作决策援助,以执行调度程序有效地完成工作。基于从商店的实际情况开发的混合启发式模型。研究范围集中在重型设备调度问题上,可以大大扩展以覆盖所有类型的车间。此外,高水平的不确定性迫使港口管理者有效地对市场的动态作出反应。奥斯曼尼亚大学的MBA课程是外国学生最追求的。7103 Competitive Strategies of Seaports: A Conceptual Model Proposal Joao Ferreira, University of Beira Interior, jjmf@ubi.pt Rosa Cruz, , piresdacruz@gmail.com Susana Azevedo, University of Beira Interior, sazevedo@ubi.pt The several changes that have occurred in the seaports' industry in the last decades have had a continuous and important impact on the activities和港口的管理政策。本文旨在提出一个概念模型,以识别主要的竞争因素,策略,资源和能力,以帮助这些组织达到卓越的绩效。对战略方法的文献综述进行了介绍,并评估了该部门的海港行业和主要竞争优势。 7104通过Triz理论设计概念设计Guillermo Cortes Robles,Tecnológicode Orizaba,gc_robles@hotmail.com cesar antoniogarcíaMólina,tecnologico deorizaba tania.lozada@hotmail.comtecnológicode Institutotecnológico.comadrianaMartínezMartínez,Institutotecnológicode orizaba,adraianaaaamartinez@hotmailtine@hotmail@hotmail.comvíctoreduardo torressánchez,inst orizsáncheub victoreduardoooo@hotmail.com解决技术问题的能力“取决于求解器遇到相似问题的频率以及求解器识别这种相似性的能力”。 因此,这种能力从根本上是基于知识的,因为目标是重新使用在类似情况下已经获得的知识。 创造性问题解决或TRIZ理论的理论是一种能够协助这一过程的方法,因此有助于加速创新过程。对战略方法的文献综述进行了介绍,并评估了该部门的海港行业和主要竞争优势。7104通过Triz理论设计概念设计Guillermo Cortes Robles,Tecnológicode Orizaba,gc_robles@hotmail.com cesar antoniogarcíaMólina,tecnologico deorizaba tania.lozada@hotmail.comtecnológicode Institutotecnológico.comadrianaMartínezMartínez,Institutotecnológicode orizaba,adraianaaaamartinez@hotmailtine@hotmail@hotmail.comvíctoreduardo torressánchez,inst orizsáncheub victoreduardoooo@hotmail.com解决技术问题的能力“取决于求解器遇到相似问题的频率以及求解器识别这种相似性的能力”。因此,这种能力从根本上是基于知识的,因为目标是重新使用在类似情况下已经获得的知识。创造性问题解决或TRIZ理论的理论是一种能够协助这一过程的方法,因此有助于加速创新过程。在本文中介绍了该理论,其基础以及其在新产品开发中应用的示例。7469向外国学生提供管理教育:某些问题Shailaja Gajjala,Osmania University,Caprishus@gmail.com印度高等教育政策,已确定了吸引学生进入印度的特定国家。 有来自具有广泛教育系统和教学教学法的国家的学生的记录,例如孟加拉国,埃塞俄比亚,斐济,伊朗,伊拉克,伊拉克,尼泊尔,塞拉利昂,塞拉利昂,塔吉基斯坦和也门。 来自不同水平的学生参与和学生评估国家的外国学生突然涌入构成了独特的挑战。 本文提出了可能的解决方案,以确保没有稀释管理教育的质量。 7544在印度语言中命名实体识别,Sudha Morwal,Banasthali大学,斋浦尔校园,sudha_morwal@yahoo.co.co.co.in narendra kumar joshi,Banasasthali大学,Jaipur University,Jaipur Universition,Jaipur校园,Nkjoshi2001@yahoo.com nkyahoo.com intifie intifitie antifitie intifitie(intifie)预定义的类别,例如人,组织等。 很少已经完成了印度语言NER的研究,但是这些研究是特定于域的,提供60至80之间的F量,使用最大熵Markov模型(MEMM)和条件随机字段(CRF)。 在本文中,我们建议在印度语言文本中采用混合方法来命名实体识别,从而导致通用技术。 该技术的精度将进行测试,并使用印地语作为测试案例语言进行回忆。7469向外国学生提供管理教育:某些问题Shailaja Gajjala,Osmania University,Caprishus@gmail.com印度高等教育政策,已确定了吸引学生进入印度的特定国家。有来自具有广泛教育系统和教学教学法的国家的学生的记录,例如孟加拉国,埃塞俄比亚,斐济,伊朗,伊拉克,伊拉克,尼泊尔,塞拉利昂,塞拉利昂,塔吉基斯坦和也门。来自不同水平的学生参与和学生评估国家的外国学生突然涌入构成了独特的挑战。本文提出了可能的解决方案,以确保没有稀释管理教育的质量。7544在印度语言中命名实体识别,Sudha Morwal,Banasthali大学,斋浦尔校园,sudha_morwal@yahoo.co.co.co.in narendra kumar joshi,Banasasthali大学,Jaipur University,Jaipur Universition,Jaipur校园,Nkjoshi2001@yahoo.com nkyahoo.com intifie intifitie antifitie intifitie(intifie)预定义的类别,例如人,组织等。很少已经完成了印度语言NER的研究,但是这些研究是特定于域的,提供60至80之间的F量,使用最大熵Markov模型(MEMM)和条件随机字段(CRF)。在本文中,我们建议在印度语言文本中采用混合方法来命名实体识别,从而导致通用技术。该技术的精度将进行测试,并使用印地语作为测试案例语言进行回忆。
● HW1:研究过程中的道德规范 - 这项作业将向学生介绍开展公平和道德研究的概念。重点将放在对 IRB 本质的历史理解上。学生将完成 CITI 人类受试者研究培训作为其作业的一部分。● HW2:数据和预测中的偏见 - 学生将学习将基本的数据挖掘技术应用于数据。学生将设计和对大型数据集进行统计测试。这些测试将围绕公平概念以及如何利用技术来识别不公平进行设计。● HW3:NLP 中的偏见 - 学生将学习命名实体识别中的性别偏见。解决这项作业需要基本的自然语言处理技术,包括基于转换器的语言模型,如 BERT。● HW4:网络中的偏见——在这项作业中,学生将学习和应用基本的网络技术来发现网络中的性别偏见。女性在网络中的代表性是更多还是更少?她们是否倾向于占据比男性更高或更低的中心位置?注意:在书面和编程作业中,描述和分析的完整性和清晰度与最终的正确答案一样重要。仅发送单个最终值(即使正确)是不够的。请参阅下表:
通过欧洲PMC与开放目标之间的合作开发的Lit-Otar框架,通过从科学文献中提取证据来彻底改变药物靶向识别和有效性,以深入了解药物发现。这个新颖的框架将命名的实体识别(NER)结合在一起,用于识别科学文本中的基因/蛋白质,疾病,生物和化学/药物,以及实体正常情况,以将这些实体映射到诸如Ensembl,Exifore Fimical因素(EFO)(EFO)和Chembl等数据库中。持续运营,它处理了超过3900万个摘要和4个。迄今为止有500万个全文文章和预印本,有超过48个。500万个独特的关联,有助于加速药物发现过程和科学研究(>29。9 m不同的目标疾病,11。8 m dist-tint Target-Prug和8。3 m不同的疾病 - 药物关系)。可以通过开放目标平台(https://platform.opentargets.org/)以及欧洲PMC网站(Scilite Web应用程序)和注释API(https://europepepepmc.org/annotationsapi)以及欧洲PMC网站(Scilite Web App)以及欧洲PMC网站(SCILITE WEB应用程序)以及欧洲PMC网站(SCILITE WEB应用程序)以及欧洲PMC网站(SCILITE WEB APP)以及。
摘要:最近的进步突出了高质量数据在开发准确的AI模型中的关键作用,尤其是在称为实体识别(TI-NER)的威胁智能中。这项技术自动化了广泛网络报告中信息的检测和分类。但是,缺乏可扩展的注释安全数据集阻碍了TI-NER系统的开发。为了克服这一点,研究人员经常使用数据增强技术,例如合并多个带注释的NER数据集以提高品种和可扩展性。整合这些数据集面临着挑战,例如保持一致的实体注释和实体类别以及对标准化标记方案的影响。手动合并数据集在大规模上很耗时且不切实际。我们的论文介绍了Ti-Nermerger,这是一个半自动化的框架,将各种Ti-NER数据集集成到可扩展的,合规的数据集中,与Stix-2.1等网络安全标准对齐。,我们通过使用DNRTI和APTNER数据集将框架的效率和效率进行了比较,从而验证了该框架的效率和有效性,从而产生了增强APTNER(2aptner)。结果表明,手动劳动减少了94%以上,在短短几分钟内节省了几个月的工作。此外,我们应用了高级ML算法来验证集成NER数据集的有效性。我们还提供公开访问的数据集和资源,支持威胁情报和AI模型开发的进一步研究。
我们提出了 MatSci-NLP,一种自然语言基准,用于评估自然语言处理 (NLP) 模型在材料科学文本上的性能。我们根据公开的材料科学文本数据构建基准,涵盖七种不同的 NLP 任务,包括命名实体识别和关系分类等传统 NLP 任务,以及特定于材料科学的 NLP 任务,例如与创建材料合成程序有关的合成动作检索。我们研究了在 MatSci-NLP 上对不同科学文本语料库进行预训练的各种基于 BERT 的模型,以了解预训练策略对理解材料科学文本的影响。鉴于材料科学领域高质量注释数据的稀缺,我们使用有限的训练数据进行微调实验,以鼓励在 MatSci-NLP 任务中进行泛化。我们在这种低资源训练环境中进行的实验表明,在科学文本上预训练的语言模型优于在一般文本上训练的 BERT。 Mat-BERT 是一种专门针对材料科学期刊进行预训练的模型,通常在大多数任务中表现最佳。此外,我们提出了一种统一的文本到模式的 MatSci-NLP 多任务学习方法,并将其性能与传统的微调方法进行了比较。在对不同训练方法的分析中,我们发现我们提出的受问答启发的文本到模式方法始终优于单任务和多任务 NLP 微调方法。代码和数据集是公开可用的 1 。