摘要 本研究致力于评估大型语言模型 (LLM)(例如 GPT-3.5-Turbo、GPT-4 和 GPT-4-Turbo)从材料科学科学文献中提取结构化信息的能力。为此,我们主要关注信息提取的两个关键任务:(i) 对所研究材料和物理特性的命名实体识别 (NER) 和 (ii) 这些实体之间的关系提取 (RE)。由于材料信息学 (MI) 中明显缺乏数据集,我们使用基于超导体研究的 SuperMat 和通用测量评估语料库 MeasEval 进行评估。将 LLM 执行这些任务的性能与基于 BERT 架构和基于规则的方法(基线)的传统模型进行对比。我们介绍了一种用于比较分析复杂材料表达的新方法,强调化学式的标准化以解决材料科学信息评估中固有的复杂性。对于 NER,LLM 在零样本提示下无法超越基线,在少样本提示下仅表现出有限的改进。然而,使用适当的 RE 策略进行微调的 GPT-3.5-Turbo 优于所有模型,包括基线。在没有任何微调的情况下,GPT-4 和 GPT-4-Turbo 在仅提供几个示例后就表现出了卓越的推理和关系提取能力,超越了基线。总体而言,结果表明,尽管 LLM 在连接概念方面表现出相关的推理能力,但对于需要提取复杂的特定领域实体(如材料)的任务,专门的模型目前是更好的选择。这些见解为未来工作中其他材料科学子领域提供了初步指导。
我们提出了 MatSci-NLP,一种用于评估自然语言处理 (NLP) 模型在材料科学文本上的性能的自然语言基准。我们根据公开的材料科学文本数据构建基准,涵盖七种不同的 NLP 任务,包括命名实体识别和关系分类等传统 NLP 任务,以及特定于材料科学的 NLP 任务,例如与创建材料合成程序有关的合成动作检索。我们研究了在 MatSci-NLP 上在不同科学文本语料库上预训练的各种基于 BERT 的模型,以了解预训练策略对理解材料科学文本的影响。鉴于材料科学领域高质量注释数据的稀缺,我们使用有限的训练数据进行微调实验,以促进在 MatSci-NLP 任务中的推广。我们在这种低资源训练环境中进行的实验表明,在科学文本上预训练的语言模型比在一般文本上训练的 BERT 表现更好。Mat-BERT 是一种专门针对材料科学期刊进行预训练的模型,通常在大多数任务中表现最佳。此外,我们提出了一种用于 MatSci-NLP 多任务学习的统一文本到模式,并将其性能与传统微调方法进行了比较。在对不同训练方法的分析中,我们发现我们提出的受问答启发的文本到模式方法始终优于单任务和多任务 NLP 微调方法。代码和数据集是公开可用的 1 。
使用与其法律地位,所有权结构和授权代表有关的任何数字互动,交易或电子签名方案的非申请识别数据。关于金融稳定委员会于2014年6月成立的全球法律实体标识符基金会(GLEIF),全球法律实体标识符基金会(GLEIF)是一个非营利组织,旨在支持法律实体标识符(LEI)及其数字对策的实施和使用。gleif总部位于瑞士巴塞尔。gleif的使命是管理一个全球合作伙伴网络,以为全球独特的法律实体识别提供可信赖的服务和开放,可靠的数据。gleif使通过开放的数据许可证提供技术基础架构,可以在线访问全球LEI数据库,免费提供给用户。gleif由监管监督委员会监督,该委员会由全球公共当局的代表组成。多样性和包容性是Gleif的价值观。这反映在其大约20多个国家的60名员工的劳动力中,其运营卓越以及对全球列伊系统的开放全球参与的承诺。有关更多信息,请访问GLEIF网站https://www.gleif.org/en。资料来源:全球法律实体标识符基金会,St. Alban-Vorstadt 12,4052巴塞尔,瑞士董事会主席:Teresa Glasser,首席执行官Teresa Glasser:Alexandre Kech Commercial-Register-No。:CHE-200.595.965,增值税。:CHE-200.595.965MWST LEI:506700GE1G29325QX363关注我们:
代码将自动验证,而无需人工干预。它使政府组织,公司和其他法人实体在全球范围内使用与其法律地位,所有权结构和授权代表有关的任何数字互动,交易或电子签名情景的不可申请识别数据的能力。关于金融稳定委员会于2014年6月成立的全球法律实体标识符基金会(GLEIF),全球法律实体标识符基金会(GLEIF)是一个非营利组织,旨在支持法律实体标识符(LEI)及其数字对策的实施和使用。gleif总部位于瑞士巴塞尔。gleif的使命是管理一个全球合作伙伴网络,以为全球独特的法律实体识别提供可信赖的服务和开放,可靠的数据。gleif使通过开放的数据许可证提供技术基础架构,可以在线访问全球LEI数据库,免费提供给用户。gleif由监管监督委员会监督,该委员会由全球公共当局的代表组成。多样性和包容性是Gleif的价值观。这反映在其大约20多个国家的60名员工的劳动力中,其运营卓越以及对全球列伊系统的开放全球参与的承诺。有关更多信息,请访问GLEIF网站https://www.gleif.org/en。:CHE-200.595.965,增值税。:CHE-200.595.965MWST LEI:506700GE1G29325QX363关注我们:资料来源:全球法律实体标识符基金会,St. Alban-Vorstadt 12,4052巴塞尔,瑞士董事会主席:Teresa Glasser,首席执行官Teresa Glasser:Alexandre Kech Commercial-Register-No。
收到日期:2024 年 12 月 4 日;修订日期:2024 年 12 月 28 日;接受日期:2024 年 1 月 10 日;发布日期:2024 年 1 月 29 日;摘要 - 神经符号人工智能 (NeSy AI) 代表了自然语言处理 (NLP) 领域的一种突破性方法,将神经网络的模式识别与符号人工智能的结构化推理相结合,以解决人类语言的复杂性。本研究调查了神经符号人工智能在提供细致入微的理解和上下文相关响应方面的有效性,其驱动力是克服现有模型在处理复杂语言任务和抽象推理方面的局限性。该研究采用将多模态上下文建模与规则控制的推理和记忆激活相结合的混合方法,深入研究命名实体识别 (NER) 等特定应用,其中 BiLSTM + CRF 等架构通过分析整个句子上下文表现出更高的准确性。研究结果肯定了神经符号人工智能在增强语言解析、语义歧义解析和整体语言理解能力方面的潜力。值得注意的是,这项研究展示了在改进 NER 任务方面取得的重大进展,突出了这种方法的实际意义和有效性。这项研究表明,神经符号人工智能的发展体现了人们不断追求在机器和人类语言之间创造更复杂、更准确、更像人类的交互,有望对医疗保健和教育等各个领域产生变革性影响。这些发现为人工智能的未来研究和发展铺平了道路,突破了技术在理解和与人类语言互动方面的作用的界限。
研究化合物诱导不良影响的方式,毒理学家一直在构建不良结果途径(AOPS)。AOP可以被视为一种务实的工具,可以捕获和可视化任何类型的压力源会影响不同类型的毒性的机制,并描述关键实体之间的相互作用,从而导致多个组织生物学水平的不利结果。AOP的构建或优化是一个劳动密集型过程,目前取决于手动搜索,收集,审查和综合可用科学文献。但是,可以使用自然语言处理(NLP)在很大程度上促进此过程,以从系统,客观和快速的方式中提取科学文献中包含的信息,从而提高准确性和可重复性。这将支持研究人员通过替换NLP提取的数据进行的批判性审查来收集证据收集的时间来投资于AOP的实质性评估。作为案例示例,我们选择了在肝脏中观察到的两个频繁的逆境:即分别表示胆汁和脂质的积累,胆汁淤积和脂肪变性。我们使用深度学习语言模型来识别文本中感兴趣的实体,并在其之间建立因果关系。我们演示了NLP管道如何将命名实体识别和基于规则的关系提取模型组合在一起,有助于筛选文献中与肝脏逆境有关的化合物,同时也提取机械信息,以了解从分子到生物体的分子发展的方式。最后,我们提供了一些最新语言模型的进展以及将来如何使用这些观点。我们提出这项工作带来了两个主要贡献:1)概念证明NLP可以支持从现代毒理学文本中提取信息的信息; 2)模板开源
Providence Consulting Group (Providence) 欢迎有机会向内政部 (Department) 提交关于 SOCI 法案所启用的风险管理计划 (RMP) 规则草案的意见。Providence 认识到公私合作伙伴关系在制定和实施对澳大利亚关键基础设施部门的这些关键改革方面的重要性。我们将继续致力于与政府和关键基础设施实体所有者和运营商合作,通过提供我们作为人员安全、国际供应链人员安全风险建议、内部威胁管理、安全教育、安全治理和保护性安全能力开发方面的领先专家的经验,改善关键基础设施资产的风险管理和保护性安全结果。我们恭敬地提供以下意见,其中提供了 Providence 对 RMP 规则草案的评论和意见。RMP 要求概述 SOCI 法案有权要求关键基础设施资产的责任实体拥有并遵守 RMP。RMP 要求关键基础设施实体识别可能对关键基础设施资产产生影响的重大风险,并在合理可行的范围内尽量减少、消除或减轻风险。为了实现有效的安全风险管理,关键基础设施实体需要识别关键资产、威胁、漏洞、后果和缓解措施。RMP 需要关注保护性安全的关键要素:网络和信息、物理(包括自然灾害)、供应链和人员安全。RMP 规则的灵活性使关键基础设施实体能够以最适合其个人安全目标和目的、特定风险、威胁环境和安全能力的方式定制 RMP。SOCI 法案第 30AG 条规定,关键基础设施实体将被要求向该部门提供一份经董事会批准的关于其 RMP 绩效和发展的年度报告。当前威胁环境 了解关键基础设施实体的当前威胁环境和特定安全风险是适当制定有效保护性安全解决方案的关键要素之一。威胁范围从极端天气事件等自然灾害到人为因素
neuron7.ai摘要:Neuron7的搜索工具是一种尖端的,AI驱动的解决方案,扩展了检索功能增长生成(RAG)的概念,以提供上下文感知的搜索和实时适应性。通过将抹布与实体歧义,LLM,元数据富集,视觉模型和用户反馈循环结合使用,Neuron7的搜索平台不仅可以检索和生成内容,而且可以自主完善,过滤器和适应搜索结果,以提供可行的见解。此白皮书探讨了Neuron7的搜索解决方案如何通过体现代理体系结构,提供一个基于实时输入和不断发展的用户需求的系统来使破布达到新的水平。1。简介企业搜索的景观已经发展到传统的基于关键字的搜索工具之外,这些搜索工具只需根据文本匹配来检索文档即可。当今的高级搜索解决方案利用人工智能(AI)不仅提供信息,而且提供上下文理解和可行的见解。Neuron7搜索通过将检索增强生成(RAG)与各种高级功能(例如命名实体识别(NER),元数据富集,视觉模型和实时学习)结合起来,将其提升到一个新的水平。该系统例证了代理体系结构,自主做出决定,根据这些决策采取行动,并不断从反馈中学习以增强搜索准确性和相关性。2。什么是代理体系结构?代理系统的关键特征包括:Neuron7搜索不仅可以检索数据并生成内容;它可以自主完善搜索结果,过滤数据,并旨在满足不仅需要找到信息的企业需求,而且还可以理解,上下文化和采取行动。代理体系结构是指具有自主决策,适应性行为以及根据环境投入和内部目标采取行动的系统。这些系统从环境(例如数据或用户查询)中感知输入,根据该输入做出决策,并采取行动以实现特定目标,而无需在每个决策点需要人为干预。
研讨会:数字奴隶Ilia afanasev,Elias Moncef Bounatrou,MaximilianGrübsch,Anna Jouravel,进入21st人文科学和社会科学中的研究机会和方法发生了巨大变化。大语言模型(LLM)的培训和伯特等变压器的发展(Devlin等人2019)或GPT家族(Brown等人al 2020)影响所有语言领域,特别是自然语言的处理(NLP),而斯拉夫语言学也不例外(请参见Nogolová等。 2023)。 本研讨会的目的是探索LLM对斯拉夫研究中问题和工作方法的影响。 Regina Guzaerova(Justus-Liebig-universitätgießen)基于语料库的分析,对俄罗斯讲俄罗斯的媒体领域的政治正确性和新道德的概念这项研究探索了俄罗斯语言媒体领域的政治正确性和新道德的概念通过全面的基于语料库的分析。 使用先进的自然语言处理(NLP)技术与传统语料库语言方法一起研究,研究了这些概念如何被列入并已在近年来在俄罗斯媒体中发展。 该研究使用各种来源的多样化和代表性语料库,包括俄罗斯报纸,在线新闻平台,博客和社交媒体,跨越2010年至2024年。 情感分析评估了公众的态度和情感色调,揭示了媒体报道的发展方式。 2。Nogolová等。2023)。本研讨会的目的是探索LLM对斯拉夫研究中问题和工作方法的影响。Regina Guzaerova(Justus-Liebig-universitätgießen)基于语料库的分析,对俄罗斯讲俄罗斯的媒体领域的政治正确性和新道德的概念这项研究探索了俄罗斯语言媒体领域的政治正确性和新道德的概念通过全面的基于语料库的分析。使用先进的自然语言处理(NLP)技术与传统语料库语言方法一起研究,研究了这些概念如何被列入并已在近年来在俄罗斯媒体中发展。该研究使用各种来源的多样化和代表性语料库,包括俄罗斯报纸,在线新闻平台,博客和社交媒体,跨越2010年至2024年。情感分析评估了公众的态度和情感色调,揭示了媒体报道的发展方式。2。这个广泛的时间范围可以详细探讨与政治正确性和新道德有关的话语中的时间动态和转变。高级NLP技术,例如命名实体识别(NER)和主题建模标识语料库内的关键实体和基本主题。话语分析认真研究了媒体对政治正确性和新道德的框架,从而强调了政治取向和媒体类型的差异。结果提供了对术语频率,分布和上下文的见解,从而提供了对公共话语的细微理解。趋势说明了这些概念的演变,并与重大的社会政治事件相关。这项研究为全球政治正确性和不断发展的社会规范的全球表现形式的研究做出了贡献。通过关注讲俄语的背景,我们阐明了这些概念如何在特定的文化和语言领域中进行本地化,有争议和重新构想。我们的发现暗示了理解跨文化交流,媒体话语分析以及与社会正义和文化变革有关的思想的全球循环。Maksim Aparovich (KNOT Knowledge Research Group, Brno University of Technology), Volha Harytskaya, Vladislav Poritski, Oksana Volchek (independent scholar, Lithuania), Pavel Smrž (KNOT Knowledge Research Group, Brno University of Technology) Towards a GLUE-type benchmark for Belarusian Recent progress in language modelling gave rise to various kinds of natural language understanding benchmarks.其中许多类似于胶水[Wang等。2020]和波兰[Rybak等。2016a]及其后代超粘合剂[Wang等。2019b];特别是,此类基准可用于俄罗斯[Shavrina等。2020],但它们尚未用于一些较小的,相对较低的斯拉夫语言,这会阻碍LLMS中多语言能力的进一步发展。本演示文稿为东斯拉夫语言是白俄罗斯语的胶合型基准。基准包括五个专注于以下任务的新型数据集:1。句子级别的情感分析。具有正性和负极性(无中性)的句子是从主题上不同的在线资源中手动选择的,这些句子反映了现代书面白俄罗斯人的现实世界多样性。命名实体识别。数据集,源自通用依赖性中的BE_HSE语料库[Nivre等。2020; Shishkina&Lyashevskaya 2021],已根据通用指南进行注释[Mayhew等。2024]。
Providence Consulting Group (Providence) 欢迎有机会向内政部 (Department) 提交关于 SOCI 法案所启用的风险管理计划 (RMP) 规则草案的意见。Providence 认识到公私合作伙伴关系在制定和实施澳大利亚关键基础设施部门的这些关键改革方面的重要性。我们将继续致力于与政府和关键基础设施实体所有者和运营商合作,通过提供我们作为人员安全、国际供应链人员安全风险建议、内部威胁管理、安全教育、安全治理和保护性安全能力开发方面的领先专家的经验,改善关键基础设施资产的风险管理和保护性安全结果。我们恭敬地提交以下意见,其中提供了 Providence 对 RMP 规则草案的评论和意见。RMP 要求概述 SOCI 法案有权要求关键基础设施资产的责任实体拥有并遵守 RMP。RMP 要求关键基础设施实体识别可能对关键基础设施资产产生影响的重大风险,并在合理可行的范围内尽量减少、消除或减轻风险的实现。为了实现有效的安全风险管理,关键基础设施实体需要识别关键资产、威胁、漏洞、后果和缓解措施。风险管理计划需要关注保护性安全的关键要素:网络和信息、物理(包括自然灾害)、供应链和人员安全。风险管理计划规则的灵活性使关键基础设施实体能够以最适合其个人安全目标和目的、特定风险、威胁环境和安全能力的方式定制风险管理计划。SOCI 法案第 30AG 条规定,关键基础设施实体需要向该部门提供一份经董事会批准的关于其风险管理计划绩效和发展的年度报告。当前威胁环境了解关键基础设施实体当前的威胁环境和特定安全风险是适当定制有效保护性安全解决方案的关键要素之一。威胁范围从极端天气事件等自然灾害到人类