药物系统提供和/或利用的数据通常分为两类:(a)事实药物数据和(b)知识药物数据。事实药物数据主要包括药物处方和药物管理数据,医院通常将这些数据以出院信或药单中的自由文本形式存档。已经提出了几种对事实药物数据进行信息检索的方法:信息提取和自由文本搜索 [1]、机器学习 [2]。然而,实现有效的信息检索系统除了需要使用事实数据外,还需要使用知识数据。知识图谱结构(包括概念图形式主义 [3])已用于生物医学知识,数据表示特别适合药物知识数据 [4]。现有的药物数据库(如 Wikidata [5]、Drug Bank 2 或 GoodRx 3)包含有价值的信息,但如果单独获取和/或将其中一些信息存储为非结构化数据则缺乏全面性 [6]。本研究介绍了一种系统的设计,该系统能够检索法国诺曼底鲁昂大学医院诺曼底健康数据仓库 (EDSaN) [7] 中的处方订单。药物知识数据的概念图如下:
摘要:在数字时代,媒体内容对于政治分析至关重要,它们通过新闻文章、社交媒体帖子、演讲和报告提供宝贵的见解。自然语言处理 (NLP) 改变了政治信息提取 (IE),使事件提取和情感分析等任务自动化。传统的 NLP 方法虽然有效,但通常针对特定任务,需要专业知识。相比之下,由生成人工智能 (GenAI) 驱动的大型语言模型 (LLM) 提供了更集成的解决方案。然而,特定领域的挑战依然存在,这导致了检索增强生成 (RAG) 框架的开发。RAG 通过整合外部数据检索来增强 LLM,解决了与数据可用性相关的问题。为了展示 RAG 的功能,我们介绍了 Political-RAG 系统,该系统旨在从媒体内容(包括 Twitter 数据和新闻文章)中提取政治事件信息。Political-RAG 系统最初是为事件提取而开发的,为开发各种复杂的政治 IE 任务奠定了基础。这些包括检测仇恨言论、分析冲突、评估政治偏见以及评估社会趋势、情绪和观点。
抽象的高通量技术导致了有关人类基因组中调节性DNA元素的大量数据。但是,疾病驱动的研究的结果主要以文本形式作为科学文章共享。信息提取(IE)算法允许(半)自动访问此信息。他们的发展取决于注释的语料库的可用性。因此,我们引入了Regel(reg ulatory element),这是第一个免费提供的语料库,其中包含305个PubMed摘要的调节性DNA元素,总共有2690个句子。我们专注于增强子,启动子和转录因子结合位点。三个注释者在两个阶段工作,达到了总体0.73 F1通道一致性,调节元素为0.46。取决于实体类型,IE基准的实体检测达到0.48–0.91的F1-分数,实体归一化的基准为0.48-0.91,0.71–0.88达到0.71–0.88。接下来,我们将实体检测模型应用于整个PubMed收集,并提取基因或与调节元素的疾病的共发生。这产生了与137 870个独特基因和7420疾病相关的大量调节元素,我们可以公开使用。数据库URL:https://zenodo.org/record/6418451#.yqclhvexvqg
摘要 本文回顾了创意产业背景下人工智能 (AI) 技术和应用的现状。简要介绍了人工智能,特别是机器学习 (ML) 算法,包括卷积神经网络 (CNN)、生成对抗网络 (GAN)、循环神经网络 (RNN) 和深度强化学习 (DRL)。我们根据人工智能技术的使用方式将创意应用分为五类:i) 内容创作,ii) 信息分析,iii) 内容增强和后期制作工作流程,iv) 信息提取和增强,以及 v) 数据压缩。我们批判性地审视了这项快速发展的技术在每个领域的成功和局限性。我们进一步区分了人工智能作为创意工具的用途和它作为创造者的潜力。我们预见,在不久的将来,基于 ML 的人工智能将被广泛用作创意工具或协作助手。相比之下,我们观察到,在限制较少的领域,即人工智能作为“创造者”的领域,机器学习的成功率仍然不高。基于当代技术,人工智能(或其开发者)在与人类创意竞争中赢得原创作品奖项的潜力也很有限。因此,我们得出结论,在创意产业的背景下,人工智能的最大收益将来自于以人为本的地方——即人工智能旨在增强而不是取代人类创造力的地方。
人工智能现象已在多个领域得到广泛研究。相反,就人力资源管理中的人工智能而言,文献对人力资源管理中人工智能 (AI) 的采用因素的研究有限。从人员配置到管理绩效或薪酬,人工智能已进入人力资源管理的多个领域。提出了一系列关于如何在人力资源管理中采用人工智能的建议。这项研究旨在确定人力资源管理中人工智能六种场景的采用因素。这些场景是使用人工神经网络进行离职预测、使用基于知识的搜索引擎进行候选人搜索、使用遗传算法进行员工排班、使用文本挖掘进行人力资源情绪分析、使用信息提取进行简历数据获取以及使用交互式语音响应进行员工自助服务。因此,兼容性、相对优势、复杂性、管理支持、政府参与和供应商伙伴关系是影响人力资源管理中采用人工智能的决定性因素。本文试图通过探索采用人工智能的决定性因素,最大限度地降低人力资源管理某些领域采用人工智能所带来的风险,为从业者和学者提供新的见解。
旨在自动从科学文献中提取信息的科学信息提取(Sciie)比以往任何时候都变得更加重要。但是,没有用于聚合物材料的Sciie数据集,这是我们日常生活中普遍使用的重要材料类别。为了弥合这一差距,我们介绍了P oly IE,即用于聚合物材料的新科学数据集。p oly IE是从146个全长聚合物学术文章中提出的,这些文章用不同的命名实体(即材料,性质,瓦斯,条件)以及域专家的n个关系进行注释。p oly IE提出了由于实体的多种词汇格式,企业之间的歧义和可变长度关系所带来的独特挑战。我们评估了最先进的实体提取和关系提取模型,即分析其优势和劣势,并突出了这些模型的一些困难案例。据我们所知,P oly IE是第一个用于聚合物材料的Sciie基准,我们希望它将导致社区从事这项挑战任务的更多研究。我们的代码和数据可在以下网址提供:https://github.com/jerry3027/polyie。
摘要 - 无人驾驶汽车(UAV)对关键应用(例如搜索和救援操作)具有巨大的潜力,在搜索和救援行动中,对室内环境的准确感知至关重要。然而,本地化,3D重建和语义细分的同时融合呈现出一个明显的障碍,尤其是在配备有限的功率和计算资源的UAV背景下。本文提出了一种新的方法,可以解决无人机操作中语义信息提取和利用方面的挑战。我们的系统集成了最先进的视觉大满贯,以估计后端的全面的6多姿势和高级对象分割方法。为了提高框架的计算和存储效率,我们采用了简化的基于体素的3D地图表示 - OctOmap来构建工作系统。此外,融合算法是不合适的,可以从前端大满贯任务和相应点获得每个帧的语义信息。通过利用语义信息,我们的框架增强了无人机在室内空间中感知和导航的能力,从而解决了姿势估计准确性和降低不确定性的挑战。通过凉亭模拟,我们验证了我们提出的系统的功效,并将我们的方法成功地嵌入了用于现实世界应用的Jetson Xavier AGX单元中。索引项 - 语义映射,S3M,无人机,ROS,SLAM。
本课程将从第一原理中发展出光学检测中的噪声数学理论,目的是理解效率的基本限制,人们可以在这些效率中提取信息。我们将探讨如何在实际检测前(即在实际检测之前)对轴承光(即,在检测过程中使用检测引起的电磁反馈)的使用如何以有利的方式改变检测后噪声统计量,从而促进提高信息提取信息的提高效率。在整个课程中,我们将评估这种新颖的光学检测方法在光学通信中的应用,并传感并将其性能与传统检测光的方式进行比较。我们还将将这些新型检测方法的性能与在给定的问题上下文中实现的最佳性能 - - 受(量子)物理定律的约束,而没有显示这些基本量子限制的明确推导。本课程背后的主要目标是为来自广泛背景的学生(以及有兴趣的学生)装备,他们正在考虑接受量子增强的光子信息处理中的理论或实验研究,并以更深入的方式思考光学检测的直觉,并为完整的量化量化量的量化量的量化和量化的价值(1)构成量子的价值(1),以构成量子的范围。信息轴承光的预测操作可以帮助将IT信息置于不可避免的检测噪声方面。
我们介绍了一项针对英语公司特定新闻中经济和财务事件注释的新型数据集的试点研究。事件处理会自动获得文本中描述的现实世界事件的“什么,谁,谁,何时何地”。事件提取包括识别事件触发器,即表达预定类型的事件并识别参与者参数的令牌,即表达原型参与者角色的令牌。Event extraction is typically an upstream step in pipelines for financial applications: it has been used for news summarization of single (Lee et al., 2003; Marujo et al., 2017) or multiple documents (Liu et al., 2007; Glavaˇs and ˇ Snajder, 2014), forecasting and market analysis (Nassirtoussi et al., 2014; Bholat et al., 2015; Nardo等,2016;这项工作旨在通过在文本中对经济事件触发器和参与者的论点进行分类,从而在财务领域中启用这些信息提取任务。我们对公司特定事件的续期数据集被认为与ACE基准Corpora的精细事件表示兼容,以便在该领域直接应用预付款。在我们的试点研究中,我们研究了现有的事件提取模型的可移植性,名为Dygie ++(Wadden等,2019b),以实现财务事件提取的任务。
摘要 本研究致力于评估大型语言模型 (LLM)(例如 GPT-3.5-Turbo、GPT-4 和 GPT-4-Turbo)从材料科学科学文献中提取结构化信息的能力。为此,我们主要关注信息提取的两个关键任务:(i) 对所研究材料和物理特性的命名实体识别 (NER) 和 (ii) 这些实体之间的关系提取 (RE)。由于材料信息学 (MI) 中明显缺乏数据集,我们使用基于超导体研究的 SuperMat 和通用测量评估语料库 MeasEval 进行评估。将 LLM 执行这些任务的性能与基于 BERT 架构和基于规则的方法(基线)的传统模型进行对比。我们介绍了一种用于比较分析复杂材料表达的新方法,强调化学式的标准化以解决材料科学信息评估中固有的复杂性。对于 NER,LLM 在零样本提示下无法超越基线,在少样本提示下仅表现出有限的改进。然而,使用适当的 RE 策略进行微调的 GPT-3.5-Turbo 优于所有模型,包括基线。在没有任何微调的情况下,GPT-4 和 GPT-4-Turbo 在仅提供几个示例后就表现出了卓越的推理和关系提取能力,超越了基线。总体而言,结果表明,尽管 LLM 在连接概念方面表现出相关的推理能力,但对于需要提取复杂的特定领域实体(如材料)的任务,专门的模型目前是更好的选择。这些见解为未来工作中其他材料科学子领域提供了初步指导。