摘要 - 传统数据驱动的质量预测方法主要是由静态模型构建的,使用慢速采样率的清洁数据,使得dynamics未使用。为了充分利用以快速采样率收集的动态过程数据,本文提出了一种新型的基于深度学习的鲁棒双率动态数据建模方法,以质量预测动态非线性过程。首先提出了一种新的动态数据降级性对抗归因网络,以解决动态过程数据之间缺少的价值插补。然后,建立了一个新的提示卷积神经网络(HCNN),用于基于双速率数据的质量预测。提出的HCNN将通道扩展的信息提示机理纳入卷积神经网络中,以使用明确的时间和可变信息提取动态特征。最后,使用DOW蒸馏过程数据集和北京多站点空气质量数据集对所提出的方法进行了验证。
在过去的几十年中,描述化学结构的出版物数量稳步增加。然而,目前大多数已发表的化学信息在公共数据库中都无法以机器可读的形式获得。以更少的人工干预方式实现信息提取过程的自动化仍然是一个挑战——尤其是化学结构描述的挖掘。作为一个利用深度学习、计算机视觉和自然语言处理方面的最新进展的开源平台,DECIMER.ai(化学图像识别深度学习)致力于自动分割、分类和翻译印刷文献中的化学结构描述。分割和分类工具是同类中唯一公开可用的软件包,光学化学结构识别 (OCSR) 核心应用程序在所有基准数据集上都表现出色。这项工作中开发的源代码、训练模型和数据集均已在许可下发布。DECIMER Web 应用程序的一个实例可在 https://decimer.ai 获得。
程序性知识是执行某些任务所需的知识,是专业知识的重要组成部分。程序性知识的主要来源是自然语言指令。虽然这些可读的指令是人类有用的学习资源,但它们无法被机器解释。由于其在过程自动化中的潜在应用,从指令中自动获取机器可解释格式的程序性知识已成为一个越来越受欢迎的研究课题。然而,它还没有得到充分解决。本文介绍了一种方法和一个实现的系统,以帮助用户自动从指令中获取结构化形式的程序性知识。我们引入了一种用于分析指令的程序的通用语义表示,使用该表示,自然语言技术可以自动从指令中提取结构化程序。在三个领域对该方法进行了评估,以证明所提出的语义表示的通用性以及实现的自动系统的有效性。关键词:程序性知识,信息提取,指导性文本
科学问题解决涉及在应用专家知识的同时综合信息。我们引入了 CURIE,这是一个科学的长上下文理解、推理和信息提取基准,用于衡量大型语言模型 (LLM) 在协助科学家进行现实实验和理论工作流程方面的潜力。该基准引入了由六个学科的专家策划的十项具有挑战性的任务:材料科学、凝聚态物理、量子计算、地理空间分析、生物多样性和蛋白质。我们在 CURIE 中的任务上评估了一系列封闭和开放的 LLM,这些任务需要领域专业知识、对长上下文信息的理解和多步骤推理。虽然 Claude-3 在各个领域都表现出一致的高理解力,但流行的 GPT-4o 和 command-R + 在蛋白质测序任务上表现不佳。总的来说,所有模型都有很大改进空间。我们希望这项工作能够指导未来科学领域 LLM 的发展。
在量子科学中,表征强关联物质是一项日益重要的挑战,因为其结构常常被大量纠缠所掩盖。越来越明显的是,在量子领域,状态准备和表征不应分开处理——将这两个过程纠缠在一起可在信息提取方面带来量子优势。在这里,我们提出了一种结合绝热态准备和拉姆齐光谱学的方法,我们称之为“多体拉姆齐干涉法”:利用我们最近开发的计算基态和多体本征态之间的一对一映射,我们准备一个由辅助量子比特的状态控制的多体本征态叠加,让叠加演化出相对相位,然后逆转准备协议以解开辅助量子比特的纠缠,同时将相位信息重新定位到其中。然后,辅助量子比特断层扫描提取有关多体本征态、相关激发光谱和热力学可观测量的信息。这项工作证明了利用量子计算机有效探索量子物质的潜力。
知识图(kg)用于人工智能(AI)的许多下游任务。但是,由于与信息提取相关的准确性问题,kg通常是不完整的。这导致了知识图完成(KGC)任务的出现。他们的目的是学习已知事实,以推断三元组中的失踪实体。基于传统的嵌入方法通常仅关注单个三元组的信息,而不使用kg的深层逻辑关系。在这项研究中,我们提出了一种新的KGC方法,称为QIQE-KGC。它使用量子嵌入和四个空间相互作用来捕获kg中三元组之间的外部逻辑关系,并增强单个三重三重实体与关系之间的联系以建模并表示kg。提出的QIQE-KGC模型可以捕获更丰富的逻辑信息,并具有更强大且复杂的关系建模功能。使用QIQE-KGC在11个数据集上使用QIQE-KGC的广泛实验结果表明,该模型可实现出色的性能。与基线模型相比,QIQE-KGC在大多数数据集上产生了最佳结果。
我们提出了一项研究议程,旨在有效提取,确保质量和巩固文本公司的可持续性信息,以满足紧急的气候变化决策需求。从目标开始,是创建与气候相关数据的集成公平(可访问,可访问,可互操作,可再利用的数据,我们确定与信息提取的技术方面以及与我们寻求编译的综合可持续性数据集有关的研究需求。关于提取,我们利用技术进步,尤其是在大语言模型(LLMS)和检索功能(RAG)管道中,以解锁公司可持续性报告中包含的非结构化文本信息的未充分利用的潜力。在应用这些技术时,我们回顾了关键挑战,其中包括从PDF文档中检索和提取CO2排放值的检索和提取,尤其是在其中的非结构表和图中,以及通过与人类宣传的值进行比较来自动提取数据的验证。我们还回顾了气候风险中现有的用例和实践与选择应提取哪些文本信息以及如何将其链接到现有结构化数据的选择有关。
随着人工智能的发展,可穿戴视觉仿生设备正在取得显著进步。然而,传统的硅视觉芯片往往面临着高能量损失和模拟复杂生物行为的挑战。在本研究中,我们通过精心引导有机分子的排列,构建了范德华 P3HT/GaAs 纳米线 PN 结。结合肖特基结,这实现了多方面的类似鸟类的视觉增强,包括宽带非易失性存储、低光感知和接近零功耗的工作模式,无论是在单个设备和任意基板上的 5×5 阵列中。具体来说,我们实现了超过 5 位的内存传感和计算,具有负和正光电导性。当与两种成像模式(可见光和紫外线)结合时,我们的储层计算系统对颜色识别的准确率高达 94%。它实现了运动和紫外线灰度信息提取(显示防晒霜),从而实现融合视觉成像。这项工作为宽带、高度仿生的光电神经形态系统提供了有前景的材料和器件的联合设计。
诸如 GPT 之类的预训练语言模型因其通用人工智能能力而受到称赞,如今被广泛用于问答、信息提取和文本摘要等任务。但是,对于拥有 1750 亿个参数的 GPT-3,训练需要 10,000 个 GPU,耗费 552 公吨二氧化碳。1 因此,出现了一个问题,即 AI 模型有多“绿色”。无论道德评估如何,我们认为对 AI 系统的能源消耗和可持续性特征(例如运营成本)进行建模是有用的,从而扩展了 FAIR 数据原则 [ 1 ],该原则侧重于研究数据和其他工件的可用性和重用。现有的本体和知识图谱侧重于研究格局的建模、出版物、作者和场所的建模(例如 FaBiO、ORKG、MAKG)[ 2 ]。此外,还提出了用于建模软件和神经网络的本体。例如,信息学研究工件本体 (OIRA) [ 3 ] 提供了一种对软件和数据集进行建模的方法。在 FAIRnets [ 4 ] 中,作者提出了一种用于建模神经网络的模式。然而,令人惊讶的是,这些本体都无法对 AI 模型的能耗进行建模(例如,预训练语言模型的运行时间或二氧化碳足迹,可以通过工具进行测量 [ 5 ])。
第一单元 - 介绍 9 介绍 - 定义 - 人工智能的未来 - 智能代理的特征 - 典型的智能代理 - 典型人工智能问题的解决方法。第二单元 - 问题解决方法 9 问题解决方法 - 搜索策略 - 不知情 - 知情 - 启发式 - 局部搜索算法和优化问题 - 使用部分观察进行搜索 - 约束满足问题 - 约束传播 - 回溯搜索 - 游戏玩法 - 游戏中的最佳决策 - Alpha - Beta 剪枝 - 随机游戏。第三单元 - 知识表示 9 一阶谓词逻辑 – Prolog 编程 – 统一 – 前向链接 – 后向链接 – 解析 – 知识表示 - 本体工程-类别和对象 – 事件 - 心理事件和心理对象 - 类别推理系统 - 使用默认信息进行推理。第四单元 - 软件代理 9 智能代理架构 – 代理通信 – 谈判和讨价还价 – 代理之间的争论 – 多代理系统中的信任和声誉。第五单元 - 应用 9 人工智能应用 – 语言模型 – 信息检索- 信息提取 – 自然语言处理 - 机器翻译 – 语音识别 – 机器人 – 硬件 – 感知 – 规划 – 移动。