为机器配备常识和特定领域的知识,使其能够像人类一样理解某些问题领域,这一直是人工智能研究的主要目标,现在仍然是。在这种情况下,一个关键问题是,将所有相关知识编码成机器可以利用的自动推理、不一致性检测等方式的成本实际上有多高。虽然最近有一些关于开发方法的研究,使我们能够估算知识工程项目的成本 [12],但可以合理地假设并非所有相关知识都可以手动编码。通过分析人类行为及其产生的数据来提取和发现知识的技术可以在这方面做出重要贡献。本体学习领域是 Alexander Mädche 和 Steffen Staab 于 2001 年创造的一个术语 [7],它涉及从数据中得出相关本体知识的方法的开发。到目前为止,该领域已经进行了十多年的深入研究。该领域的早期研究侧重于将浅层方法应用于术语和概念提取以及层次和非层次关系提取 [7]。后来,在我的博士论文《从文本中进行本体学习和填充:算法、评估和应用》中,我将本体学习定义为从数据中获取领域模型,并试图通过介绍所谓的本体学习层蛋糕来系统地概述本体学习任务,此后该任务受到了广泛关注。近年来,一些研究人员试图提高从文本数据中学习到的本体的表达能力,特别是通过尝试提取更深层次的公理知识(例如参见 [13]、[14] 和 [4])。本卷中也可以找到一些类似的贡献,例如旨在通过应用归纳技术学习 OWL 公理(参见Lehmann 等人本卷中的 [5] 和 Lisi [6])。本体学习问题比预期的要困难得多。在我看来,主要原因是本体总是反映概念化世界或给定领域的方式,而从一组数据中学习的本体学习算法的结果本质上反映了所讨论数据集的特性。本体学习的问题比预想的要困难得多。因此,将本体算法的结果转化为实际反映领域概念化的本体,可能比从头开始构建本体的成本更高。在我看来,主要原因是本体总是反映概念化世界或给定领域的方式,而从一组数据中学习的本体学习算法的结果本质上反映了所讨论数据集的特性。因此,将本体的结果
摘要。我们通过将结构化的霓虹灯方法框架与大语言模型(LLMS)相结合,以将自然语言域描述转化为Tur-The语法本体,以解决本体学习的任务。本文的主要贡献是针对域 - 不稳定建模量身定制的及时管道,例如通过应用于特定领域的案例研究:葡萄酒本体论。使用管道用于开发霓虹灯-GPT,一种自动本体模型的工作流程及其概念实现的证明,并集成在隐义平台的顶部。NEON-GPT利用了霓虹灯方法和LLMS生成型的系统方法来促进更有效的本体发展过程。我们通过使用斯坦福葡萄酒本体论作为黄金标准进行全面评估来评估所提出的方法。获得的结果表明,LLM并未完全能够执行本体开发所需的程序任务,并且缺乏所需的推理技能和领域专业知识。总体而言,LLM需要与连续知识工程任务的工作流或轨迹工具集成。尽管如此,LLMS可以大大减轻所需的时间和专业知识。我们的代码基础可公开用于研究和开发目的,可访问:https://github.com/andreamust/neon-gpt。
让机器具备常识和特定领域的知识,使它们能够像人类一样理解某些问题领域,这一直是人工智能研究的主要目标,现在仍然是。在这种情况下,一个关键问题是,将所有相关知识编码成机器可以利用的自动推理、不一致性检测等方式的成本实际上有多高。虽然最近有一些研究开发了可以估算知识工程项目成本的方法 [12],但可以合理地假设并非所有相关知识都可以手动编码。通过分析人类行为及其产生的数据来提取和发现知识的技术可以在这方面做出重要贡献。本体学习领域是 Alexander Mädche 和 Steffen Staab 于 2001 年创造的一个术语 [7],它涉及从数据中得出相关本体知识的方法的开发。到目前为止,该领域已经进行了十多年的深入研究。该领域早期的研究集中于将浅层方法应用于术语和概念提取以及层次和非层次关系提取 [7]。后来,在我的博士论文《从文本中进行本体学习和填充:算法、评估和应用》中,我将本体学习定义为从数据中获取领域模型,并尝试通过引入所谓的本体学习层来系统地概述本体学习任务,这从那时起就受到了广泛关注。近年来,一些研究人员试图提高从文本数据中学习到的本体的表达能力,特别是尝试提取更深层次的公理知识(例如参见 [13]、[14] 和 [4])。本卷中也可以找到一些类似的贡献,例如旨在通过应用归纳技术学习 OWL 公理(参见本卷中的 Lehmann 等人 [5] 和 Lisi [6])。本体学习的问题比预期的要困难得多。在我看来,主要原因是本体总是反映概念化世界或给定领域的方式,而从一组数据中学习的本体学习算法的结果本质上反映了所讨论数据集的特性。因此,将本体算法的结果转化为实际上反映领域概念化的本体可能比从头开始构建本体的成本更高。本体学习的问题比预期的要困难得多。在我看来,主要原因是本体总是反映概念化世界或给定领域的方式,而从一组数据中学习的本体学习算法的结果本质上反映了所讨论数据集的特性。因此,将本体算法的结果转化为实际上反映领域概念化的本体可能比从头开始构建本体的成本更高。而本体学习算法从一组数据中学习的结果本质上反映了数据集的特性。因此,将本体的结果转化为
摘要当前,大多数本体论都是手动创建的,这是耗时且劳动力密集的。同时,大型语言模型(LLM)的高级功能已被证明在各个领域中有益,从而显着提高了文本处理和文本生成的效率。因此,本文着重于将LLMS用于本体学习。它使用手动本体构建方法作为促进本体学习LLM的基础。所提出的方法基于检索增强产生(RAG),并将其传递给LLM的查询基于手动本体论方法 - Lite本体论。已经对LLM的两种不同变体进行了实验,它们都以不同程度的程度证明了本体学学习的能力。这种方法显示了使用LLMS(半)自动化本体学习学习的方向的有希望的初始结果,并使没有先前领域专业知识的人的本体论施工过程更容易。最终的本体论是由域专家评估的,并根据定义的标准对其进行了排名。基于评估结果,最终的本体论可以用作基本版本,但是它需要域专家的进一步微调以确保其准确性和完整性。
本体学习旨在在大数据的背景下基于机器学习技术来促进自动或半自动性开发。最新的技术发展引入了生成人工智能(AI),能够创建新数据,从现有数据中提取见解,并从各种输入中生成连贯的文本。此能力支持文本数据的分析,提供减少人类努力的见解和注释。本研究探讨了生成AI的新兴领域,特别是用于本体学习的大型语言模型。我们对当前的生成AI研究状态进行了调查,重点介绍了本体开发任务的适用性和功效,并评估评估技术。我们讨论了与生成AI的解释性和解释性有关的挑战,并概述了未来研究的方向。关键字:大语言模型,LLM,生成AI,本体学习,深度学习
Ph.D. USMBA大学计算机科学专业的学生 - FSTF,专门从结构化和半结构化数据中自动发电。 机器学习,数据挖掘和本体学习方面的专业知识。 计算机科学和数学的强大背景。 对研究和创新充满热情,具有出色的团队合作和沟通能力。 也是一位经验丰富的自由职业者。 寻求具有挑战性的项目来运用我的知识并产生积极的影响Ph.D. USMBA大学计算机科学专业的学生 - FSTF,专门从结构化和半结构化数据中自动发电。机器学习,数据挖掘和本体学习方面的专业知识。计算机科学和数学的强大背景。对研究和创新充满热情,具有出色的团队合作和沟通能力。也是一位经验丰富的自由职业者。寻求具有挑战性的项目来运用我的知识并产生积极的影响