研究机构和国家实验室中的档案数据代表了一个庞大的历史知识存储库,但由于元数据有限和标签不一致的因素,其中大部分仍然无法访问。传统的基于关键字的搜索机制通常不足以有效地定位相关文档,需要大量的手动审查才能提取有意义的见解。为了应对这些挑战,美国国家实验室已经在Amazon SageMaker AI上集成了AI-Dendion文档处理平台,并在Amazon SageMaker AI上集成了命名命名的实体识别(NER)和大型语言模型(LLMS)。该解决方案通过自动化元数据丰富,文档分类和摘要来提高档案记录的可发现性和可访问性。通过使用Mixtral-8x7b进行抽象性汇总和标题生成,以及用于结构化元数据提取的基于BERT的NER模型,该系统可显着改善扫描文档的组织和检索。设计了无服务器,成本典型的体系结构的设计,平台制造商提供了动态的sagemaker intocts sagemaker indoctions sagemaker indotive sagemantive sagemantive scagemanity scalbiations scalbiation scalbiations scaligation scaligation。现代自然语言处理(NLP)和LLM技术的集成提高了元数据的准确性,从而实现了更精确的搜索功能和简化的文档管理。 This approach supports the broader goal of digital transformation, making sure that archival data can be effectively used for research, policy development, and institutional knowledge retention.In this post, we discuss how you can build an AI-powered document processing platform with open source NER and LLMs on SageMaker.Solution overviewThe NER & LLM Gen AI Application is a document processing solution built on AWS that combines NER and LLMs to automate document analysis at scale.该系统通过使用两个关键模型来解决处理大量文本数据的挑战:MixTral-8x7b用于文本生成a