Super charge your LLMs with RAG at scale using AWS Glue for Apache Spark
在本文中,我们将探讨在 LangChain(一个基于 LLM 构建应用程序的开源框架)上构建可重复使用的 RAG 数据管道,并将其与 AWS Glue 和 Amazon OpenSearch Serverless 集成。最终解决方案是可扩展 RAG 索引和部署的参考架构。
在本文中,我们将探讨如何使用新的 EMR Serverless 集成、Spark 的分布式处理以及由 LangChain 编排框架提供支持的 Amazon OpenSearch Service 向量数据库构建可扩展且高效的检索增强生成 (RAG) 系统。此解决方案使您能够处理大量文本数据,生成相关嵌入,并将它们存储在强大的向量数据库中,以实现无缝检索和生成。
VerifAI Project: Open Source Biomedical Question Answering with Verified Answers
基于 Qdrant 和 OpenSearch 索引构建 LLM(Mistral 7B)生物医学问答系统的经验,并采用幻觉检测方法去年 9 月(2023 年),在获得 Horizon Europe 的 NGI Search 资助计划的资助后,我们着手开发 VerifAI 项目。该项目的想法是创建一个基于经过审查的文档(因此我们使用了一个名为 PubMed 的生物医学期刊出版物库)的生物医学领域生成搜索引擎,并使用一个额外的模型来验证生成的答案,通过比较引用的文章和生成的声明。在生物医学等领域,以及一般科学领域,人们对幻觉的容忍度很低。虽然有些项目和产品(例如 Elicit 或 Perplex