详细内容或原文请订阅后点击阅览
在 Amazon Bedrock 上使用 Cohere 多语言嵌入和 Anthropic Claude 3 的印度语言 RAG
媒体和娱乐公司为多语言受众提供广泛的内容,以满足不同的受众群体。这些企业可以访问其多年运营过程中收集的大量数据。这些数据大部分是非结构化文本和图像。分析非结构化数据以生成新内容的传统方法依赖于 [...]
来源:亚马逊云科技 _机器学习媒体和娱乐公司为多语言受众提供广泛的内容,以满足不同受众群体的需求。这些企业可以访问其多年运营中收集的大量数据。这些数据大部分是非结构化文本和图像。分析非结构化数据以生成新内容的传统方法依赖于使用关键字或同义词匹配。这些方法无法捕获文档的完整语义上下文,因此在用户搜索、内容创建和其他几个下游任务中效率较低。
文本嵌入使用机器学习 (ML) 功能来捕获非结构化数据的本质。这些嵌入由语言模型生成,这些语言模型将自然语言文本映射到其数字表示中,并在此过程中对自然语言文档中的上下文信息进行编码。生成文本嵌入是许多由大型语言模型 (LLM) 提供支持的自然语言处理 (NLP) 应用程序的第一步,例如检索增强生成 (RAG)、文本生成、实体提取和其他几个下游业务流程。
检索增强生成 (RAG)使用连贯的多语言嵌入模型将文本转换为嵌入
尽管 LLM 越来越受欢迎,功能也越来越强大,但与 LLM 交流时最常用的语言(通常通过类似聊天的界面)是英语。尽管在调整开源模型以理解和响应印度语言方面取得了进展,但这些努力仍不及规模更大、最先进的 LLM 所展现的英语语言能力。这使得基于印度语言的 RAG 应用难以采用此类模型。
印度语言 Cohere Embed – 多语言 Anthropic Claude 3 Amazon Bedrock解决方案概述
解决方案概述 Flores 数据集 嵌入模型使用以下代码加载数据: