使用来自 Amazon Bedrock 的合成数据微调 BGE 嵌入模型

在本文中,我们演示了如何使用 Amazon Bedrock 创建合成数据、微调 BAAI 通用嵌入 (BGE) 模型以及使用 Amazon SageMaker 进行部署。

来源:亚马逊云科技 _机器学习

您是否曾面临获得用于微调机器学习(ML)模型的高质量数据的挑战?生成合成数据可以提供强大的解决方案,尤其是当实际数据稀缺或敏感时。例如,在开发医疗搜索引擎时,由于围绕个人健康信息的隐私问题,获取大量真实用户查询和相关文档的大量数据集通常是不可行的。但是,可以采用合成数据生成技术来创建类似于真实的用户搜索和相关医疗内容的现实查询文件对,从而可以在保留用户隐私的同时培训准确的检索模型。

在这篇文章中,我们演示了如何使用Amazon Bedrock创建合成数据,微调Baai General Embeddings(BGE)模型,并使用Amazon Sagemaker部署它。

亚马逊基岩 Baai General Embeddings(BGE)模型 Amazon Sagemaker

Amazon Bedrock是一项全面管理的服务,可从领先的人工智能(AI)公司(例如AI21实验室),拟人化,cohere,Meta,Meta,稳定性AI和Amazon等领先的人工智能(AI)公司提供一系列高性能的基础模型(FMS),并提供一系列API,以及与AI的广泛能力,可为生产AI的安全性以及负责任的AI II的范围应用。

您可以在随附的GitHub存储库中找到与此帖子关联的完整代码。

github存储库

解决方案概述

BGE代表北京人工智能学院(BAAI)一般嵌入。它是一个具有类似Bert的体系结构的嵌入模型家族,旨在从文本数据中产生高质量的嵌入。 BGE型号有三种尺寸:

    bge-large-en-v1.5:1.34 GB,1,024个嵌入dimensionsbge-base-base-en-v1.5:0.44 GB,768 768嵌入dimensionsbge-small-en-v1.5:0.13 gb,384
  • bge-large-en-v1.5:1.34 GB,1,024嵌入尺寸
  • bge-base-en-v1.5:0.44 GB,768嵌入尺寸
  • bge-small-en-v1.5:0.13 GB,384嵌入尺寸
  • Amazon Sagemaker Studio 下一个