pixtral-12b-2409现在可以在亚马逊基岩市场上使用

在这篇文章中,我们介绍了如何发现,部署和使用Mistral AI Pixtral 12b模型,以用于各种真实的视觉用例。

来源:亚马逊云科技 _机器学习
今天,我们很高兴地宣布,Pixtral 12b(Pixtral-12b-2409)是Mistral AI的最先进的120亿个参数视觉语言模型(VLM),它在仅文本和多模式任务中都可以通过Amazon Bedrock Marketplace符合客户。亚马逊基岩市场是亚马逊基岩中的一种新能力,使开发人员能够发现,测试和使用100多个受欢迎,新兴和专业的基础模型(FMS),以及当前亚马逊基岩中的行业领先模型。您还可以与Amazon Sagemaker Jumpstart一起使用此模型,这是一个机器学习(ML)中心,可访问算法和型号,可以通过一次点击进行运行推理。在这篇文章中,我们浏览如何发现,部署和使用Pixtral 12b模型,用于多种多样的现实情况。根据Mistral的评估,在一系列基准测试中的性能不佳,超过其他开放型模型并与更大的同行竞争。 PixTral专为图像和文档理解而设计,展示了与视觉相关的任务中的高级功能,包括图表和数字解释,文档问答,多模式推理和以下说明,其中几个列表在本文的后面进行了示例。该模型以其本地分辨率和纵横比处理图像,从而提供了高保真输入处理。与许多开源替代方案不同,Pixtral 12B在基于文本的基准测试(例如下面的指令,编码和数学推理)中取得了强大的结果,而没有牺牲其在多模式任务上的熟练程度。与计算效率和性能的Pixtral 12B进行了新的架构。该模型由两个主要组成部分组成:4亿参数视觉编码器,负责令牌图像,以及120亿参数的多模式变压器DEC