inference关键词检索结果

端到端的模型培训和Amazon Sagemaker Unified Studio

End-to-End model training and deployment with Amazon SageMaker Unified Studio

In this post, we guide you through the stages of customizing large language models (LLMs) with SageMaker Unified Studio and SageMaker AI, covering the end-to-end process starting from data discovery to fine-tuning FMs with SageMaker AI distributed training, tracking metrics using MLflow, and then de

IEEE关于人工智能的交易,第6卷,第2期,2025年2月

IEEE Transactions on Artificial Intelligence, Volume 6, Issue 2, February 2025

1)访客社论:操作负责任的AIAUTHOR:Qinghua Lu,Apostol Vassilev,Jun Zhu,Jun Zhu,Foutse Khomhpages:252-2532)软件工程研究中的Chatgpt伦理方面Feddga:基于动态指导注意事项的联合多任务学习。选择:281-2915)基于可逆神经网络助理的频率攻击:Ming-wen Shao,Jian-Xin Yang,Ling-Zhuang Meng,Zhi-Yong Hupages:292-3006)一个可靠且基于Bear federated Leader的学习框架,基于Blockchainaauthor(Shao): Wa

使用 Amazon SageMaker 中新的 NVIDIA 功能加速您的 AI 推理工作负载

Speed up your AI inference workloads with new NVIDIA-powered capabilities in Amazon SageMaker

在 re:Invent 2024 上,我们很高兴地宣布了新功能,利用 Amazon SageMaker 上的 NVIDIA 加速计算和软件产品来加速您的 AI 推理工作负载。在这篇文章中,我们将探讨如何使用这些新功能来增强您在 Amazon SageMaker 上的 AI 推理。我们将介绍从 AWS Marketplace 为 SageMaker Inference 部署 NVIDIA NIM 微服务的过程。然后,我们将深入介绍 NVIDIA 在 SageMaker JumpStart 上提供的模型,展示如何直接在 JumpStart 界面中访问和部署 Nemotron-4 模型。这将包括分步

使用 SageMaker Inference 中新的缩减至零功能来节省成本

Unlock cost savings with the new scale down to zero feature in SageMaker Inference

今天在 AWS re:Invent 2024 上,我们很高兴地宣布 Amazon SageMaker 推理终端节点的一项新功能:能够将 SageMaker 推理终端节点扩展到零个实例。这项期待已久的功能对于使用云中的 AI 和机器学习 (ML) 推理功能的客户来说是一个改变游戏规则的功能。

为生成式 AI 推理增强自动扩展功能 - 在 SageMaker Inference 中引入容器缓存

Supercharge your auto scaling for generative AI inference – Introducing Container Caching in SageMaker Inference

今天,在 AWS re:Invent 2024 大会上,我们很高兴地宣布 Amazon SageMaker 中推出了新的容器缓存功能,该功能可显著缩短扩展生成式 AI 模型进行推理所需的时间。这项创新让您能够更快地扩展模型,在扩展新模型副本时,延迟可降低高达 56%,在新实例上添加模型副本时,延迟可降低高达 30%。在本文中,我们将探讨 SageMaker 推理的新容器缓存功能,以应对部署和扩展大型语言模型 (LLM) 的挑战。

在 SageMaker Inference 中引入快速模型加载器:加速大型语言模型 (LLM) 的自动扩展 - 第 1 部分

Introducing Fast Model Loader in SageMaker Inference: Accelerate autoscaling for your Large Language Models (LLMs) – part 1

今天在 AWS re:Invent 2024 上,我们很高兴地宣布 Amazon SageMaker Inference 中的一项新功能,它显著减少了使用 LMI 部署和扩展 LLM 进行推理所需的时间:Fast Model Loader。在这篇文章中,我们深入探讨了 Fast Model Loader 的技术细节,探索了它与现有 SageMaker 工作流程的集成,讨论了如何开始使用这项强大的新功能,并分享了客户成功案例。

在 SageMaker Inference 中引入快速模型加载器:加速大型语言模型 (LLM) 的自动扩展 - 第 2 部分

Introducing Fast Model Loader in SageMaker Inference: Accelerate autoscaling for your Large Language Models (LLMs) – Part 2

在本文中,我们提供了在 LLM 部署中实施 Fast Model Loader 的详细实践指南。我们探讨了两种方法:使用 SageMaker Python SDK 进行编程实现,以及使用 Amazon SageMaker Studio UI 获得更直观、更具交互性的体验。无论您是喜欢使用代码的开发人员还是喜欢图形界面的人,您都将学习如何利用这一强大功能来加速您的 LLM 部署。

Amazon SageMaker Inference 现在支持 G6e 实例

Amazon SageMaker Inference now supports G6e instances

SageMaker 上的 G6e 实例解锁了以经济高效的方式部署各种开源模型的能力。凭借卓越的内存容量、增强的性能和成本效益,这些实例为希望部署和扩展其 AI 应用程序的组织提供了极具吸引力的解决方案。处理更大模型、支持更长上下文长度和保持高吞吐量的能力使 G6e 实例对于现代 AI 应用程序特别有价值。

使用 Amazon Bedrock Batch Inference 运用负责任的 AI 原则

Using responsible AI principles with Amazon Bedrock Batch Inference

在本文中,我们探讨了一种实用且经济高效的方法,将负责任的 AI 护栏纳入 Amazon Bedrock 批量推理工作流。虽然我们使用呼叫中心的记录摘要作为主要示例,但我们讨论的方法广泛适用于各种批量推理用例,其中道德考虑和数据保护是重中之重。