Towards Time-Series Reasoning with LLMs
多模态大型语言模型 (MLLM) 已在视觉等领域的理解和推理方面取得了许多进展,但我们尚未看到时间序列取得如此广泛的成功。尽管之前对时间序列 MLLM 的研究在时间序列预测中表现出色,但很少有研究展示 LLM 如何用于自然语言的时间序列推理。我们提出了一种新颖的多模态时间序列 LLM 方法,该方法可以学习跨各个领域的可推广信息,并具有强大的零样本性能。首先,我们在… 之上训练一个轻量级时间序列编码器
Easily deploy and manage hundreds of LoRA adapters with SageMaker efficient multi-adapter inference
Amazon SageMaker 的全新高效多适配器推理功能为使用微调模型的客户带来了激动人心的可能性。此功能与 SageMaker 推理组件集成,可让您通过 SageMaker API 部署和管理数百个经过微调的低秩自适应 (LoRA) 适配器。在本文中,我们将展示如何使用 SageMaker 中的全新高效多适配器推理功能。
Rad AI reduces real-time inference latency by 50% using Amazon SageMaker
本篇文章由 Rad AI 的 Ken Kao 和 Hasan Ali Demirci 共同撰写。Rad AI 重塑了放射学报告,开发了简化最繁琐和重复任务的解决方案,并节省了放射科医生的时间。自 2018 年以来,我们的旗舰产品 Rad AI Impressions 使用最先进的专有和开源大型语言模型 (LLM),大大减少了 […]
Towards Low-Bit Communication for Tensor Parallel LLM Inference
这篇论文被 NeurIPS 2024 的高效自然语言和语音处理 (ENLSP) 研讨会接受。张量并行提供了一种提高服务器大型语言模型 (LLM) 推理效率的有效方法,尽管增加了额外的通信成本。然而,随着服务器 LLM 规模不断扩大,它们将需要分布在更多设备上,从而增加了通信成本。解决这个问题的一种方法是量化,但目前的 LLM 方法往往避免量化张量并行需要传达的特征。利用……
Generalization on the Unseen, Logic Reasoning and Degree Curriculum
本文考虑了逻辑(布尔)函数的学习,重点关注了在未见(GOTU)设置上的泛化,这是分布外泛化的典型案例。这是因为某些推理任务(例如算术/逻辑)中数据的丰富组合性质使得代表性数据采样具有挑战性,并且在 GOTU 下成功学习为“推断”或“推理”学习者提供了第一个小插图。我们研究了由 (S)GD 训练的不同网络架构在 GOTU 下的表现,并提供了理论和实验证据……
在本文中,我们将演示如何使用 Amazon SageMaker JumpStart 针对特定领域的应用程序微调 Meta 最新的 Llama 3.2 文本生成模型 Llama 3.2 1B 和 3B。通过使用 SageMaker JumpStart 中提供的预构建解决方案和可定制的 Meta Llama 3.2 模型,您可以解锁模型增强的推理、代码生成和指令遵循功能,以根据您的独特用例进行定制。
Rethinking LLM Benchmarks: Measuring True Reasoning Beyond Training Data
Apple 的新 LLM 基准 GSM-Symbolic继续阅读 Towards Data Science »
How Zalando optimized large-scale inference and streamlined ML operations on Amazon SageMaker
这篇文章由 Zalando 的 Mones Raslan、Ravi Sharma 和 Adele Gouttes 共同撰写。Zalando SE 是欧洲最大的电子商务时尚零售商之一,拥有约 5000 万活跃客户。Zalando 面临着定期(每周或每天)为 100 多万种产品打折的挑战,也称为降价定价。降价定价是 […]
Using Objective Bayesian Inference to Interpret Election Polls
如何构建一个仅针对民意调查的客观贝叶斯模型,该模型从州民意调查结果转变为赢得该州的概率继续阅读 Towards Data Science »
Automate Amazon Bedrock batch inference: Building a scalable and efficient pipeline
虽然批量推理提供了许多好处,但每个区域每个模型最多只能提交 10 个批量推理作业。为了解决这一问题并增强您对批量推理的使用,我们使用 AWS Lambda 和 Amazon DynamoDB 开发了一个可扩展的解决方案。本文将指导您实施一个队列管理系统,该系统会自动监控可用的作业槽位并在有槽位时提交新作业。
GSM-Symbolic: Analyzing LLM Limitations in Mathematical Reasoning and Potential Solutions
这篇关于 LLM 推理的论文的正确之处 — — 以及它所遗漏之处。合著者:Alex Watson、Yev Meyer、Dane Corneil、Maarten Van Segbroeck (Gretel.ai)来源:Gretel.ai简介大型语言模型 (LLM) 最近在 AI 推理方面取得了重大进展,包括数学问题解决。然而,Mirzadeh 等人最近发表的一篇题为“GSM-Symbolic:理解大型语言模型中数学推理的局限性”的论文提出了关于这些模型在数学推理方面的真正能力的问题。我们审查了这篇论文,发现它对正在进行的关于 AI 能力和局限性的讨论做出了宝贵的贡献,然而,我们的分析表明,它
Customized model monitoring for near real-time batch inference with Amazon SageMaker
在本文中,我们介绍了一个框架,用于自定义使用 Amazon SageMaker Model Monitor 来处理近乎实时推理场景的多负载推理请求。SageMaker Model Monitor 监控生产中 SageMaker ML 模型的质量。尽早主动检测模型质量偏差使您能够采取纠正措施,例如重新训练模型、审核上游系统或修复质量问题,而无需手动监控模型或构建其他工具。
Microsoft’s Inference Framework Brings 1-Bit Large Language Models to Local Devices
2024 年 10 月 17 日,微软宣布推出 BitNet.cpp,这是一个旨在运行 1 位量化大型语言模型 (LLM) 的推理框架。BitNet.cpp 是 Gen AI 的一项重大进展,它能够在标准 CPU 上高效部署 1 位 LLM,而无需昂贵的 GPU。这一发展使 LLM 的访问变得民主化,使其可以在各种 […]文章《微软的推理框架将 1 位大型语言模型带到本地设备》首先出现在 Unite.AI 上。
CAMPHOR: Collaborative Agents for Multi-Input Planning and High-Order Reasoning On Device
虽然服务器端大型语言模型 (LLM) 在工具集成和复杂推理方面表现出色,但直接在设备上部署小型语言模型 (SLM) 带来了改善延迟和隐私的机会,但也带来了准确性和内存方面的独特挑战。我们推出了 CAMPHOR,这是一种创新的设备 SLM 多代理框架,旨在处理多个用户输入并在本地推理个人背景,确保隐私得到维护。 CAMPHOR 采用分层架构,其中高阶推理代理分解复杂任务并协调专家……
GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models
大型语言模型 (LLM) 的最新进展引发了人们对其形式推理能力的兴趣,尤其是在数学方面。GSM8K 基准被广泛用于评估模型在小学水平问题上的数学推理能力。虽然近年来 LLM 在 GSM8K 上的表现显着提高,但它们的数学推理能力是否真正进步仍不清楚,这引发了人们对所报告指标可靠性的质疑。为了解决这些问题,我们对几个 SOTA 开放和封闭模型进行了大规模研究。为了……
AI Agents: The Intersection of Tool Calling and Reasoning in Generative AI
解析人工智能中的问题解决和工具驱动的决策作者和 GPT-4o 的图片描绘了处于推理和工具调用交汇处的人工智能代理简介:代理人工智能的兴起如今,新的库和低代码平台使构建人工智能代理(也称为数字工作者)变得比以往任何时候都更容易。工具调用是驱动生成式人工智能模型“代理”性质的主要能力之一,它通过将其能力扩展到对话任务之外。通过执行工具(函数),代理可以代表您采取行动,解决需要稳健决策并与各种外部数据源交互的复杂、多步骤问题。本文重点介绍如何通过工具调用来表达推理,探讨工具使用的一些挑战,介绍评估工具调用能力的常用方法,并提供不同模型和代理如何与工具交互的示例。解决问题的推理表达成功的代理的核心是两