训练模型领域信息情报检索---XiaoMi-AI

2025年1月8日 22:02

使用 Amazon Bedrock 无服务器功能和 Amazon SageMaker 训练模型解锁经济高效的 AI 推理

Unlock cost-effective AI inference using Amazon Bedrock serverless capabilities with an Amazon SageMaker trained model

Amazon Bedrock 是一项完全托管的服务，它通过单一 API 提供来自 AI21 Labs、Anthropic、Cohere、Meta、Mistral AI、Stability AI 和 Amazon 等领先 AI 公司的高性能基础模型 (FM)，以及一系列广泛的功能，用于构建具有安全性、隐私性和负责任 AI 的生成式 AI 应用程序。在这篇文章中，我将向您展示如何将 Amazon Bedrock（及其完全托管的按需 API）与您的 Amazon SageMaker 训练或微调模型结合使用。

人工智能+

2025年1月8日 02:28

Nvidia 推出用于机器人的 AI 训练模型

Nvidia Launches AI Training Models for Robotics

为何重要：Nvidia 在 2025 年 CES 上推出机器人 AI 训练模型，推动机器人和自动驾驶汽车的自动化。

Unite.AI

2025年5月14日 15:10

让语言模型打开“风险”主题

Getting Language Models to Open Up on ‘Risky’ Subjects

现在，许多顶级语言模型在谨慎的一边都犯错，拒绝无害的提示，只是听起来有风险 - 一种“过度的”行为，会影响其在现实世界中的有用性。一个称为“虚假者”的新数据集直接针对问题，提供了一种重新训练模型，以对敏感主题进行更智能的反应，而不会损害安全性。 […]获得语言模型以开放“风险”主题的帖子首先出现在unite.ai上。

走向数据科学

2025年2月20日 04:51

为什么数据科学家应该关心容器 - 并脱颖而出

Why Data Scientists Should Care about Containers — and Stand Out with This Knowledge

“我训练模型，分析数据并创建仪表板 - 为什么我要关心容器？”许多是数据科学界新手的人都问自己这个问题。但是，想象一下，您已经训练了一种在笔记本电脑上完美运行的模型。但是，当其他人访问其他数据科学家应该关心容器的文章时，错误消息不断弹出，而这些知识首先出现在数据科学方面。

Apple机器学习研究

2025年2月14日 00:00

可扩展图神经网络中的转移学习，以改善物理模拟

Transfer Learning in Scalable Graph Neural Network for Improved Physical Simulation

近年来，基于图形神经网络（GNN）模型在模拟复杂物理系统方面显示出令人鼓舞的结果。但是，培训专用的图形网络模拟器可能会昂贵，因为大多数模型都局限于完全监督的培训。训练模型需要从传统模拟器产生的大量数据。如何应用转移学习来提高模型性能和训练效率。在这项工作中，我们引入了图形网络模拟器的预处理和转移学习范式。首先，我们提出了可扩展的图形u-net…

Apple机器学习研究

2025年2月12日 00:00

现实世界应用中的私有联邦学习——案例研究

Private Federated Learning In Real World Application – A Case Study

本文介绍了一种在边缘设备上使用私有联邦学习 (PFL) 进行机器学习模型训练的实现。我们引入了一种使用 PFL 解决使用用户私有数据训练模型的挑战的新框架。该框架可确保用户数据保留在单个设备上，只有必要的模型更新才会传输到中央服务器进行聚合，并提供隐私保障。我们详细介绍了我们的应用选择模型的架构，该模型结合了具有注意力机制的神经网络和通过不确定性管理进行歧义处理……

亚马逊云科技 _机器学习

2025年2月7日 20:25

大规模管理 ML 生命周期，第 4 部分：使用安全和治理控制扩展 MLOps

Governing the ML lifecycle at scale, Part 4: Scaling MLOps with security and governance controls

这篇文章提供了设置多账户 ML 平台关键组件的详细步骤。这包括配置 ML 共享服务账户，该账户管理中央模板、模型注册表和部署管道；从中央服务目录共享 ML Admin 和 SageMaker 项目组合；以及设置单独的 ML 开发账户，数据科学家可以在其中构建和训练模型。

ΑΙhub

2025年1月20日 12:11

优化 LLM 测试时间计算涉及解决元 RL 问题

Optimizing LLM test-time compute involves solving a meta-RL problem

TL;DR：训练模型以优化测试时间计算并学习“如何发现”正确答案，而不是学习“输出什么答案”的传统学习范式，这可以使模型更好地利用数据。迄今为止，改进大型语言模型 (LLM) 的主要策略是使用越来越多的高质量数据进行监督微调 (SFT) 或强化学习 (RL)。不幸的是，这种扩展形式似乎很快就会遇到障碍，预训练的扩展定律会趋于稳定，并且有报告称，用于训练的高质量文本数据可能在 2028 年耗尽，特别是对于更困难的任务，例如解决推理问题，这似乎需要将当前数据扩展约 100 倍才能看到任何显着的改进。LLM 在这些困难任务中的问题上的当前表现仍然令人失望（见示例）。因此，迫切需要数据高效的方法来训练

Apple机器学习研究

2025年1月18日 00:00

关于大型语言模型对顺序决策的建模能力

On the Modeling Capabilities of Large Language Models for Sequential Decision Making

大型预训练模型在不同模式下的推理和规划任务中表现出越来越好的性能，为利用它们解决复杂的顺序决策问题提供了可能性。在本文中，我们研究了大型语言模型 (LLM) 在各种交互领域中进行强化学习 (RL) 的能力。我们评估了它们制定决策策略的能力，无论是直接通过生成动作，还是间接通过首先生成奖励模型来训练具有 RL 的代理。我们的结果表明，即使没有……

亚马逊云科技 _机器学习

2024年12月19日 15:23

为 LLM 培训准备您自己的数据集的简介

An introduction to preparing your own dataset for LLM training

在这篇博文中，我们介绍了如何为 LLM 训练准备自己的数据集。无论您的目标是针对特定任务微调预训练模型，还是继续针对特定领域的应用程序进行预训练，拥有精心策划的数据集对于实现最佳性能都至关重要。

斯坦福新闻

2024年12月6日 00:00

人工智能可帮助降低钢琴家受伤风险

AI could help reduce injury risk in pianists

斯坦福工程学院的研究人员开发了一种人工智能训练模型，可以准确地重现顶级钢琴家的手部动作以及他们在演奏时承受的身体压力。

走向数据科学

2024年10月30日 00:01

解释预处理中的数据泄漏：带有代码示例的可视化指南

Data Leakage in Preprocessing, Explained: A Visual Guide with Code Examples

数据预处理预处理管道泄漏的 10 种隐秘方式在我教授机器学习的经验中，学生经常会遇到同样的问题：“我的模型表现很好——准确率超过 90%！但是当我将其提交给隐藏数据集进行测试时，它现在不那么好了。哪里出了问题？”这种情况几乎总是指向数据泄漏。当测试数据中的信息在数据准备步骤中潜入（或泄漏）到您的训练数据中时，就会发生数据泄漏。这通常发生在常规数据处理任务中，而您没有注意到。当发生这种情况时，模型会从它不应该看到的测试数据中学习，从而使测试结果具有误导性。让我们看看常见的预处理步骤，看看数据泄漏时究竟会发生什么——希望您可以在自己的项目中避免这些“管道问题”。所有视觉效果：作者使用 Canva

亚马逊云科技 _机器学习

2024年10月28日 17:22

使用 Amazon SageMaker 进行近乎实时的批量推理的定制模型监控

Customized model monitoring for near real-time batch inference with Amazon SageMaker

在本文中，我们介绍了一个框架，用于自定义使用 Amazon SageMaker Model Monitor 来处理近乎实时推理场景的多负载推理请求。SageMaker Model Monitor 监控生产中 SageMaker ML 模型的质量。尽早主动检测模型质量偏差使您能够采取纠正措施，例如重新训练模型、审核上游系统或修复质量问题，而无需手动监控模型或构建其他工具。

走向数据科学

2024年10月17日 05:31

微调 BERT 进行文本分类

Fine-Tuning BERT for Text Classification

一个带有 Python 代码的可破解示例尽管当今的 100B+ 参数转换器模型是 AI 领域最先进的模型，但我们仍然可以使用较小的（<1B 参数）模型完成很多工作。在本文中，我将介绍一个这样的示例，即微调 BERT（1.1 亿个参数）以对网络钓鱼 URL 进行分类。我将首先介绍关键概念，然后分享示例 Python 代码。图片来自 Canva。微调微调涉及通过额外的训练将预训练模型调整到特定用例。预训练模型是通过无监督学习开发的，从而无需大规模标记数据集。然后，与从头开始训练相比，经过微调的模型可以利用预先训练的模型表示来显着降低训练成本并提高模型性能 [1]。微调大型语言模型 (LLM)将训练

Viam 博客

2024年9月11日 21:05

发布：Viam 上的自定义训练脚本 | Viam

Launch: Custom training scripts on Viam | Viam

我们刚刚推出了使用自定义 Python 脚本训练模型的支持，允许您控制 Viam 上的模型训练过程并利用任何基于 Python 的框架。

走向数据科学

2024年9月9日 17:51

半监督学习有助于训练更好的模型吗？

Does Semi-Supervised Learning Help to Train Better Models?

评估半监督学习如何利用未标记数据作者提供的图片 — 使用 Bing 中的 Image Creator 创建数据科学家面临的最常见挑战之一是缺乏足够的标记数据来训练可靠且准确的模型。标记数据对于监督学习任务（例如分类或回归）至关重要。但是，在许多领域，获取标记数据可能成本高昂、耗时或不切实际。另一方面，未标记数据通常很容易收集，但它们不提供任何直接输入来训练模型。我们如何利用未标记数据来改进我们的监督学习模型？这就是半监督学习发挥作用的地方。半监督学习是机器学习的一个分支，它结合标记和未标记数据来训练一个比单独使用标记数据表现更好的模型。半监督学习背后的直觉是，未标记的数据可以提供有关数据底层结

成为人类

2024年7月29日 10:49

AI 为什么会产生幻觉？

Why does AI hallucinate?

4 月 2 日，世界卫生组织推出了一款名为 SARAH 的聊天机器人，以提高人们对如何健康饮食、戒烟等健康问题的认识。但和其他聊天机器人一样，SARAH 开始给出错误答案。这导致了很多网络喷子，最后，通常的免责声明：聊天机器人的答案可能不准确。这种编造事物的倾向被称为幻觉，是聊天机器人面临的最大障碍之一。为什么会发生这种情况？为什么我们不能解决它？让我们通过观察大型语言模型的工作原理来探索它们产生幻觉的原因。首先，编造东西正是 LLM 的设计目的。聊天机器人从大型语言模型中提取响应，而无需在数据库中查找信息或使用搜索引擎。大型语言模型包含数十亿个数字。它使用这些数字从头开始计算其响应，动态生成

成为人类

2024年7月26日 10:23

释放 Hugging Face 的力量以完成 NLP 任务

Unlocking the Power of Hugging Face for NLP Tasks

近年来，自然语言处理 (NLP) 领域取得了重大进展，这在很大程度上得益于能够理解和生成人类语言的复杂模型的发展。这场革命的关键参与者之一是 Hugging Face，这是一家开源 AI 公司，为各种 NLP 任务提供最先进的模型。Hugging Face 的 Transformers 库已成为希望实现强大 NLP 解决方案的开发人员和研究人员的首选资源。Inbound-leads-automatically-with-ai。这些模型在大量数据上进行训练，并经过微调以在特定任务上实现出色的性能。该平台还提供工具和资源，帮助用户在自己的数据集上微调这些模型，使其具有高度的通用性和用户友好性。在这

训练模型关键词检索结果