定义数据关键词检索结果

Plotly的AI工具正在重新定义数据科学工作流程

Plotly’s AI Tools Are Redefining Data Science Workflows

Plotly的AI驱动工具如何通过更快的开发,更智能的见解和改进的协作来改变数据科学工作流程。Postly的AI工具正在重新定义数据科学工作流程,这首先是朝向数据科学的。

如何针对您的自定义数据集微调 DeepSeek-R1(分步说明)

How to Fine-Tune DeepSeek-R1 for Your Custom Dataset (Step-by-Step)

一步一步微调 DeepSeek 模型……即使您是 LLM 新手!

使用Amazon Q Business Custom Connector

Derive generative AI powered insights from Alation Cloud Services using Amazon Q Business Custom Connector

在这篇文章中,我们展示了如何使用自定义数据源连接器将Alation的业务策略与Amazon Q Business应用程序集成的示例。

使用全新改进的 Amazon SageMaker Python SDK 加速您的 ML 生命周期 - 第 2 部分:ModelBuilder

Accelerate your ML lifecycle using the new and improved Amazon SageMaker Python SDK – Part 2: ModelBuilder

在本系列的第 1 部分中,我们介绍了 Amazon SageMaker Python SDK 上新推出的 ModelTrainer 类及其优势,并向您展示了如何在自定义数据集上微调 Meta Llama 3.1 8B 模型。在这篇文章中,我们将介绍 ModelBuilder 类的增强功能,它允许您将模型从 ModelTrainer 无缝部署到 SageMaker 终端节点,并为多种部署配置提供单一界面。

解释预处理中的数据泄漏:带有代码示例的可视化指南

Data Leakage in Preprocessing, Explained: A Visual Guide with Code Examples

数据预处理预处理管道泄漏的 10 种隐秘方式在我教授机器学习的经验中,学生经常会遇到同样的问题:“我的模型表现很好——准确率超过 90%!但是当我将其提交给隐藏数据集进行测试时,它现在不那么好了。哪里出了问题?”这种情况几乎总是指向数据泄漏。当测试数据中的信息在数据准备步骤中潜入(或泄漏)到您的训练数据中时,就会发生数据泄漏。这通常发生在常规数据处理任务中,而您没有注意到。当发生这种情况时,模型会从它不应该看到的测试数据中学习,从而使测试结果具有误导性。让我们看看常见的预处理步骤,看看数据泄漏时究竟会发生什么——希望您可以在自己的项目中避免这些“管道问题”。所有视觉效果:作者使用 Canva

Amazon Bedrock 的知识库现在支持高级解析、分块和查询重构,从而更好地控制基于 RAG 的应用程序的准确性

Knowledge Bases for Amazon Bedrock now supports advanced parsing, chunking, and query reformulation giving greater control of accuracy in RAG based applications

Amazon Bedrock 的知识库是一项完全托管的服务,可帮助您实施从提取到检索和快速增强的整个检索增强生成 (RAG) 工作流,而无需构建自定义数据源集成和管理数据流,从而突破了您在 RAG 工作流中可以做的事情的界限。然而,它是 [...]

在 Python 中创建模拟数据的分步指南

Step-by-Step Guide to Creating Simulated Data in Python

一个适合初学者的教程,教你如何生成自己的数据进行分析和测试照片由 Alexandru-Bogdan Ghita 在 Unsplash 上拍摄想象一下,你刚刚编写了一个机器学习模型,需要在特定场景中对其进行测试,或者你正在发布一篇关于自定义数据科学解决方案的学术论文,但可用的数据集有版权限制。另一方面,你可能正处于机器学习项目的调试和故障排除阶段,需要数据来识别和解决问题。所有这些情况,以及更多情况,都可以从使用模拟数据中受益。通常,现实世界的数据并不容易获得、昂贵或私密。因此,创建合成数据对数据科学从业者和专业人士来说是一项有用的技能。在本文中,我介绍了一些使用 Python 从头开始​​创建

这张航拍图像中有多少辆汽车?让我们从头开始使用 YOLOv8 来计算它们!

How Many Cars Are in This Aerial Imagery? Let’s Count Them with YOLOv8 from Scratch!

从 A 到 Z 的分步指南,用于在自定义数据库上部署 YOLOv8 进行对象检测和计数。继续阅读 Towards Data Science »

在 Amazon Bedrock 的知识库中引入护栏

Introducing guardrails in Knowledge Bases for Amazon Bedrock

Amazon Bedrock 的知识库是一种完全托管的功能,可帮助您使用检索增强生成 (RAG) 将 Amazon Bedrock 中的基础模型 (FM) 安全地连接到您的公司数据。此功能简化了整个 RAG 工作流程,从提取到检索和快速增强,无需自定义数据源集成和数据流 [...]

数据隐私和安全对现成训练数据的影响

The Impact of Data Privacy and Security on Off-the-Shelf Training Data

从头开始​​构建新的自定义数据集既有挑战性又乏味。得益于现成的数据,它为开发人员提供了一种快速有效的解决方案,可以将数据嵌入到他们的 AI 产品中并使其发挥作用。现成的数据是预先收集、清理、标记并随时可用的数据。然而,寻找合适的现成数据 […]