走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

从机器学习工程师那里学习 - 第3部分:评估

Learnings from a Machine Learning Engineer — Part 3: The Evaluation

在我系列的第三部分中,我将探索评估过程,这是一个关键部分,它将导致更清洁的数据集并提高模型性能。我们将看到对训练有素的模型的评估(尚未生产)和对部署模型的评估(一个做真实的预测)之间的区别。在第1部分中,[…]从机器学习工程师那里学习的帖子学习 - 第3部分:评估首先是针对数据科学的。

从机器学习工程师那里学习 - 第1部分:数据

Learnings from a Machine Learning Engineer — Part 1: The Data

据说,要使机器学习模型成功,您需要拥有良好的数据。尽管这是真的(而且很明显),但很难定义,构建和维持良好的数据。让我与您分享几年来我学到的独特过程[…]从机器学习工程师那里进行的帖子学习 - 第1部分:数据首先出现在数据科学方面。

从机器学习工程师那里学习 - 第4部分:模型

Learnings from a Machine Learning Engineer — Part 4: The Model

在我系列的最新部分中,我将分享我在选择图像分类模型以及如何微调该模型时所学到的知识。我还将展示如何利用模型来加速您的标签过程,最后如何通过产生用法和性能来证明您的努力合理[…]从机器学习工程师那里进行的帖子学习 - 第4部分:该模型首先出现在朝向数据上。科学。

从机器学习工程师那里学习 - 第2部分:数据集

Learnings from a Machine Learning Engineer — Part 2: The Data Sets

在第1部分中,我们讨论了收集良好图像数据并为您的图像分类项目分配适当标签的重要性。另外,我们讨论了您数据的类和子类。这些似乎很简单,但是要对未来有一个扎实的理解很重要。因此,如果您还没有,请[…]从机器学习工程师那里进行的帖子学习 - 第2部分:数据集首先出现在数据科学上。

数据科学家应该关心量子计算吗?

Should Data Scientists Care About Quantum Computing?

我确信量子炒作已经影响到了科技界的每个人(很可能也影响到了科技界以外的每个人)。有些夸张的说法,比如“某家公司已经证明了量子霸权”、“量子革命已经到来”,或者我最喜欢的说法“量子计算机已经到来,它将取代传统计算机”。我会诚实地告诉你;[…]文章《数据科学家应该关心量子计算吗?》首先出现在 Towards Data Science 上。

使用 Python 代码进行矩估计法

Method of Moments Estimation with Python Code

假设您在客户服务中心,并且想要知道每分钟呼叫次数的概率分布,或者换句话说,您想要回答这个问题:每分钟接到零个、一个、两个……等呼叫的概率是多少?您需要此分布才能 […] 使用 Python 代码进行矩估计法的帖子首先出现在 Towards Data Science 上。

如何衡量大型语言模型响应的可靠性

How to Measure the Reliability of a Large Language Model’s Response

大型语言模型 (LLM) 的基本原理非常简单:根据训练数据中的统计模式预测单词序列中的下一个单词(或标记)。然而,当它可以执行许多令人惊叹的任务(例如文本摘要)时,这种看似简单的功能却变得非常复杂 […] 如何衡量大型语言模型响应的可靠性一文首先出现在 Towards Data Science 上。

使用 Pydantic 管理环境变量

Manage Environment Variables with Pydantic

简介开发人员开发的应用程序应该部署在某些服务器上,以便任何人都可以使用它们。通常在这些应用程序所在的机器中,开发人员会设置允许应用程序运行的环境变量。这些变量可以是外部服务的 API 密钥、数据库的 URL 和[…]文章 使用 Pydantic 管理环境变量首先出现在 Towards Data Science 上。

Pandas 无法处理这个问题:ArcticDB 如何为海量数据集提供支持

Pandas Can’t Handle This: How ArcticDB Powers Massive Datasets

Python 已经发展成为数据科学的主导,其包 Pandas 已成为数据分析的首选工具。它非常适合表格数据,如果您有大容量 RAM,它支持高达 1GB 的数据文件。在这些大小限制内,它也适用于时间序列数据,因为它带有一些[…]帖子 Pandas 无法处理这个问题:ArcticDB 如何为海量数据集提供支持首先出现在 Towards Data Science 上。

分支:用于协作 ML 的 4 个 Git 工作流

Branching Out: 4 Git Workflows for Collaborating on ML

完成硕士学位已经 15 年多了,但我仍然被管理 R 脚本的令人抓狂的挫败感所困扰。作为一个(正在恢复的)完美主义者,我非常系统地按日期命名每个脚本(想想:ancova_DDMMYYYY.r)。我*知道*的系统比 _v1、_v2、_final 及其敌人更好。对吗?问题是,每次我想 […]The post Branching Out: 4 Git Workflows for Collaborating on ML 最先出现在 Towards Data Science 上。

从头开始​​在 Polars 中构建决策树

Build a Decision Tree in Polars from Scratch

决策树算法一直让我着迷。它们易于实现,并且在各种分类和回归任务中取得了良好的效果。结合 boosting,决策树在许多应用中仍然是最先进的。直到今天,sklearn、lightgbm、xgboost 和 catboost 等框架都做得非常好。然而,在过去的几个月里,[…]The post Build a Decision Tree in Polars from Scratch 最先出现在 Towards Data Science 上。

面向数据科学新手的虚拟化和容器

Virtualization & Containers for Data Science Newbies

虚拟化使得在单个物理硬件上运行多个虚拟机 (VM) 成为可能。这些虚拟机的行为就像独立的计算机,但共享相同的物理计算能力。可以这么说,它们是计算机中的计算机。许多云服务都依赖于虚拟化。但其他技术,如容器化和无服务器计算,已经成为[…]文章《面向数据科学新手的虚拟化和容器》首先出现在 Towards Data Science 上。

四维数据可视化:气泡图中的时间

4-Dimensional Data Visualization: Time in Bubble Charts

气泡图将大量信息优雅地压缩为单个可视化,气泡大小增加了第三个维度。但是,比较“之前”和“之后”状态通常至关重要。为了解决这个问题,我们建议在这些状态之间添加过渡,以创建直观的用户体验。由于我们找不到现成的解决方案,所以我们开发了自己的解决方案。[…]文章 4 维数据可视化:气泡图中的时间首先出现在 Towards Data Science 上。

Gamma 障碍分布

The Gamma Hurdle Distribution

哪个结果重要?这是一个常见的场景:进行了 A/B 测试,其中为活动选择了随机单位样本(例如客户),并为他们提供了处理 A。选择了另一个样本以接受处理 B。“A”可能是沟通或要约,“B”可能是没有沟通或没有 […]The post The Gamma Hurdle Distribution appeared first on Towards Data Science.

三角预测:为什么传统影响估计被夸大了(以及如何修复它们)

Triangle Forecasting: Why Traditional Impact Estimates Are Inflated (And How to Fix Them)

准确的影响估计可以成就或毁掉您的业务案例。然而,尽管它很重要,但大多数团队都使用过于简单的计算,这可能会导致预测过高。这些盲目估计的数字不仅会破坏利益相关者的信誉,还会导致资源分配不当和计划失败。但有一种更好的方法来预测渐进式影响[…]The post Triangle Forecasting: Why Traditional Impact Estimates Are Inflated (And How to Fix They) appeared first on Towards Data Science.

我尝试制作自己的(糟糕的)LLM 基准以在密室逃脱中作弊

I Tried Making my Own (Bad) LLM Benchmark to Cheat in Escape Rooms

最近,DeepSeek 发布了他们的最新模型 R1,一篇又一篇文章称赞其相对于成本的性能,以及此类开源模型的发布如何真正永远改变 LLM 的发展方向。这真是令人兴奋!而且,范围太大了,无法一一列举……但是当像 DeepSeek 这样的模型 […]The post I Tried Making my own (Bad) LLM Benchmark to Cheat in Escape Rooms 首次出现在 Towards Data Science 上。

使用 LLM 生成合成数据

Synthetic Data Generation with LLMs

RAG 的流行度 在过去两年与金融公司合作的过程中,我亲眼目睹了他们如何识别和优先考虑生成式 AI 用例,在复杂性和潜在价值之间取得平衡。检索增强生成 (RAG) 通常是许多 LLM 驱动解决方案的基础功能,在易于实施和对现实世界的影响之间取得平衡。通过结合 […]The post 使用 LLM 进行合成数据生成首先出现在 Towards Data Science 上。

高斯混合模型的矩估计量法

The Method of Moments Estimator for Gaussian Mixture Models

音频处理是数字信号处理 (DSP) 和机器学习最重要的应用领域之一。对声学环境进行建模是开发数字音频处理系统(例如:语音识别、语音增强、声学回声消除等)的重要步骤。声学环境中充满了背景噪音,这些噪音可能来自多个来源。例如,[…]The post The Method of Moments Estimator for Gaussian Mixture Models appeared first on Towards Data Science.