走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

从头开始​​在 Polars 中构建决策树

Build a Decision Tree in Polars from Scratch

决策树算法一直让我着迷。它们易于实现,并且在各种分类和回归任务中取得了良好的效果。结合 boosting,决策树在许多应用中仍然是最先进的。直到今天,sklearn、lightgbm、xgboost 和 catboost 等框架都做得非常好。然而,在过去的几个月里,[…]The post Build a Decision Tree in Polars from Scratch 最先出现在 Towards Data Science 上。

面向数据科学新手的虚拟化和容器

Virtualization & Containers for Data Science Newbies

虚拟化使得在单个物理硬件上运行多个虚拟机 (VM) 成为可能。这些虚拟机的行为就像独立的计算机,但共享相同的物理计算能力。可以这么说,它们是计算机中的计算机。许多云服务都依赖于虚拟化。但其他技术,如容器化和无服务器计算,已经成为[…]文章《面向数据科学新手的虚拟化和容器》首先出现在 Towards Data Science 上。

四维数据可视化:气泡图中的时间

4-Dimensional Data Visualization: Time in Bubble Charts

气泡图将大量信息优雅地压缩为单个可视化,气泡大小增加了第三个维度。但是,比较“之前”和“之后”状态通常至关重要。为了解决这个问题,我们建议在这些状态之间添加过渡,以创建直观的用户体验。由于我们找不到现成的解决方案,所以我们开发了自己的解决方案。[…]文章 4 维数据可视化:气泡图中的时间首先出现在 Towards Data Science 上。

Gamma 障碍分布

The Gamma Hurdle Distribution

哪个结果重要?这是一个常见的场景:进行了 A/B 测试,其中为活动选择了随机单位样本(例如客户),并为他们提供了处理 A。选择了另一个样本以接受处理 B。“A”可能是沟通或要约,“B”可能是没有沟通或没有 […]The post The Gamma Hurdle Distribution appeared first on Towards Data Science.

三角预测:为什么传统影响估计被夸大了(以及如何修复它们)

Triangle Forecasting: Why Traditional Impact Estimates Are Inflated (And How to Fix Them)

准确的影响估计可以成就或毁掉您的业务案例。然而,尽管它很重要,但大多数团队都使用过于简单的计算,这可能会导致预测过高。这些盲目估计的数字不仅会破坏利益相关者的信誉,还会导致资源分配不当和计划失败。但有一种更好的方法来预测渐进式影响[…]The post Triangle Forecasting: Why Traditional Impact Estimates Are Inflated (And How to Fix They) appeared first on Towards Data Science.

高斯混合模型的矩估计量法

The Method of Moments Estimator for Gaussian Mixture Models

音频处理是数字信号处理 (DSP) 和机器学习最重要的应用领域之一。对声学环境进行建模是开发数字音频处理系统(例如:语音识别、语音增强、声学回声消除等)的重要步骤。声学环境中充满了背景噪音,这些噪音可能来自多个来源。例如,[…]The post The Method of Moments Estimator for Gaussian Mixture Models appeared first on Towards Data Science.

LLM 温度🔥🌡️ 综合指南

A Comprehensive Guide to LLM Temperature 🔥🌡️

在构建我自己的基于 LLM 的应用程序时,我发现了许多提示工程指南,但很少有用于确定温度设置的等效指南。当然,温度是一个简单的数值,而提示可能会变得非常复杂,因此作为产品决策,它可能感觉微不足道。尽管如此,选择合适的温度可以极大地改变 […]The post LLM 温度综合指南🔥🌡️ 首先出现在 Towards Data Science 上。

如何在 Microsoft PowerBI 中创建网络图可视化

How to Create Network Graph Visualizations in Microsoft PowerBI

Microsoft PowerBI 是最流行的商业智能 (BI) 工具之一,虽然它具有为整个企业的利益相关者创建动态分析报告所需的所有功能,但创建一些高级数据可视化更具挑战性。本文将介绍如何在 Microsoft PowerBI 中创建大型网络图可视化 […] 如何在 Microsoft PowerBI 中创建网络图可视化的文章首先出现在 Towards Data Science 上。

PyTorch 中的高效指标收集:避免 TorchMetrics 的性能陷阱

Efficient Metric Collection in PyTorch: Avoiding the Performance Pitfalls of TorchMetrics

指标收集是每个机器学习项目的重要组成部分,使我们能够跟踪模型性能并监控训练进度。理想情况下,指标的收集和计算不应给训练过程带来任何额外开销。然而,就像训练循环的其他组件一样,低效的指标计算可能会带来不必要的开销,增加训练步骤[…]PyTorch 中的高效指标收集:避免 TorchMetrics 的性能陷阱首先出现在 Towards Data Science 上。

Python 中最小成本流优化简介

Introduction to Minimum Cost Flow Optimization in Python

最小成本流优化将通过节点和边缘网络移动流量的成本降至最低。节点包括源(供应)和接收器(需求),具有不同的成本和容量限制。目的是找到在遵守所有容量限制的同时将容量从源移动到接收器的最低成本方法。应用 […]The post Introduction to Minimum Cost Flow Optimization in Python appeared first on Towards Data Science.

ML 功能管理:实用演进指南

ML Feature Management: A Practical Evolution Guide

在机器学习的世界里,我们痴迷于模型架构、训练管道和超参数调整,却常常忽略了一个基本方面:我们的特征在其整个生命周期中如何生存和呼吸。从每次预测后消失的内存计算到几个月后重现精确特征值的挑战,我们处理特征的方式可能会 […] 文章 ML 特征管理:实用演进指南首次出现在 Towards Data Science 上。

Towards Data Science 即将作为独立出版物推出

Towards Data Science is Launching as an Independent Publication

自 2016 年成立 Towards Data Science 以来,我们已经在 Medium 上建立了最大的出版物,拥有一个专注于数据科学、机器学习和人工智能的读者和贡献者社区。Medium 构建了一个很棒的平台,如果没有它的帮助,我们就无法接触到我们的受众。截至 2025 年 2 月 3 日星期一,Towards […]文章《Towards Data Science 即将作为独立出版物推出》首先出现在 Towards Data Science 上。

展示和讲述

Show and Tell

使用 PyTorch 实现最早的神经图像标题生成器模型之一。文章“Show and Tell”首先出现在 Towards Data Science 上。

神经网络——直观且详尽的解释

Neural Networks – Intuitively and Exhaustively Explained

对现代人工智能中最基本架构的深入探索。文章“神经网络——直观而详尽的解释”首先出现在 Towards Data Science 上。

如何晋升为数据科学家

How to Get Promoted as a Data Scientist

不到 2 年内获得 2 次晋升的首席数据科学家的建议文章“如何晋升为数据科学家”首先出现在 Towards Data Science 上。

如何在时间序列中查找季节性模式

How to Find Seasonality Patterns in Time Series

使用傅里叶变换检测季节性成分文章“如何在时间序列中查找季节性模式”首先出现在 Towards Data Science 上。

为什么选择 ETL-Zero?初学者了解数据集成的转变

Why ETL-Zero? Understanding the shift in Data Integration as a Beginner

当我准备 Salesforce Data Cloud 认证时,我遇到了 Zero-ETL 这个术语。继续阅读 Towards Data Science »

检测社交媒体量时间序列中的异常

Detecting Anomalies in Social Media Volume Time Series

我如何检测社交媒体量中的异常:基于残差的方法照片由 Joshua Hoehne 在 Unsplash 上拍摄在社交媒体时代,分析对话量对于了解用户行为、检测趋势以及最重要的是识别异常至关重要。了解异常发生的时间可以帮助管理层和营销部门应对危机情况。在本文中,我们将使用来自 Twitter 的真实示例,探索一种基于残差的方法来检测社交媒体量时间序列数据中的异常。对于这样的任务,我将使用 Numenta Anomaly Benchmark 的数据,它提供了 Twitter 帖子的成交量数据,其基准测试中有 5 分钟的帧窗口。我们将从两个角度分析数据:作为第一个练习,我们将使用完整数据集检测异常,然