走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

从机器学习工程师那里学习 - 第4部分:模型

Learnings from a Machine Learning Engineer — Part 4: The Model

在我系列的最新部分中,我将分享我在选择图像分类模型以及如何微调该模型时所学到的知识。我还将展示如何利用模型来加速您的标签过程,最后如何通过产生用法和性能来证明您的努力合理[…]从机器学习工程师那里进行的帖子学习 - 第4部分:该模型首先出现在朝向数据上。科学。

从机器学习工程师那里学习 - 第2部分:数据集

Learnings from a Machine Learning Engineer — Part 2: The Data Sets

在第1部分中,我们讨论了收集良好图像数据并为您的图像分类项目分配适当标签的重要性。另外,我们讨论了您数据的类和子类。这些似乎很简单,但是要对未来有一个扎实的理解很重要。因此,如果您还没有,请[…]从机器学习工程师那里进行的帖子学习 - 第2部分:数据集首先出现在数据科学上。

数据科学家应该关心量子计算吗?

Should Data Scientists Care About Quantum Computing?

我确信量子炒作已经影响到了科技界的每个人(很可能也影响到了科技界以外的每个人)。有些夸张的说法,比如“某家公司已经证明了量子霸权”、“量子革命已经到来”,或者我最喜欢的说法“量子计算机已经到来,它将取代传统计算机”。我会诚实地告诉你;[…]文章《数据科学家应该关心量子计算吗?》首先出现在 Towards Data Science 上。

使用 Python 代码进行矩估计法

Method of Moments Estimation with Python Code

假设您在客户服务中心,并且想要知道每分钟呼叫次数的概率分布,或者换句话说,您想要回答这个问题:每分钟接到零个、一个、两个……等呼叫的概率是多少?您需要此分布才能 […] 使用 Python 代码进行矩估计法的帖子首先出现在 Towards Data Science 上。

如何衡量大型语言模型响应的可靠性

How to Measure the Reliability of a Large Language Model’s Response

大型语言模型 (LLM) 的基本原理非常简单:根据训练数据中的统计模式预测单词序列中的下一个单词(或标记)。然而,当它可以执行许多令人惊叹的任务(例如文本摘要)时,这种看似简单的功能却变得非常复杂 […] 如何衡量大型语言模型响应的可靠性一文首先出现在 Towards Data Science 上。

Pandas 无法处理这个问题:ArcticDB 如何为海量数据集提供支持

Pandas Can’t Handle This: How ArcticDB Powers Massive Datasets

Python 已经发展成为数据科学的主导,其包 Pandas 已成为数据分析的首选工具。它非常适合表格数据,如果您有大容量 RAM,它支持高达 1GB 的数据文件。在这些大小限制内,它也适用于时间序列数据,因为它带有一些[…]帖子 Pandas 无法处理这个问题:ArcticDB 如何为海量数据集提供支持首先出现在 Towards Data Science 上。

分支:用于协作 ML 的 4 个 Git 工作流

Branching Out: 4 Git Workflows for Collaborating on ML

完成硕士学位已经 15 年多了,但我仍然被管理 R 脚本的令人抓狂的挫败感所困扰。作为一个(正在恢复的)完美主义者,我非常系统地按日期命名每个脚本(想想:ancova_DDMMYYYY.r)。我*知道*的系统比 _v1、_v2、_final 及其敌人更好。对吗?问题是,每次我想 […]The post Branching Out: 4 Git Workflows for Collaborating on ML 最先出现在 Towards Data Science 上。

从头开始​​在 Polars 中构建决策树

Build a Decision Tree in Polars from Scratch

决策树算法一直让我着迷。它们易于实现,并且在各种分类和回归任务中取得了良好的效果。结合 boosting,决策树在许多应用中仍然是最先进的。直到今天,sklearn、lightgbm、xgboost 和 catboost 等框架都做得非常好。然而,在过去的几个月里,[…]The post Build a Decision Tree in Polars from Scratch 最先出现在 Towards Data Science 上。

面向数据科学新手的虚拟化和容器

Virtualization & Containers for Data Science Newbies

虚拟化使得在单个物理硬件上运行多个虚拟机 (VM) 成为可能。这些虚拟机的行为就像独立的计算机,但共享相同的物理计算能力。可以这么说,它们是计算机中的计算机。许多云服务都依赖于虚拟化。但其他技术,如容器化和无服务器计算,已经成为[…]文章《面向数据科学新手的虚拟化和容器》首先出现在 Towards Data Science 上。

四维数据可视化:气泡图中的时间

4-Dimensional Data Visualization: Time in Bubble Charts

气泡图将大量信息优雅地压缩为单个可视化,气泡大小增加了第三个维度。但是,比较“之前”和“之后”状态通常至关重要。为了解决这个问题,我们建议在这些状态之间添加过渡,以创建直观的用户体验。由于我们找不到现成的解决方案,所以我们开发了自己的解决方案。[…]文章 4 维数据可视化:气泡图中的时间首先出现在 Towards Data Science 上。

Gamma 障碍分布

The Gamma Hurdle Distribution

哪个结果重要?这是一个常见的场景:进行了 A/B 测试,其中为活动选择了随机单位样本(例如客户),并为他们提供了处理 A。选择了另一个样本以接受处理 B。“A”可能是沟通或要约,“B”可能是没有沟通或没有 […]The post The Gamma Hurdle Distribution appeared first on Towards Data Science.

三角预测:为什么传统影响估计被夸大了(以及如何修复它们)

Triangle Forecasting: Why Traditional Impact Estimates Are Inflated (And How to Fix Them)

准确的影响估计可以成就或毁掉您的业务案例。然而,尽管它很重要,但大多数团队都使用过于简单的计算,这可能会导致预测过高。这些盲目估计的数字不仅会破坏利益相关者的信誉,还会导致资源分配不当和计划失败。但有一种更好的方法来预测渐进式影响[…]The post Triangle Forecasting: Why Traditional Impact Estimates Are Inflated (And How to Fix They) appeared first on Towards Data Science.

高斯混合模型的矩估计量法

The Method of Moments Estimator for Gaussian Mixture Models

音频处理是数字信号处理 (DSP) 和机器学习最重要的应用领域之一。对声学环境进行建模是开发数字音频处理系统(例如:语音识别、语音增强、声学回声消除等)的重要步骤。声学环境中充满了背景噪音,这些噪音可能来自多个来源。例如,[…]The post The Method of Moments Estimator for Gaussian Mixture Models appeared first on Towards Data Science.

LLM 温度🔥🌡️ 综合指南

A Comprehensive Guide to LLM Temperature 🔥🌡️

在构建我自己的基于 LLM 的应用程序时,我发现了许多提示工程指南,但很少有用于确定温度设置的等效指南。当然,温度是一个简单的数值,而提示可能会变得非常复杂,因此作为产品决策,它可能感觉微不足道。尽管如此,选择合适的温度可以极大地改变 […]The post LLM 温度综合指南🔥🌡️ 首先出现在 Towards Data Science 上。

如何在 Microsoft PowerBI 中创建网络图可视化

How to Create Network Graph Visualizations in Microsoft PowerBI

Microsoft PowerBI 是最流行的商业智能 (BI) 工具之一,虽然它具有为整个企业的利益相关者创建动态分析报告所需的所有功能,但创建一些高级数据可视化更具挑战性。本文将介绍如何在 Microsoft PowerBI 中创建大型网络图可视化 […] 如何在 Microsoft PowerBI 中创建网络图可视化的文章首先出现在 Towards Data Science 上。

PyTorch 中的高效指标收集:避免 TorchMetrics 的性能陷阱

Efficient Metric Collection in PyTorch: Avoiding the Performance Pitfalls of TorchMetrics

指标收集是每个机器学习项目的重要组成部分,使我们能够跟踪模型性能并监控训练进度。理想情况下,指标的收集和计算不应给训练过程带来任何额外开销。然而,就像训练循环的其他组件一样,低效的指标计算可能会带来不必要的开销,增加训练步骤[…]PyTorch 中的高效指标收集:避免 TorchMetrics 的性能陷阱首先出现在 Towards Data Science 上。

Python 中最小成本流优化简介

Introduction to Minimum Cost Flow Optimization in Python

最小成本流优化将通过节点和边缘网络移动流量的成本降至最低。节点包括源(供应)和接收器(需求),具有不同的成本和容量限制。目的是找到在遵守所有容量限制的同时将容量从源移动到接收器的最低成本方法。应用 […]The post Introduction to Minimum Cost Flow Optimization in Python appeared first on Towards Data Science.

ML 功能管理:实用演进指南

ML Feature Management: A Practical Evolution Guide

在机器学习的世界里,我们痴迷于模型架构、训练管道和超参数调整,却常常忽略了一个基本方面:我们的特征在其整个生命周期中如何生存和呼吸。从每次预测后消失的内存计算到几个月后重现精确特征值的挑战,我们处理特征的方式可能会 […] 文章 ML 特征管理:实用演进指南首次出现在 Towards Data Science 上。