走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

AI时代如何求职

How to Get Hired in the AI Era

人们在招聘脱颖而出的初级人才时真正寻找的是什么。《如何在人工智能时代获得聘用》一文首先出现在《走向数据科学》上。

没有碎片的流失:派对标签错误如何扭转我的头条新闻

Churn Without Fragmentation: How a Party-Label Bug Reversed My Headline Finding

来自英国地方选举的数据质量案例研究,涉及分类标准化、度量验证以及为什么原始标签永远不应该定义分析组。帖子《无碎片化的流失:政党标签错误如何扭转我的头条发现》首先出现在《走向数据科学》上。

为什么强大的机器学习看似简单

Why Powerful Machine Learning Is Deceptively Easy

或者为什么看似强大的东西在方法论上可能是脆弱的这篇文章《为什么强大的机器学习看似简单》首先出现在《走向数据科学》上。

随机规划简介

A Gentle Introduction to Stochastic Programming

当你的电子表格对未来撒谎时如何做出决策这篇文章《随机编程的温和介绍》首先出现在《走向数据科学》上。

代理指针 RAG:没有多模态嵌入的多模态答案

Proxy-Pointer RAG: Multimodal Answers Without Multimodal Embeddings

结构就是你所需要的 Proxy-Pointer RAG: Multimodal Answers Without Multimodal Embeddings 首先出现在 Towards Data Science 上。

如何使用 Python 研究评分模型中变量的单调性和稳定性

How to Study the Monotonicity and Stability of Variables in a Scoring Model using Python

如何验证变量是否具有一致的风险?如何使用 Python 研究评分模型中变量的单调性和稳定性一文首先出现在 Towards Data Science 上。

为什么人工智能工程师从 LangChain 转向原生代理架构

Why AI Engineers Are Moving Beyond LangChain to Native Agent Architectures

框架加速了第一波 LLM 应用程序的发展,但生产需要不同的架构。为什么 AI 工程师超越 LangChain 转向本机代理架构一文首先出现在 Towards Data Science 上。

4 YAML 文件代替 PySpark:我们如何让分析师在没有工程师的情况下构建数据管道

4 YAML Files Instead of PySpark: How We Let Analysts Build Data Pipelines Without Engineers

我们如何用 dlt、dbt 和 Trino 取代 Python 管道,并将交付时间从几周缩短到一天。帖子 4 YAML 文件代替 PySpark:我们如何让分析师在没有工程师的情况下构建数据管道首先出现在走向数据科学上。

集成的集成:堆叠指南

Ensembles of Ensembles of Ensembles: A Guide to Stacking

最好的机器学习模型不是一个模型《Ensembles of Ensembles of Ensembles: A Guide to Stacking》一文首先出现在《Towards Data Science》上。

Agentic AI:如何节省代币

Agentic AI: How to Save on Tokens

缓存、延迟加载、路由、压缩等代理人工智能:如何节省令牌的帖子首先出现在走向数据科学上。

让 AI 进行实验

Let the AI Do the Experimenting

使用自动研究在预算限制下优化营销活动让 AI 进行实验一文首先出现在《走向数据科学》上。

相关性并不意味着因果关系!但这意味着什么?

Correlation Doesn’t Mean Causation! But What Does It Mean?

相关性告诉我们什么?相关性后并不意味着因果关系!但这意味着什么?首先出现在《走向数据科学》上。

生产中人工智能的下一个前沿是混沌工程

The Next Frontier of AI in Production Is Chaos Engineering

爆炸半径控制告诉您要破坏的程度。意图告诉你打破它会学到什么。其中只有一个拥有成熟的工具。生产中人工智能的下一个前沿是混沌工程一文首先出现在走向数据科学上。

PyTorch NaN 是无声杀手 - 因此我构建了一个 3ms Hook 来在精确层捕获它们

PyTorch NaNs Are Silent Killers — So I Built a 3ms Hook to Catch Them at the Exact Layer

NaN 不会破坏你的训练——它们会悄悄地破坏它。在 ResNet 训练运行中因无声故障而损失了几个小时后,我构建了一个轻量级检测器,可以精确定位出现问题的确切层和批次。使用前向钩子和梯度检查,它可以以最小的开销尽早发现问题,而不会减慢模型的速度。PyTorch NaNs 是无声杀手——所以我构建了一个 3ms 的钩子来在精确层捕获它们,该文章首先出现在《走向数据科学》上。

数据职业并不总是一条直线,但这没关系

A Career in Data Is Not Always a Straight Line, and That’s Okay

Sabrine Bendimerad 阐述了为什么灵活性是一项重要的数据科学技能、将人类思维外包给人工智能代理的风险以及当今职业道路的变化。数据中的职业并不总是一条直线,没关系,这篇文章首先出现在《走向数据科学》上。

电子表格如何悄然让供应链损失数百万美元

How Spreadsheets Quietly Cost Supply Chains Millions

模拟单个预测变化如何通过五个规划团队,以及为什么大多数零售商在销售和商店之间的差距中亏损。电子表格如何悄悄地使供应链损失数百万美元的帖子首先出现在走向数据科学上。

将显式测量与表格模型中的计算组进行比较

Comparing Explicit Measures to Calculation Groups in Tabular Models

随着 UDF 的出现及其与计算组的结合,我看到了很多关于不创建显式度量而是向报告创建者提供计算组的讨论。比较显式度量与表格模型中的计算组的帖子首先出现在走向数据科学上。

我将 Pandas 运行时间减少了 95% — 这就是我做错的地方

I Reduced My Pandas Runtime by 95% — Here’s What I Was Doing Wrong

最慢的 Pandas 代码“可以工作”,直到它不起作用为止。了解如何发现隐藏的瓶颈,避免昂贵的行操作,并知道 Pandas 何时不再足够。我将 Pandas 运行时间减少了 95% — 这是我做错的事情,首先出现在 Towards Data Science 上。