Churn Without Fragmentation: How a Party-Label Bug Reversed My Headline Finding
来自英国地方选举的数据质量案例研究,涉及分类标准化、度量验证以及为什么原始标签永远不应该定义分析组。帖子《无碎片化的流失:政党标签错误如何扭转我的头条发现》首先出现在《走向数据科学》上。
Why Powerful Machine Learning Is Deceptively Easy
或者为什么看似强大的东西在方法论上可能是脆弱的这篇文章《为什么强大的机器学习看似简单》首先出现在《走向数据科学》上。
A Gentle Introduction to Stochastic Programming
当你的电子表格对未来撒谎时如何做出决策这篇文章《随机编程的温和介绍》首先出现在《走向数据科学》上。
Proxy-Pointer RAG: Multimodal Answers Without Multimodal Embeddings
结构就是你所需要的 Proxy-Pointer RAG: Multimodal Answers Without Multimodal Embeddings 首先出现在 Towards Data Science 上。
How to Study the Monotonicity and Stability of Variables in a Scoring Model using Python
如何验证变量是否具有一致的风险?如何使用 Python 研究评分模型中变量的单调性和稳定性一文首先出现在 Towards Data Science 上。
Why AI Engineers Are Moving Beyond LangChain to Native Agent Architectures
框架加速了第一波 LLM 应用程序的发展,但生产需要不同的架构。为什么 AI 工程师超越 LangChain 转向本机代理架构一文首先出现在 Towards Data Science 上。
4 YAML Files Instead of PySpark: How We Let Analysts Build Data Pipelines Without Engineers
我们如何用 dlt、dbt 和 Trino 取代 Python 管道,并将交付时间从几周缩短到一天。帖子 4 YAML 文件代替 PySpark:我们如何让分析师在没有工程师的情况下构建数据管道首先出现在走向数据科学上。
Ensembles of Ensembles of Ensembles: A Guide to Stacking
最好的机器学习模型不是一个模型《Ensembles of Ensembles of Ensembles: A Guide to Stacking》一文首先出现在《Towards Data Science》上。
Correlation Doesn’t Mean Causation! But What Does It Mean?
相关性告诉我们什么?相关性后并不意味着因果关系!但这意味着什么?首先出现在《走向数据科学》上。
The Next Frontier of AI in Production Is Chaos Engineering
爆炸半径控制告诉您要破坏的程度。意图告诉你打破它会学到什么。其中只有一个拥有成熟的工具。生产中人工智能的下一个前沿是混沌工程一文首先出现在走向数据科学上。
PyTorch NaNs Are Silent Killers — So I Built a 3ms Hook to Catch Them at the Exact Layer
NaN 不会破坏你的训练——它们会悄悄地破坏它。在 ResNet 训练运行中因无声故障而损失了几个小时后,我构建了一个轻量级检测器,可以精确定位出现问题的确切层和批次。使用前向钩子和梯度检查,它可以以最小的开销尽早发现问题,而不会减慢模型的速度。PyTorch NaNs 是无声杀手——所以我构建了一个 3ms 的钩子来在精确层捕获它们,该文章首先出现在《走向数据科学》上。
A Career in Data Is Not Always a Straight Line, and That’s Okay
Sabrine Bendimerad 阐述了为什么灵活性是一项重要的数据科学技能、将人类思维外包给人工智能代理的风险以及当今职业道路的变化。数据中的职业并不总是一条直线,没关系,这篇文章首先出现在《走向数据科学》上。
How Spreadsheets Quietly Cost Supply Chains Millions
模拟单个预测变化如何通过五个规划团队,以及为什么大多数零售商在销售和商店之间的差距中亏损。电子表格如何悄悄地使供应链损失数百万美元的帖子首先出现在走向数据科学上。
Comparing Explicit Measures to Calculation Groups in Tabular Models
随着 UDF 的出现及其与计算组的结合,我看到了很多关于不创建显式度量而是向报告创建者提供计算组的讨论。比较显式度量与表格模型中的计算组的帖子首先出现在走向数据科学上。
I Reduced My Pandas Runtime by 95% — Here’s What I Was Doing Wrong
最慢的 Pandas 代码“可以工作”,直到它不起作用为止。了解如何发现隐藏的瓶颈,避免昂贵的行操作,并知道 Pandas 何时不再足够。我将 Pandas 运行时间减少了 95% — 这是我做错的事情,首先出现在 Towards Data Science 上。