走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

使用 Python 进行信用评分的探索性数据分析

Exploratory Data Analysis for Credit Scoring with Python

通过对借款人和贷款特征的统计分析来了解违约风险。用 Python 进行信用评分的探索性数据分析一文首先出现在 Towards Data Science 上。

解决人类训练数据问题

Solving the Human Training Data Problem

人工智能如何彻底改变了我作为研究生的学习方式解决人类训练数据问题的帖子首先出现在走向数据科学上。

缩放矢量搜索:比较量化和 Matryoshka 嵌入以降低 80% 的成本

Scaling Vector Search: Comparing Quantization and Matryoshka Embeddings for 80% Cost Reduction

应对性能悬崖:如何将 MRL 与 int8 和二进制量化相结合,平衡基础设施成本和检索精度。帖子《缩放矢量搜索:比较量化和俄罗斯套娃嵌入,以降低 80% 的成本》首先出现在《走向数据科学》上。

MCMC 直观指南(第一部分):Metropolis-Hastings 算法

An Intuitive Guide to MCMC (Part I): The Metropolis-Hastings Algorithm

厌倦了 AI 炒作?让我们来谈谈实际推动高端量化金融的概率算法。MCMC 直观指南(第一部分):Metropolis-Hastings 算法一文首先出现在《走向数据科学》上。

谱聚类解释:特征向量如何揭示复杂的簇结构

Spectral Clustering Explained: How Eigenvectors Reveal Complex Cluster Structures

了解为什么谱聚类优于 K-means后谱聚类解释:特征向量如何揭示复杂的聚类结构首先出现在走向数据科学上。

为什么大多数 A/B 测试都在骗你

Why Most A/B Tests Are Lying to You

导致大多数 A/B 测试无效的 4 种统计错误,以及周一可以使用的预测试清单和贝叶斯与频率主义决策框架。为什么大多数 A/B 测试都在骗你的文章首先出现在《走向数据科学》上。

傅里叶变换如何将声音转换为频率

How the Fourier Transform Converts Sound Into Frequencies

直观、直观的指南,帮助您理解数学的真正作用——从绕线机到频谱图《傅里叶变换如何将声音转换为频率》一文首先出现在《走向数据科学》上。

混合神经符号欺诈检测:用域规则指导神经网络

Hybrid Neuro-Symbolic Fraud Detection: Guiding Neural Networks with Domain Rules

我真的认为我正在做一些大事:向损失函数添加几个简单的域规则,并观察超级不平衡数据上的欺诈检测猛增。第一次运行看起来很棒......直到我修复了一个偷偷摸摸的阈值错误并在五个不同的随机种子上运行了整个过程。突然之间,“巨大的胜利”几乎消失了。说实话,我最终得到的结果实际上更有用:提醒我们,在欺诈等罕见事件问题上,我们衡量成功的方式(阈值、种子、指标)比模型本身更容易欺骗我们。该规则确实使排名稍微好一点(您可以在 ROC-AUC 中一致地看到它),但真正的收益很小且脆弱。这是完整的故事 - 错误、差异、经验教训等等。混合神经符号欺诈检测:用领域规则指导神经网络首先出现在走向数据科学上。

在 Power BI 中为商店构建同类解决方案

Building a Like-for-Like solution for Stores in Power BI

同类 (L4L) 解决方案对于比较元素至关重要。它只是比较可比较的元素,在本例中,是比较一段时间内的商店。让我们看看在语义模型中构建的解决方案。在 Power BI 中为商店构建同类解决方案一文首先出现在 Towards Data Science 上。

当数据撒谎时:用博弈论寻找点球的最佳策略

When Data Lies: Finding Optimal Strategies for Penalty Kicks with Game Theory

博弈论、纳什均衡和战略决策的数据驱动简介《当数据撒谎时:用博弈论寻找点球的最佳策略》一文首先出现在《走向数据科学》上。

要避免的三个 OpenClaw 错误以及如何修复它们

Three OpenClaw Mistakes to Avoid and How to Fix Them

了解如何有效设置 OpenClaw《要避免的三个 OpenClaw 错误以及如何修复它们》一文首先出现在《走向数据科学》上。

我偷了华尔街的一招来解决 Google 趋势数据问题

I Stole a Wall Street Trick to Solve a Google Trends Data Problem

比较各国 Google 趋势数据的方法。 《我偷了华尔街技巧来解决谷歌趋势数据问题》一文首先出现在《走向数据科学》上。

大规模机器学习:管理生产中的多个模型

Machine Learning at Scale: Managing More Than One Model in Production

从一个模型到管理一个庞大的投资组合:10 年的行业经验教会了我什么后大规模机器学习:在生产中管理多个模型首先出现在走向数据科学上。

无需学习 C 即可编写 C 代码:PythoC 的魔力

Write C Code Without Learning C: The Magic of PythoC

使用您已知的 Python 语法编译本机、独立的应用程序。无需学习 C 即可编写 C 代码:PythoC 的魔力一文首先出现在 Towards Data Science 上。

LatentVLA:自动驾驶的潜在推理模型

LatentVLA: Latent Reasoning Models for Autonomous Driving

如果自然语言不是驾驶的最佳抽象怎么办?LatentVLA:自动驾驶的潜在推理模型一文首先出现在 Towards Data Science 上。

理解 RAG 中的上下文和上下文检索

Understanding Context and Contextual Retrieval in RAG

为什么传统 RAG 会丢失上下文以及上下文检索如何显着提高检索准确性《理解 RAG 中的上下文和上下文检索》一文首先出现在《走向数据科学》上。

人工智能泡沫有一个数据科学逃生舱

The AI Bubble Has a Data Science Escape Hatch

五种经典的数据科学技能正在成为科技领域最稀缺的资源。当其他人都在追逐人工智能炒作时,制定了 90 天的路线图来构建它们。人工智能泡沫有一个数据科学逃生舱口的帖子首先出现在走向数据科学上。

是什么让量子机器学习成为“量子”?

What Makes Quantum Machine Learning “Quantum”?

今天在哪里?帖子《什么使量子机器学习成为“量子”?》首先出现在《走向数据科学》上。