走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

MCMC 直观指南(第一部分):Metropolis-Hastings 算法

An Intuitive Guide to MCMC (Part I): The Metropolis-Hastings Algorithm

厌倦了 AI 炒作?让我们来谈谈实际推动高端量化金融的概率算法。MCMC 直观指南(第一部分):Metropolis-Hastings 算法一文首先出现在《走向数据科学》上。

谱聚类解释:特征向量如何揭示复杂的簇结构

Spectral Clustering Explained: How Eigenvectors Reveal Complex Cluster Structures

了解为什么谱聚类优于 K-means后谱聚类解释:特征向量如何揭示复杂的聚类结构首先出现在走向数据科学上。

为什么大多数 A/B 测试都在骗你

Why Most A/B Tests Are Lying to You

导致大多数 A/B 测试无效的 4 种统计错误,以及周一可以使用的预测试清单和贝叶斯与频率主义决策框架。为什么大多数 A/B 测试都在骗你的文章首先出现在《走向数据科学》上。

傅里叶变换如何将声音转换为频率

How the Fourier Transform Converts Sound Into Frequencies

直观、直观的指南,帮助您理解数学的真正作用——从绕线机到频谱图《傅里叶变换如何将声音转换为频率》一文首先出现在《走向数据科学》上。

混合神经符号欺诈检测:用域规则指导神经网络

Hybrid Neuro-Symbolic Fraud Detection: Guiding Neural Networks with Domain Rules

我真的认为我正在做一些大事:向损失函数添加几个简单的域规则,并观察超级不平衡数据上的欺诈检测猛增。第一次运行看起来很棒......直到我修复了一个偷偷摸摸的阈值错误并在五个不同的随机种子上运行了整个过程。突然之间,“巨大的胜利”几乎消失了。说实话,我最终得到的结果实际上更有用:提醒我们,在欺诈等罕见事件问题上,我们衡量成功的方式(阈值、种子、指标)比模型本身更容易欺骗我们。该规则确实使排名稍微好一点(您可以在 ROC-AUC 中一致地看到它),但真正的收益很小且脆弱。这是完整的故事 - 错误、差异、经验教训等等。混合神经符号欺诈检测:用领域规则指导神经网络首先出现在走向数据科学上。

在 Power BI 中为商店构建同类解决方案

Building a Like-for-Like solution for Stores in Power BI

同类 (L4L) 解决方案对于比较元素至关重要。它只是比较可比较的元素,在本例中,是比较一段时间内的商店。让我们看看在语义模型中构建的解决方案。在 Power BI 中为商店构建同类解决方案一文首先出现在 Towards Data Science 上。

当数据撒谎时:用博弈论寻找点球的最佳策略

When Data Lies: Finding Optimal Strategies for Penalty Kicks with Game Theory

博弈论、纳什均衡和战略决策的数据驱动简介《当数据撒谎时:用博弈论寻找点球的最佳策略》一文首先出现在《走向数据科学》上。

要避免的三个 OpenClaw 错误以及如何修复它们

Three OpenClaw Mistakes to Avoid and How to Fix Them

了解如何有效设置 OpenClaw《要避免的三个 OpenClaw 错误以及如何修复它们》一文首先出现在《走向数据科学》上。

我偷了华尔街的一招来解决 Google 趋势数据问题

I Stole a Wall Street Trick to Solve a Google Trends Data Problem

比较各国 Google 趋势数据的方法。 《我偷了华尔街技巧来解决谷歌趋势数据问题》一文首先出现在《走向数据科学》上。

大规模机器学习:管理生产中的多个模型

Machine Learning at Scale: Managing More Than One Model in Production

从一个模型到管理一个庞大的投资组合:10 年的行业经验教会了我什么后大规模机器学习:在生产中管理多个模型首先出现在走向数据科学上。

无需学习 C 即可编写 C 代码:PythoC 的魔力

Write C Code Without Learning C: The Magic of PythoC

使用您已知的 Python 语法编译本机、独立的应用程序。无需学习 C 即可编写 C 代码:PythoC 的魔力一文首先出现在 Towards Data Science 上。

LatentVLA:自动驾驶的潜在推理模型

LatentVLA: Latent Reasoning Models for Autonomous Driving

如果自然语言不是驾驶的最佳抽象怎么办?LatentVLA:自动驾驶的潜在推理模型一文首先出现在 Towards Data Science 上。

理解 RAG 中的上下文和上下文检索

Understanding Context and Contextual Retrieval in RAG

为什么传统 RAG 会丢失上下文以及上下文检索如何显着提高检索准确性《理解 RAG 中的上下文和上下文检索》一文首先出现在《走向数据科学》上。

人工智能泡沫有一个数据科学逃生舱

The AI Bubble Has a Data Science Escape Hatch

五种经典的数据科学技能正在成为科技领域最稀缺的资源。当其他人都在追逐人工智能炒作时,制定了 90 天的路线图来构建它们。人工智能泡沫有一个数据科学逃生舱口的帖子首先出现在走向数据科学上。

是什么让量子机器学习成为“量子”?

What Makes Quantum Machine Learning “Quantum”?

今天在哪里?帖子《什么使量子机器学习成为“量子”?》首先出现在《走向数据科学》上。

黑匣子问题:为什么人工智能生成的代码不再可维护

The Black Box Problem: Why AI-Generated Code Stops Being Maintainable

相同的通知系统,两种架构。非结构化生成将所有内容耦合到一个模块中。结构化生成分解为具有显式单向依赖性的独立组件。图片由作者提供 文章《黑匣子问题:为什么人工智能生成的代码不再可维护》首先出现在《走向数据科学》上。

如何使用 Claude 代码创建生产就绪代码

How to Create Production-Ready Code with Claude Code

了解如何使用编码代理编写健壮的代码。如何使用 Claude Code 创建生产就绪代码的帖子首先出现在 Towards Data Science 上。

多 GPU 中的人工智能:ZeRO 和 FSDP

AI in Multiple GPUs: ZeRO & FSDP

了解零冗余优化器的工作原理、如何从头开始实现它以及如何在 PyTorch 中使用它多 GPU 中的人工智能后处理:ZeRO 和 FSDP 首先出现在《走向数据科学》上。