走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

因果推理手册:每个数据科学家都应该掌握的高级方法

The Causal Inference Playbook: Advanced Methods Every Data Scientist Should Master

使用 Python 掌握六种高级因果推理方法:双重稳健估计、工具变量、不连续性回归、现代双重差分、异质治疗效果和敏感性分析。包括代码和实用的决策框架。因果推理手册:每个数据科学家都应该掌握的高级方法一文首先出现在走向数据科学上。

量子软件堆栈的当前状态

The Current Status of The Quantum Software Stack

今天我们如何对量子计算机进行编程?《量子软件堆栈的当前状态》一文首先出现在《走向数据科学》上。

为什么关心 LLM 中的提示缓存?

Why Care About Prompt Caching in LLMs?

使用提示缓存优化 LLM 调用的成本和延迟The post Why Care About Prompt Caching in LLMs?首先出现在《走向数据科学》上。

如何从“从头开始”训练视觉语言模型

How Vision Language Models Are Trained from “Scratch”

深入探讨如何微调纯文本语言模型以*查看*图像如何从“从头开始”训练视觉语言模型一文首先出现在《走向数据科学》上。

具有两塔嵌入变体的个性化餐厅排名

Personalized Restaurant Ranking with a Two-Tower Embedding Variant

当受欢迎程度排名失败时,轻量级两塔模型如何改善餐厅发现带有两塔嵌入变体的个性化餐厅排名一文首先出现在《走向数据科学》上。

两个方差的故事:为什么 NumPy 和 Pandas 给出不同的答案

A Tale of Two Variances: Why NumPy and Pandas Give Different Answers

假设您正在分析一个小数据集:您想要计算一些汇总统计数据以了解该数据的分布,因此您使用 numpy 来计算均值和方差。你的输出看起来像这样:太棒了!现在您已经了解了数据的分布。然而,你的同事来了……《两个方差的故事:为什么 NumPy 和 Pandas 给出不同的答案》一文首先出现在《走向数据科学》上。

如何使用混合搜索构建 Agentic RAG

How to Build Agentic RAG with Hybrid Search

了解如何构建强大的代理 RAG 系统如何使用混合搜索构建代理 RAG 帖子首先出现在 Towards Data Science 上。

使用 Python 进行信用评分的探索性数据分析

Exploratory Data Analysis for Credit Scoring with Python

通过对借款人和贷款特征的统计分析来了解违约风险。用 Python 进行信用评分的探索性数据分析一文首先出现在 Towards Data Science 上。

解决人类训练数据问题

Solving the Human Training Data Problem

人工智能如何彻底改变了我作为研究生的学习方式解决人类训练数据问题的帖子首先出现在走向数据科学上。

缩放矢量搜索:比较量化和 Matryoshka 嵌入以降低 80% 的成本

Scaling Vector Search: Comparing Quantization and Matryoshka Embeddings for 80% Cost Reduction

应对性能悬崖:如何将 MRL 与 int8 和二进制量化相结合,平衡基础设施成本和检索精度。帖子《缩放矢量搜索:比较量化和俄罗斯套娃嵌入,以降低 80% 的成本》首先出现在《走向数据科学》上。

MCMC 直观指南(第一部分):Metropolis-Hastings 算法

An Intuitive Guide to MCMC (Part I): The Metropolis-Hastings Algorithm

厌倦了 AI 炒作?让我们来谈谈实际推动高端量化金融的概率算法。MCMC 直观指南(第一部分):Metropolis-Hastings 算法一文首先出现在《走向数据科学》上。

谱聚类解释:特征向量如何揭示复杂的簇结构

Spectral Clustering Explained: How Eigenvectors Reveal Complex Cluster Structures

了解为什么谱聚类优于 K-means后谱聚类解释:特征向量如何揭示复杂的聚类结构首先出现在走向数据科学上。

为什么大多数 A/B 测试都在骗你

Why Most A/B Tests Are Lying to You

导致大多数 A/B 测试无效的 4 种统计错误,以及周一可以使用的预测试清单和贝叶斯与频率主义决策框架。为什么大多数 A/B 测试都在骗你的文章首先出现在《走向数据科学》上。

傅里叶变换如何将声音转换为频率

How the Fourier Transform Converts Sound Into Frequencies

直观、直观的指南,帮助您理解数学的真正作用——从绕线机到频谱图《傅里叶变换如何将声音转换为频率》一文首先出现在《走向数据科学》上。

混合神经符号欺诈检测:用域规则指导神经网络

Hybrid Neuro-Symbolic Fraud Detection: Guiding Neural Networks with Domain Rules

我真的认为我正在做一些大事:向损失函数添加几个简单的域规则,并观察超级不平衡数据上的欺诈检测猛增。第一次运行看起来很棒......直到我修复了一个偷偷摸摸的阈值错误并在五个不同的随机种子上运行了整个过程。突然之间,“巨大的胜利”几乎消失了。说实话,我最终得到的结果实际上更有用:提醒我们,在欺诈等罕见事件问题上,我们衡量成功的方式(阈值、种子、指标)比模型本身更容易欺骗我们。该规则确实使排名稍微好一点(您可以在 ROC-AUC 中一致地看到它),但真正的收益很小且脆弱。这是完整的故事 - 错误、差异、经验教训等等。混合神经符号欺诈检测:用领域规则指导神经网络首先出现在走向数据科学上。

在 Power BI 中为商店构建同类解决方案

Building a Like-for-Like solution for Stores in Power BI

同类 (L4L) 解决方案对于比较元素至关重要。它只是比较可比较的元素,在本例中,是比较一段时间内的商店。让我们看看在语义模型中构建的解决方案。在 Power BI 中为商店构建同类解决方案一文首先出现在 Towards Data Science 上。

当数据撒谎时:用博弈论寻找点球的最佳策略

When Data Lies: Finding Optimal Strategies for Penalty Kicks with Game Theory

博弈论、纳什均衡和战略决策的数据驱动简介《当数据撒谎时:用博弈论寻找点球的最佳策略》一文首先出现在《走向数据科学》上。

要避免的三个 OpenClaw 错误以及如何修复它们

Three OpenClaw Mistakes to Avoid and How to Fix Them

了解如何有效设置 OpenClaw《要避免的三个 OpenClaw 错误以及如何修复它们》一文首先出现在《走向数据科学》上。