走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

Google 趋势正在误导您:如何利用 Google 趋势数据进行机器学习

Google Trends is Misleading You: How to Do Machine Learning with Google Trends Data

Google Trends 是用于大规模分析人类行为的最广泛使用的工具之一。记者使用它。数据科学家使用它。整篇论文都是建立在它的基础上的。但 Google 趋势数据有一个基本属性,使其很容易被滥用,特别是当您正在处理时间序列或尝试构建模型时,而大多数人从未意识到他们正在这样做。Google 趋势误导了您:如何使用 Google 趋势数据进行机器学习一文首先出现在《走向数据科学》上。

如果你想在 2026 年成为一名数据科学家,就这样做

If You Want to Become a Data Scientist in 2026, Do This

从我的错误中吸取教训,快速跟踪您的数据科学职业如果您想在 2026 年成为数据科学家,请这样做,该文章首先出现在《迈向数据科学》上。

T 统计量的案例

A Case for the T-statistic

以及它与普通 z 分数的比较《T 统计案例》一文首先出现在《走向数据科学》上。

基于日历的时间智能是否会改变自定义逻辑?

Does Calendar-Based Time-Intelligence Change Custom Logic?

让我们看一下随着时间的推移计算移动平均值这篇文章基于日历的时间智能会改变自定义逻辑吗?首先出现在《走向数据科学》上。

您的 RAG 可能还不需要矢量数据库

You Probably Don’t Need a Vector Database for Your RAG — Yet

Numpy 或 SciKit-Learn 可能会满足您所有的检索需求这篇文章《您可能不需要 RAG 的矢量数据库 — 然而》首先出现在《走向数据科学》上。

与 Marco Hening Tallarico 一起弥合研究与可读性之间的差距

Bridging the Gap Between Research and Readability with Marco Hening Tallarico

稀释复杂的研究,发现无声的数据泄露,以及为什么最好的学习方式往往是倒退的。Marco Hening Tallarico 的文章《弥合研究与可读性之间的差距》首先出现在《走向数据科学》上。

使用本地法学硕士发现高性能算法

Using Local LLMs to Discover High-Performance Algorithms

我如何利用我的 MacBook 和本地法学硕士,利用开源模型探索高效代码生成的新领域。这篇文章《使用本地法学硕士发现高性能算法》首先出现在《走向数据科学》上。

时间序列还不够:图神经网络如何改变需求预测

Time Series Isn’t Enough: How Graph Neural Networks Change Demand Forecasting

为什么将 SKU 建模为网络揭示了传统预测所遗漏的内容《时间序列不够:图神经网络如何改变需求预测》首先出现在《走向数据科学》上。

为什么医疗保健在知识图谱中处于领先地位

Why Healthcare Leads in Knowledge Graphs

科学、监管、协作和公共资金如何塑造世界上最成熟的语义基础设施《为什么医疗保健在知识图谱中领先》一文首先出现在《迈向数据科学》上。

机器学习中的数据中毒:人们为何以及如何操纵训练数据

Data Poisoning in Machine Learning: Why and How People Manipulate Training Data

你知道你的数据在哪里吗?机器学习中的数据中毒:人们为何以及如何操纵训练数据一文首先出现在《走向数据科学》上。

无需法学硕士法官即可发现幻觉的几何方法

A Geometric Method to Spot Hallucinations Without an LLM Judge

想象一群鸟在飞行。没有领导者。没有中央指挥。每只鸟都与邻居保持一致——匹配方向、调整速度、通过纯粹的局部协调保持连贯性。其结果是从局部一致性中形成全球秩序。现在想象一只鸟带着与其他鸟相同的信念飞翔。它的翅膀拍打充满信心。它的速度[…]帖子《无需法学硕士法官即可发现幻觉的几何方法》首先出现在《走向数据科学》上。

最高效率编码设置

Maximum-Effiency Coding Setup

了解如何成为一名更高效的程序员最高效率编码设置一文首先出现在走向数据科学上。

将 LLM 内存减少 84%:深入研究融合内核

Cutting LLM Memory by 84%: A Deep Dive into Fused Kernels

为什么你的最终 LLM 层出现 OOMing 以及如何使用自定义 Triton 内核修复它。将 LLM 内存削减 84%:深入研究融合内核的帖子首先出现在 Towards Data Science 上。

从 RGB 到 Lab:解决 AI 图像合成中的色彩伪影

From RGB to Lab: Addressing Color Artifacts in AI Image Compositing

分割、色彩校正和特定领域增强的多层方法从 RGB 到实验室:解决 AI 图像合成中的色彩伪影问题首先出现在 Towards Data Science 上。

伟大的数据封闭:为什么 Databricks 和 Snowflake 已经达到了天花板

The Great Data Closure: Why Databricks and Snowflake Are Hitting Their Ceiling

收购、风险投资和日益激烈的竞争格局都指向市场天花板《大数据封闭:为什么 Databricks 和 Snowflake 正在触及天花板》一文首先出现在《走向数据科学》上。

TDS 时事通讯:是时候重新审视 RAG 了吗?

TDS Newsletter: Is It Time to Revisit RAG?

让我们了解检索增强生成的当前状态TDS 后通讯:是时候重新审视 RAG 了吗?首先出现在《走向数据科学》上。

当 Shapley 值被打破时:稳健模型可解释性指南

When Shapley Values Break: A Guide to Robust Model Explainability

Shapley 值是最常见的可解释性方法之一,但它们可能会产生误导。了解如何克服这些限制以获得更好的见解。《当沙普利价值观被打破:稳健模型可解释性指南》一文首先出现在《走向数据科学》上。

如何并行运行编码代理

How to Run Coding Agents in Parallel

充分利用 Claude Code 如何并行运行编码代理一文首先出现在 Towards Data Science 上。