走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

2026年6月26日 15:00

饮水机闲聊，第一集。 11：RAG评估中的过度拟合

Water Cooler Small Talk, Ep. 11: Overfitting in RAG evaluation

为什么为考试而记忆并不意味着你理解了该主题The post Water Cooler Small Talk, Ep. 11：RAG 评估中的过度拟合首先出现在 Towards Data Science 上。

2026年6月25日 18:37

Vector RAG 还不够 - 我为多代理内存构建了上下文图形层

Vector RAG Isn’t Enough — I Built a Context Graph Layer for Multi-Agent Memory

我在相同的多代理对话上对原始聊天历史记录、纯矢量 RAG 和上下文图进行了基准测试。结果暴露了关系检索中的一个令人惊讶的弱点。Vector RAG isn't Enough — I Building a Context Graph Layer for Multi-Agent Memory 首先出现在 Towards Data Science 上。

2026年6月25日 16:30

超越直线：在 OLS、交互项和 Tweedie 回归之间进行选择

Beyond the Straight Line: Choosing Between OLS, Interaction Terms, and Tweedie Regression

您是否应该坚持经典的普通最小二乘回归、引入交互项或转向 Tweedie 分布，完全取决于您的数据如何处理零和极端异常值的混乱现实。文章《超越直线：在 OLS、交互项和 Tweedie 回归之间进行选择》首先出现在《走向数据科学》上。

2026年6月25日 15:00

3 名特工。 3 名法学硕士。 1 老化的 GPU：裸机上的工程并行推理

3 Agents. 3 LLMs. 1 Aging GPU: Engineering Parallel Inference on Bare Metal

突破 8GB VRAM 限制。了解如何使用 C++ 层复用和准入控制在单个 8GB GPU 上运行三个不同的 LLM。后 3 个代理。 3 名法学硕士。 1 老化 GPU：裸机上的工程并行推理首先出现在《走向数据科学》上。

2026年6月25日 12:00

公开学习数据工程一个月：这是我没有写的内容

One Month Into Learning Data Engineering in Public: Here’s What I Didn’t Write About

对公开学习数据工程第一个月的反思，以及真正让我坚持下去的原因。《公开学习数据工程一个月：这是我没有写的内容》一文首先出现在《走向数据科学》上。

2026年6月24日 18:00

如何从逻辑回归模型构建信用评分网格

How to Build a Credit Scoring Grid From a Logistic Regression Model

将模型系数转换为 0-1000 分，并进行风险类别和稳定性检查如何从 Logistic 回归模型构建信用评分网格一文首先出现在 Towards Data Science 上。

2026年6月24日 16:30

作为数据工程师，您在新公司的第一个任务是什么？使 ETL 管道可测试

Your First Task as a Data Engineer in a New Company? Make the ETL Pipeline Testable

用于环境设置、自动化测试和人工智能辅助开发的实用数据工程入职工作流程。作为新公司数据工程师的第一个任务？让 ETL 管道可测试首先出现在《走向数据科学》上。

2026年6月24日 15:00

Gemma-2B 和 Gemma-12B-IT 中的三相事实回忆电路

A Three-Phase Factual Recall Circuit in Gemma-2B and Gemma-12B-IT

激活修补揭示了如何跨变压器层存储、路由和读取事实，以及为什么残差流完成大部分工作Gemma-2B 和 Gemma-12B-IT 中的三相事实回忆电路一文首先出现在《走向数据科学》上。

2026年6月23日 18:00

如何在 Claude 代码中创建强大的循环

How to Create Powerful Loops in Claude Code

了解循环的概念来为您的编码代理提供支持。文章《如何在克劳德代码中创建强大的循环》首先出现在《走向数据科学》上。

2026年6月23日 16:30

在询问 Gemini 之前我花了一个小时进行数据预处理任务

I Spent an Hour on a Data Preprocessing Task Before Asking Gemini

Gemini 如何在几秒钟内解决我的 Pandas 问题，以及为什么数据科学基础知识对于发现次优解决方案仍然很重要在询问 Gemini 之前我花了一个小时进行数据预处理任务的帖子首先出现在走向数据科学上。

2026年6月23日 13:30

无代码人工智能时代：您需要了解的内容

The Era of No-Code AI: What You Need to Know

如果您是一名程序员并且您不再感到“特别”，那么您并不孤单无代码人工智能时代：您需要知道什么首先出现在走向数据科学上。

2026年6月22日 16:30

对分类数据进行编码以进行异常值检测

Encoding Categorical Data for Outlier Detection

为什么单热编码并不总是最好的方法，以及替代编码用于离群值检测的编码分类数据一文首先出现在走向数据科学上。

2026年6月22日 15:00

如何在浏览器中使用 Claude 代码

How to Use Claude Code in Your Browser

了解如何应用编码代理来验证浏览器中的工作。《如何在浏览器中使用克劳德代码》一文首先出现在《走向数据科学》上。

2026年6月22日 13:30

当 RAG 用户提出模糊问题时：澄清一次，了解默认值

When RAG Users Ask Vague Questions: Clarify Once, Learn the Default

企业文档智能 [Vol.1 #6bis] - 提出重点澄清，从答案中了解默认值，下次保持沉默当 RAG 用户提出模糊问题时：澄清一次，了解默认值首先出现在走向数据科学上。

2026年6月22日 12:00

神经网络，为初学者解释：如果它们让您感到困惑，请从这里开始

Neural Networks, Explained for Beginners: Start Here If They’ve Confused You

神经网络背后的直觉以及为什么它们需要激活函数。神经网络，为初学者解释：如果他们让你感到困惑，请从这里开始，首先出现在走向数据科学上。

2026年6月21日 15:00

重建 PDF 忘记发送的目录，以便 RAG 可以按部分确定范围

Reconstructing the Table of Contents a PDF Forgot to Ship, So RAG Can Scope by Section

企业文档智能 [Vol.1 #5septies] - 当 PDF 打印内容页面但没有显示大纲时，有两种方法可以将其恢复为结构，再加上每个人都忘记的页面对齐步骤这篇文章“重建 PDF 忘记发送的目录，因此 RAG 可以按部分划分范围”首先出现在《走向数据科学》上。

2026年6月21日 13:00

在自助服务环境中构建日期表的可能性有哪些？

What Are the Possibilities to Build Date Tables in Self-Service Environments?

多年来，每当我无法在数据流上游创建日期表时，我都会使用 DAX 代码创建日期表。现在我意识到还有另一种方法可以做到这一点。让我们看看替代方案是什么以及它们如何进行比较。帖子《在自助服务环境中构建日期表的可能性有哪些？》首先出现在《走向数据科学》上。

2026年6月20日 15:00

使 PDF 的图像可通过 RAG 进行搜索，而无需付费阅读全部内容

Making a PDF’s Images Searchable for RAG, Without Paying to Read Them All

企业文档智能 [Vol.1 #5sexies] - image_df 告诉您每张图片的位置。将少数重要的内容转化为可搜索的文本是一项单独的、按成本排序的工作这篇文章《使 PDF 图像可被 RAG 搜索，无需付费阅读全部内容》首先出现在《走向数据科学》上。