走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

从 OpenStreetMap 到 Power BI:可视化野外游泳位置

From OpenStreetMap to Power BI: Visualizing Wild Swimming Locations

如何使用 Overpass API 和 Power BI 将 OpenStreetMap 数据转换为野外游泳点的交互式地图。从 OpenStreetMap 到 Power BI:可视化野外游泳位置的帖子首先出现在 Towards Data Science 上。

RAG 还不够——我构建了使 LLM 系统正常运行的缺失上下文层

RAG Isn’t Enough — I Built the Missing Context Layer That Makes LLM Systems Work

大多数 RAG 教程侧重于检索或提示。当上下文增长时,真正的问题就开始了。本文展示了一个用纯 Python 构建的完整上下文工程系统,该系统控制内存、压缩、重新排名和代币预算 - 因此 LLM 在实际约束下保持稳定。 帖子 RAG 不够 - 我构建了使 LLM 系统工作的缺失上下文层首先出现在《走向数据科学》上。

分析工程师的数据建模:完整入门

Data Modeling for Analytics Engineers: The Complete Primer

最好的数据模型使得提出坏问题变得困难,而回答好问题则变得容易。分析工程师的数据建模:完整入门教程首先出现在《走向数据科学》上。

选择正确 Quantum SDK 的实用指南

A Practical Guide to Choosing the Right Quantum SDK

使用什么、何时使用以及忽略什么?《选择正确量子 SDK 的实用指南》一文首先出现在《走向数据科学》上。

了解 GPU 和最大化 GPU 利用率的指南

A Guide to Understanding GPUs and Maximizing GPU Utilization

在计算受限的时代,了解如何通过了解架构、瓶颈和修复(从简单的 PyTorch 命令到自定义内核)来优化 GPU 效率。《了解 GPU 和最大化 GPU 利用率指南》一文首先出现在《走向数据科学》上。

如何使用正交距离拟合生成超紧凑矢量图形

How To Produce Ultra-Compact Vector Graphic Plots With Orthogonal Distance Fitting

通过使用 ODF 算法拟合贝塞尔曲线来生成高质量、最小的 SVG 图。如何使用正交距离拟合生成超紧凑矢量图形图一文首先出现在 Towards Data Science 上。

如何将克劳德代码应用于非技术任务

How to Apply Claude Code to Non-technical Tasks

了解如何将编码代理应用于计算机上的所有任务如何将克劳德代码应用于非技术任务的帖子首先出现在走向数据科学上。

您的模型尚未完成:理解并修复模型漂移

Your Model Isn’t Done: Understanding and Fixing Model Drift

生产模型如何随着时间的推移而失败,以及如何在它破坏信任之前捕获并修复它。您的模型尚未完成:理解和修复模型漂移一文首先出现在走向数据科学上。

范围胜于深度:对数据通才角色的反思

Range Over Depth: A Reflection on the Role of the Data Generalist

过去五年数据团队中通才的角色和重要性发生了哪些变化《范围胜于深度:对数据通才角色的反思》一文首先出现在《走向数据科学》上。

我在变压器内构建了一台微型计算机

I Built a Tiny Computer Inside a Transformer

通过将一个简单的程序直接编译为变压器权重。我在变压器内构建微型计算机的帖子首先出现在走向数据科学上。

使用方法链接管道像专业人士一样编写 Pandas

Write Pandas Like a Pro With Method Chaining Pipelines

掌握方法链接、分配() 和管道(),以编写更清晰、可测试、可用于生产的 Pandas 代码这篇文章《使用方法链接管道像专业人士一样编写 Pandas》一文首先出现在《走向数据科学》上。

你的 ReAct 代理浪费了 90% 的重试 - 以下是阻止它的方法

Your ReAct Agent Is Wasting 90% of Its Retries — Here’s How to Stop It

大多数 ReAct 风格的代理都默默地将重试预算浪费在永远不会成功的错误上。在 200 个任务的基准测试中,90.8% 的重试都花在了幻觉的工具调用上——不是模型错误,而是架构缺陷。本文展示了为什么即时调整无法解决这个问题,以及完全消除浪费重试的三种结构变化。 文章《你的 ReAct Agent 正在浪费 90% 的重试 — 以下是如何阻止它》首先出现在 Towards Data Science 上。

为什么每个 AI 编码助手都需要内存层

Why Every AI Coding Assistant Needs a Memory Layer

AI 编码助理需要一个持久的内存层来克服 LLM 的无状态性,并通过系统地跨会话提供上下文来提高代码质量。为什么每个 AI 编码助理需要一个内存层一文首先出现在 Towards Data Science 上。

使用 Unity 游戏引擎的强化学习代理简介

Introduction to Reinforcement Learning Agents with the Unity Game Engine

针对机器学习最棘手领域之一的分步交互式指南。使用 Unity 游戏引擎强化学习代理简介一文首先出现在 Towards Data Science 上。

当表格模型中的自定义日历变得奇怪时

When Things Get Weird with Custom Calendars in Tabular Models

自 2025 年 9 月以来,我们在 Power BI 和 Fabric 表格模型中引入了基于日历的时间智能。虽然这个功能提供了巨大的可能性,但我们必须意识到它的陷阱。以下是其中的一些。当表格模型中的自定义日历变得奇怪时,这篇文章首先出现在走向数据科学上。

为什么 MLOps 再训练计划失败 - 模型不会忘记,他们会感到震惊

Why MLOps Retraining Schedules Fail — Models Don’t Forget, They Get Shocked

我们将艾宾浩斯遗忘曲线拟合到 555,000 笔真实欺诈交易中,得到 R² = −0.31 — 比平坦线更糟糕。这一结果解释了为什么基于日历的再训练在生产中失败,并引入了一种在实际系统中有效的实用冲击检测方法。文章《为什么 MLOps 重新训练计划失败——模型不会忘记,他们会感到震惊》一文首先出现在《走向数据科学》上。

在缺少编码器的情况下在 Voxtral 上进行语音克隆的指南

A Guide to Voice Cloning on Voxtral with a Missing Encoder

如果我们有 Voxtral 文本转语音模型的音频,我们可以重建音频代码吗?这篇文章《使用缺失编码器在 Voxtral 上进行语音克隆指南》首先出现在《走向数据科学》上。

AI 如何学习 3D 观察并理解空间?

How Does AI Learn to See in 3D and Understand Space?

深度估计、基础分割和几何融合如何融合为空间智能人工智能如何学会在 3D 中观察并理解空间?首先出现在《走向数据科学》上。