走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

TDS 时事通讯:12 月有关 GraphRAG、数据合约等的必读内容

TDS Newsletter: December Must-Reads on GraphRAG, Data Contracts, and More

不要错过我们上个月最受欢迎的文章TDS 新闻通讯:12 月有关 GraphRAG、数据合约等的必读文章首先出现在 Towards Data Science 上。

时间序列检索:回顾如何改进预测

Retrieval for Time-Series: How Looking Back Improves Forecasts

为什么检索有助于时间序列预测 我们都知道它是怎么回事:时间序列数据很棘手。传统的预测模型对突然的市场崩盘、黑天鹅事件或罕见的天气模式等事件没有做好准备。即使像 Chronos 这样的大型花哨模型有时也会遇到困难,因为它们以前没有处理过这种模式。我们可以[…]帖子检索时间序列:如何回顾改进预测首先出现在走向数据科学上。

更快并不总是更好:在 Python 中选择正确的 PostgreSQL 插入策略(+基准)

Faster Is Not Always Better: Choosing the Right PostgreSQL Insert Strategy in Python (+Benchmarks)

PostgreSQL 速度很快。你的 Python 代码是否能够或应该跟上取决于上下文。本文对各种插入策略进行了比较和基准测试,重点不是微基准测试,而是安全性、抽象性和吞吐量之间的权衡,并为工作选择正确的工具。文章更快并不总是更好:在 Python 中选择正确的 PostgreSQL 插入策略(+基准)首先出现在 Towards Data Science 上。

大规模的 HNSW:为什么您的 RAG 系统会随着矢量数据库的增长而变得更糟

HNSW at Scale: Why Your RAG System Gets Worse as the Vector Database Grows

近似向量搜索如何默默地降低召回率 - 以及如何处理它大规模的 HNSW 帖子:为什么随着向量数据库的增长,你的 RAG 系统变得更糟,首先出现在《走向数据科学》上。

我通过联邦学习评估了 50 万条信用记录。这是我发现的内容

I Evaluated Half a Million Credit Records with Federated Learning. Here’s What I Found

为什么隐私会在小范围内破坏公平性,以及协作如何在不共享单个记录的情况下解决这两个问题我用联邦学习评估了 50 万信用记录。这是我的发现首先出现在《走向数据科学》上。

概率多变量推理:将流利的 LLM 答案转化为加权选项

Probabilistic Multi-Variant Reasoning: Turning Fluent LLM Answers Into Weighted Options

人类引导的 AI 协作概率多变量推理:将流畅的 LLM 答案转化为加权选项一文首先出现在《走向数据科学》上。

为什么供应链是 2026 年数据科学家的最佳领域(以及如何学习)

Why Supply Chain is the Best Domain for Data Scientists in 2026 (And How to Learn It)

在供应链工作 10 年后,我对为什么供应链可以成为希望看到自己的技能得到重视的数据科学家的绝佳游乐场的看法。为什么供应链是 2026 年数据科学家的最佳领域(以及如何学习)一文首先出现在《走向数据科学》上。

使用 NeMo Agent Toolkit 衡量重要事项

Measuring What Matters with NeMo Agent Toolkit

可观察性、评估和模型比较的实用指南使用 NeMo Agent Toolkit 衡量重要内容一文首先出现在 Towards Data Science 上。

最好的数据科学家总是在学习

The Best Data Scientists Are Always Learning

第 2 部分:避免倦怠、学习策略和孤独的超能力最佳数据科学家总是在学习的帖子首先出现在《走向数据科学》上。

如何优化您的 AI 编码代理上下文

How to Optimize Your AI Coding Agent Context

让您的编码代理更高效如何优化您的 AI 编码代理上下文一文首先出现在《走向数据科学》上。

特征检测,第 3 部分:Harris 角点检测

Feature Detection, Part 3: Harris Corner Detection

寻找图像中信息最丰富的点特征检测后,第 3 部分:Harris 角点检测首先出现在《走向数据科学》上。

Ray:全民分布式计算,第 1 部分

Ray: Distributed Computing for All, Part 1

从本地 PC 及其他电脑上的单核到多核雷后:全民分布式计算,第 1 部分首先出现在《迈向数据科学》上。

停止责怪数据:处理协方差漂移的更好方法

Stop Blaming the Data: A Better Way to Handle Covariance Shift

不要使用偏移作为性能不佳的借口,而是使用逆概率加权来估计模型在新环境中的表现。停止指责数据:处理协方差偏移的更好方法首先出现在走向数据科学上。

YOLOv1 损失函数演练:所有人的回归

YOLOv1 Loss Function Walkthrough: Regression for All

解释 YOLOv1 如何衡量其对象检测和分类预测的正确性YOLOv1 损失函数演练:所有人的回归首先出现在《走向数据科学》上。

Prompt Engineering 与 RAG 编辑简历

Prompt Engineering vs RAG for Editing Resumes

在 Azure 中运行无代码比较用于编辑简历的 Prompt Engineering 与 RAG 帖子首先出现在 Towards Data Science 上。

如何在语义模型中过滤日期,包括或排除未来日期

How to Filter for Dates, Including or Excluding Future Dates, in Semantic Models

计划数据或上一年的数据显示在今天日期之后的情况很常见。但未来的数据可能会令人困惑。如何添加切片器来显示或隐藏未来的数据?让我们看看如何做到这一点。这篇文章《如何在语义模型中过滤日期,包括或排除未来日期》首先出现在《走向数据科学》上。

优化 AI/ML 工作负载中的数据传输

Optimizing Data Transfer in AI/ML Workloads

借助 NVIDIA Nsight™ 系统,深入探讨数据传输瓶颈、识别瓶颈和解决方案优化 AI/ML 工作负载中的数据传输一文首先出现在 Towards Data Science 上。

鲁棒机器学习系统中的漂移检测

Drift Detection in Robust Machine Learning Systems

机器学习系统长期成功的先决条件“鲁棒机器学习系统中的漂移检测”一文首先出现在《走向数据科学》上。