走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

使用 AI 进行 Vibe 编码:软件开发中人机协作的最佳实践

Vibe Coding with AI: Best Practices for Human-AI Collaboration in Software Development

使用 AI 加速编码,同时保持控制并构建可靠的、可用于生产的软件。Vibe Coding with AI:软件开发中人机协作的最佳实践首先出现在 Towards Data Science 上。

两阶段障碍模型:预测零膨胀结果

Two-Stage Hurdle Models: Predicting Zero-Inflated Outcomes

为什么一个模型不能完成两项工作《两阶段障碍模型:预测零膨胀结果》一文首先出现在《迈向数据科学》上。

AI编码新体验

The New Experience of Coding with AI

人工智能代码助手的诱惑《人工智能编码的新体验》一文首先出现在《走向数据科学》上。

为什么你应该停止担心 AI 抢走数据科学工作

Why You Should Stop Worrying About AI Taking Data Science Jobs

这一切都只是危言耸听。为什么你应该停止担心人工智能抢走数据科学工作的帖子首先出现在《迈向数据科学》上。

如何有效审查 Claude 代码输出

How to Effectively Review Claude Code Output

通过提高审查效率,从编码代理中获得更多收益《如何有效审查 Claude 代码输出》一文首先出现在《走向数据科学》上。

Gemini Embeddings 2 预览版简介

Introducing Gemini Embeddings 2 Preview

一个嵌入模型来统治它们Gemini Embeddings 2 预览简介一文首先出现在 Towards Data Science 上。

神经网络如何学习自己的欺诈规则:神经符号人工智能实验

How a Neural Network Learned Its Own Fraud Rules: A Neuro-Symbolic AI Experiment

大多数神经符号系统都会注入人类编写的规则。但如果神经网络本身能够发现这些规则呢?在本实验中,我使用可微规则学习模块扩展了混合神经网络,该模块在训练期间自动提取 IF-THEN 欺诈规则。在 Kaggle 信用卡欺诈数据集(欺诈率为 0.17%)上,该模型学习了可解释的规则,例如:神经网络如何学习其自己的欺诈规则:神经符号 AI 实验首先出现在《走向数据科学》上。

法学硕士的幻觉不是数据中的错误

Hallucinations in LLMs Are Not a Bug in the Data

这是架构的一个特点法学硕士后的幻觉不是数据中的错误首先出现在《走向数据科学》上。

追随人工智能足迹

Follow the AI Footpaths

影子人工智能和现代工作的欲望之路“追随人工智能足迹”一文首先出现在《迈向数据科学》上。

为讨厌统计的人提供的贝叶斯思维

Bayesian Thinking for People Who Hated Statistics

你已经像贝叶斯主义者一样思考了。你的统计课只是在教直觉之前教了公式。这里有一个在工作中应用它的 5 步框架。《为讨厌统计学的人提供的后贝叶斯思维》首先出现在《走向数据科学》上。

2026 年数据指令:您的治理架构是堡垒还是责任?

The 2026 Data Mandate: Is Your Governance Architecture a Fortress or a Liability?

您的 2026 年数据战略准备好了吗?深入探讨向人机参与式监督、主动元数据以及欧洲数据主权的战略优势的强制性转变。2026 年数据授权:您的治理架构是堡垒还是责任?首先出现在《走向数据科学》上。

因果推理手册:每个数据科学家都应该掌握的高级方法

The Causal Inference Playbook: Advanced Methods Every Data Scientist Should Master

使用 Python 掌握六种高级因果推理方法:双重稳健估计、工具变量、不连续性回归、现代双重差分、异质治疗效果和敏感性分析。包括代码和实用的决策框架。因果推理手册:每个数据科学家都应该掌握的高级方法一文首先出现在走向数据科学上。

量子软件堆栈的当前状态

The Current Status of The Quantum Software Stack

今天我们如何对量子计算机进行编程?《量子软件堆栈的当前状态》一文首先出现在《走向数据科学》上。

为什么关心 LLM 中的提示缓存?

Why Care About Prompt Caching in LLMs?

使用提示缓存优化 LLM 调用的成本和延迟The post Why Care About Prompt Caching in LLMs?首先出现在《走向数据科学》上。

如何从“从头开始”训练视觉语言模型

How Vision Language Models Are Trained from “Scratch”

深入探讨如何微调纯文本语言模型以*查看*图像如何从“从头开始”训练视觉语言模型一文首先出现在《走向数据科学》上。

具有两塔嵌入变体的个性化餐厅排名

Personalized Restaurant Ranking with a Two-Tower Embedding Variant

当受欢迎程度排名失败时,轻量级两塔模型如何改善餐厅发现带有两塔嵌入变体的个性化餐厅排名一文首先出现在《走向数据科学》上。

两个方差的故事:为什么 NumPy 和 Pandas 给出不同的答案

A Tale of Two Variances: Why NumPy and Pandas Give Different Answers

假设您正在分析一个小数据集:您想要计算一些汇总统计数据以了解该数据的分布,因此您使用 numpy 来计算均值和方差。你的输出看起来像这样:太棒了!现在您已经了解了数据的分布。然而,你的同事来了……《两个方差的故事:为什么 NumPy 和 Pandas 给出不同的答案》一文首先出现在《走向数据科学》上。

如何使用混合搜索构建 Agentic RAG

How to Build Agentic RAG with Hybrid Search

了解如何构建强大的代理 RAG 系统如何使用混合搜索构建代理 RAG 帖子首先出现在 Towards Data Science 上。