走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

机器学习“降临日历”第 12 天:Excel 中的逻辑回归

The Machine Learning “Advent Calendar” Day 12: Logistic Regression in Excel

在本文中,我们直接在 Excel 中一步步重建逻辑回归。从二进制数据集开始,我们探讨线性回归作为分类器为何举步维艰,逻辑函数如何解决这些问题,以及对数损失如何自然地从似然中出现。借助透明的梯度下降表,您可以在每次迭代中观察模型的学习情况,从而使整个过程直观、直观且令人惊讶地令人满意。机器学习“降临日历”第 12 天:Excel 中的逻辑回归首先出现在走向数据科学。

去中心化计算:深度学习背后的隐藏原理

Decentralized Computation: The Hidden Principle Behind Deep Learning

深度学习的大多数突破——从简单的神经网络到大型语言模型——都建立在比人工智能本身更古老的原则之上:去中心化。现代基于深度学习的人工智能模型之所以成功,是因为许多简单的单元在本地进行交互,而不是依赖强大的“中央规划器”来协调和指挥其他组件的行为。

公共 EDA(第 1 部分):使用 Pandas 清理和探索销售数据

EDA in Public (Part 1): Cleaning and Exploring Sales Data with Pandas

大家好!欢迎开始我称之为“公共 EDA”的重要数据之旅。对于那些了解我的人来说,我相信学习任何东西的最好方法就是解决现实世界的问题并分享整个混乱的过程——包括错误、胜利以及中间的一切。如果您一直在寻求提升 [...]公共 EDA 帖子(第 1 部分):使用 Pandas 清理和探索销售数据首先出现在走向数据科学上。

临床知识图中的光谱社区检测

Spectral Community Detection in Clinical Knowledge Graphs

简介 我们如何识别大型队列中的潜在患者群体?我们如何才能发现患者之间的相似之处,而不仅仅是与特定疾病相关的众所周知的合并症群?更重要的是,我们如何提取可以在不同临床场景中进行分析、比较和重用的定量信号?与临床知识图中的光谱社区检测后相关的信息首先出现在走向数据科学上。

机器学习“降临日历”第 11 天:Excel 中的线性回归

The Machine Learning “Advent Calendar” Day 11: Linear Regression in Excel

线性回归看似简单,但却介绍了现代机器学习的核心思想:损失函数、优化、梯度、缩放和解释。在本文中,我们在 Excel 中重建线性回归,将闭式解与梯度下降进行比较,看看系数如何一步步演化。这个基础自然会导致正则化、核、分类和对偶视图。线性回归不仅仅是一条直线,而是我们接下来将在降临节中探索的许多模型的起点。日历。机器学习“降临日历”第 11 天:Excel 中的线性回归一文首先出现在走向数据科学上。

使用 Python Turtle 模块绘制形状

Drawing Shapes with the Python Turtle Module

探索 Python Turtle 模块的分步教程使用 Python Turtle 模块绘制形状一文首先出现在 Towards Data Science 上。

每个数据科学家都应该知道的 7 个 Pandas 性能技巧

7 Pandas Performance Tricks Every Data Scientist Should Know

在太多缓慢的笔记本和冻结的会话之后,我学到了如何让 Pandas 更快。每个数据科学家都应该知道的 7 个 Pandas 性能技巧后文章首先出现在《走向数据科学》上。

多代理系统中代理切换如何工作

How Agent Handoffs Work in Multi-Agent Systems

了解基于 LLM 的代理如何在多代理系统中使用 LangGraph 相互传输控制权这篇文章《多代理系统中的代理切换如何工作》首先出现在《走向数据科学》上。

机器学习“降临节日历”第 10 天:Excel 中的 DBSCAN

The Machine Learning “Advent Calendar” Day 10: DBSCAN in Excel

DBSCAN 展示了我们可以用一个非常简单的想法走多远:计算每个点附近有多少个邻居。它无需任何概率模型即可找到集群并标记异常,并且在 Excel 中运行良好。但由于它依赖于一个固定半径,因此需要 HDBSCAN 来使该方法在实际数据上稳健。机器学习“降临日历”第 10 天:Excel 中的 DBSCAN 帖子首先出现在《走向数据科学》上。

如何最大化代理记忆以进行持续学习

How to Maximize Agentic Memory for Continual Learning

了解如何通过持续学习成为一名高效的工程师 法学硕士如何最大化代理记忆以进行持续学习一文首先出现在《走向数据科学》上。

在 AWS Graviton 上优化 PyTorch 模型推理

Optimizing PyTorch Model Inference on AWS Graviton

在 CPU 上加速 AI/ML 的技巧 — 第 2 部分优化 AWS Graviton 上的 PyTorch 模型推理一文首先出现在 Towards Data Science 上。

机器学习“降临日历”第 9 天:Excel 中的 LOF

The Machine Learning “Advent Calendar” Day 9: LOF in Excel

在本文中,我们通过三个简单的步骤来探索 LOF:距离和邻居、可达距离以及最终的 LOF 分数。使用微小的数据集,我们可以看到两个异常如何对我们来说看起来很明显,但对于不同的算法却完全不同。这揭示了无监督学习的关键思想:不存在单一的“真实”异常值,只有定义。理解这些定义才是真正的技能。机器学习“降临日历”第 9 天:Excel 中的 LOF 这篇文章首先出现在走向数据科学上。

个人代理助理:安全、多用户、自托管聊天机器人的实用蓝图

Personal, Agentic Assistants: A Practical Blueprint for a Secure, Multi-User, Self-Hosted Chatbot

构建一个自托管的端到端平台,为每个用户提供一个个人的、代理的聊天机器人,该机器人可以通过用户明确允许其访问的文件进行自主矢量搜索。文章《个人代理助理:安全、多用户、自托管聊天机器人的实用蓝图》首先出现在《走向数据科学》上。

2026 年开启人工智能职业生涯的现实路线图

A Realistic Roadmap to Start an AI Career in 2026

如何通过真实、可用的项目在 2026 年学习人工智能《2026 年开始人工智能职业的现实路线图》一文首先出现在《迈向数据科学》上。

弥合沉默:LEO 卫星和边缘人工智能将如何实现连接民主化

Bridging the Silence: How LEO Satellites and Edge AI Will Democratize Connectivity

为什么设备上的智能和低轨道星座是实现普遍可及性的唯一可行途径《弥合沉默:LEO 卫星和边缘人工智能如何使连接民主化》一文首先出现在《迈向数据科学》上。

机器学习“降临日历”第 8 天:Excel 中的隔离森林

The Machine Learning “Advent Calendar” Day 8: Isolation Forest in Excel

隔离森林可能看起来很技术性,但它的想法很简单:使用随机分割来隔离点。如果一个点很快被孤立,那么它就是一个异常点;如果需要多次分割,这是正常的。使用微小的数据集1、2、3、9,我们可以清楚地看到逻辑。我们构建几个随机树,测量每个点需要多少个分割,平均深度,并将它们转换为异常分数。短深度的分数接近 1,长深度的分数接近 0。Excel 的实现很痛苦,但算法本身很优雅。它可以扩展到许多特征,不对分布做出任何假设,甚至可以处理分类数据。最重要的是,隔离森林提出了一个不同的问题:不是“什么是正常的?”,而是“我能以多快的速度隔离这一点?”机器学习“降临日历”第 8 天:Excel 中的隔离森林帖子首先出

人工智能泡沫将会破裂——为什么这并不重要

The AI Bubble Will Pop — And Why That Doesn’t Matter

历史上最大的科技泡沫如何解释人工智能下一步的发展方向人工智能泡沫将会破裂——以及为什么这并不重要一文首先出现在《走向数据科学》上。

在 CPU 上优化 PyTorch 模型推理

Optimizing PyTorch Model Inference on CPU

在 Intel Xeon 上像狮子一样飞翔这篇文章在 CPU 上优化 PyTorch 模型推理首先出现在走向数据科学上。