走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

用于灵活多元预测的神经网络

Neural Networks for Flexible Multivariate Forecasting

一个简单的分步指南,帮助您开始使用神经网络进行时间序列预测继续阅读 Towards Data Science »

康威的诅咒和数据空间

The Curse of Conway and the Data Space

现代趋势如何追溯到康威定律图片由作者提供。(由 Midjourney 生成,使用 Krita 润色)本文最初发布在我的博客 https://jack-vanlightly.com 上。本文由 Bernd Wessely 的文章《数据架构:经验教训》中的“警惕孤岛专业化”部分引发并反复提及。它汇集了我看到的一些趋势以及我在软件/数据团队分歧两边工作二十年的经验后得出的自己的观点。康威定律:“任何设计系统(广义)的组织都会产生一个设计,其结构是该组织通信结构的副本。” — Melvin Conway 这在全球数十万个组织中上演,在软件开发和数据分析团队之间的分歧中最为明显。这两个团队通常具有不同的

AI 代理工作流程:关于使用 LangGraph 还是 LangChain 构建的完整指南

AI Agent Workflows: A Complete Guide on Whether to Build With LangGraph or LangChain

深入研究由同一创建者开发的两个库 — LangChain 和 LangGraph:它们的关键构建块、它们如何处理核心功能,以及如何根据你的用例决定使用哪个库语言模型已经为用户如何与 AI 系统交互以及这些系统如何通过自然语言相互通信提供了可能性。当企业想要使用 Agentic AI 功能构建解决方案时,第一个技术问题通常是“我使用什么工具?”对于那些急于入门的人来说,这是第一个障碍。来源:Dalle-3在本文中,我们将探讨用于构建 Agentic AI 应用程序的两个最流行的框架 — LangChain 和 LangGraph。在本文结束时,你应该彻底了解关键构建块,了解每个框架在处理核心功能

使用 Python 进行聊天数据分析的技术

Techniques for Chat Data Analytics with Python

第一部分:通信密度分析继续阅读 Towards Data Science »

多层感知器解释:带有迷你 2D 数据集的可视化指南

Multilayer Perceptron, Explained: A Visual Guide with Mini 2D Dataset

分类算法剖析微型神经网络的数学(带视觉效果)有没有感觉神经网络无处不在?它们出现在新闻中、手机中,甚至出现在社交媒体中。但说实话 — 我们大多数人都不知道它们实际上是如何工作的。所有那些花哨的数学和像“反向传播”这样的奇怪术语?这里有一个想法:如果我们把事情变得非常简单会怎么样?让我们探索多层感知器 (MLP) — 最基本的神经网络类型 — 使用小型网络对简单的 2D 数据集进行分类,只需处理少量数据点。通过清晰的视觉效果和逐步解释,您将看到数学变得生动,确切地观察数字和方程式如何在网络中流动以及学习是如何发生的!所有视觉效果:作者使用 Canva Pro 创建。针对移动设备进行了优化;在桌面

用于调查分析的 OpenAI 嵌入和聚类——操作指南

OpenAI embeddings and clustering for survey analysis — a How-To Guide

如何从调查数据中获取见解并使用嵌入和大型语言模型提取主题继续阅读 Towards Data Science »

克劳德的计算机使用——直观而详尽的解释

Claude’s Computer Use — Intuitively and Exhaustively Explained

Anthropic 如何制作可以控制计算机的 AI继续阅读 Towards Data Science »

8 分钟内 4 年的数据科学

4 Years of Data Science in 8 Minutes

我在 4 年多的数据科学学习之旅中学到了什么继续阅读 Towards Data Science »

成功的 AI 道德与治理:弥合解释差距

Successful AI Ethics & Governance at Scale: Bridging The Interpretation Gap

概括的原则需要专门的专业人士继续阅读 Towards Data Science »

构建和部署多文件、多格式 RAG 应用程序到 Web

Build and Deploy a Multi-File, Multi-Format RAG App to the Web

第 1 部分 — 使用 Python、Gradio、GROQ 和 LlamaIndex 开发代码继续阅读 Towards Data Science »

从 AI Canvas 到 MLOps Stack Canvas:它们必不可少吗?

From AI Canvas to MLOps Stack Canvas: Are They Essential?

AI、ML 和 MLOps 堆栈画布,通过示例进行解释继续阅读 Towards Data Science »

时间序列 — 从分析过去到预测未来

Time Series — From Analyzing the Past to Predicting the Future

如何通过时间序列从过去中学习。继续阅读 Towards Data Science »

使用机器学习进行欺诈预测项目中的关键角色

Key Roles in a Fraud Prediction project with Machine Learning

机器学习欺诈预测项目中的关键角色开发欺诈预测的 ML 模型涉及哪些类型的角色?照片由 Marvin Meyer 在 Unsplash 上拍摄在行业中开发机器学习项目时,数据科学家和 ML 工程师通常是主要角色。然而,实际上,交付产品需要一个村庄的共同努力。在之前的一篇文章中,我们讨论了使用机器学习开发欺诈预测产品所涉及的步骤。在本文中,我们将探讨此类项目中的各种角色以及每个角色如何为其成功做出贡献。免责声明:并非所有项目都一定会有具有下面列出的确切头衔的团队或个人;根据公司结构,一个人可能会身兼数职并履行多个角色。在这里,我根据我使用 ML/AI 处理不同欺诈预测项目的经验概述了结构。项目经理

修复错误的梯度累积:了解问题及其解决方案

Fixing Faulty Gradient Accumulation: Understanding the Issue and Its Resolution

多年的次优模型训练?继续阅读《走向数据科学》»

ML 蜕变:链接 ML 模型以获得优化结果

ML Metamorphosis: Chaining ML Models for Optimized Results

知识提炼、模型压缩和规则提取的通用原则图 1。此图像和其他图像均由作者在 recraft.ai 的帮助下创建机器学习 (ML) 模型训练通常遵循熟悉的流程:从数据收集开始,清理和准备数据,然后进行模型拟合。但如果我们可以进一步推进这个过程会怎样?正如一些昆虫在成熟之前会经历剧烈的变化一样,ML 模型也可以以类似的方式进化(参见 Hinton 等人 [1])——我称之为 ML 蜕变。此过程涉及将不同的模型链接在一起,从而产生最终模型,该模型的质量明显优于从头开始直接训练的模型。其工作原理如下:从一些初始知识(数据 1)开始。在此数据上训练 ML 模型(模型 A,例如神经网络)。使用模型 A 生成

掌握粗略数学将使您成为更好的数据科学家

Mastering Back-of-the-Envelope Math Will Make You a Better Data Scientist

一个快速而粗略的答案往往比一个花哨的模型更有帮助作者图片(改编自 Midjourney)1945 年 7 月 16 日,在洛斯阿拉莫斯进行的第一次核弹试验中,物理学家 Enrico Fermi 扔下了一些小纸片,并观察了当冲击波到达他身边时它们移动了多远。据此,他估算出了炸弹当量的大致大小。没有花哨的设备或严格的测量;只有一些方向数据和逻辑推理。爆炸发生后大约 40 秒,空气冲击波到达了我身边。我试图通过在冲击波通过之前、期间和之后从大约六英尺高的地方扔下小纸片来估计其强度。[…] 我估计这相当于当时一千吨 T.N.T 产生的爆炸。— Enrico Fermi 考虑到这个估计是如何产生的,它竟

使用 PCA 进行异常值检测

Using PCA for Outlier Detection

一种识别数值数据中异常值的令人惊讶的有效方法PCA(主成分分析)通常用于数据科学,通常用于降维(通常用于可视化),但它实际上对于异常值检测也非常有用,我将在本文中描述它。本文延续了我的异常值检测系列,其中还包括关于 FPOF、计数异常值检测器、距离度量学习、共享最近邻和兴奋剂的文章。这还包括我书《Python 中的异常值检测》的另一段摘录。PCA 背后的想法是大多数数据集在某些列中的方差比其他列大得多,并且特征之间也存在相关性。其中一个含义是:为了表示数据,通常不需要使用尽可能多的特征;我们通常可以使用更少的特征(有时要少得多)很好地近似数据。例如,对于包含 100 个特征的数值数据表,我们可

制作完美数据科学简历的综合指南

Comprehensive Guide to Crafting a Perfect CV in Data Science

通过创建出色的简历给招聘人员留下深刻印象并获得理想的工作继续阅读 Towards Data Science »