走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

使用机器学习进行欺诈预测项目中的关键角色

Key Roles in a Fraud Prediction project with Machine Learning

机器学习欺诈预测项目中的关键角色开发欺诈预测的 ML 模型涉及哪些类型的角色?照片由 Marvin Meyer 在 Unsplash 上拍摄在行业中开发机器学习项目时,数据科学家和 ML 工程师通常是主要角色。然而,实际上,交付产品需要一个村庄的共同努力。在之前的一篇文章中,我们讨论了使用机器学习开发欺诈预测产品所涉及的步骤。在本文中,我们将探讨此类项目中的各种角色以及每个角色如何为其成功做出贡献。免责声明:并非所有项目都一定会有具有下面列出的确切头衔的团队或个人;根据公司结构,一个人可能会身兼数职并履行多个角色。在这里,我根据我使用 ML/AI 处理不同欺诈预测项目的经验概述了结构。项目经理

修复错误的梯度累积:了解问题及其解决方案

Fixing Faulty Gradient Accumulation: Understanding the Issue and Its Resolution

多年的次优模型训练?继续阅读《走向数据科学》»

ML 蜕变:链接 ML 模型以获得优化结果

ML Metamorphosis: Chaining ML Models for Optimized Results

知识提炼、模型压缩和规则提取的通用原则图 1。此图像和其他图像均由作者在 recraft.ai 的帮助下创建机器学习 (ML) 模型训练通常遵循熟悉的流程:从数据收集开始,清理和准备数据,然后进行模型拟合。但如果我们可以进一步推进这个过程会怎样?正如一些昆虫在成熟之前会经历剧烈的变化一样,ML 模型也可以以类似的方式进化(参见 Hinton 等人 [1])——我称之为 ML 蜕变。此过程涉及将不同的模型链接在一起,从而产生最终模型,该模型的质量明显优于从头开始直接训练的模型。其工作原理如下:从一些初始知识(数据 1)开始。在此数据上训练 ML 模型(模型 A,例如神经网络)。使用模型 A 生成

掌握粗略数学将使您成为更好的数据科学家

Mastering Back-of-the-Envelope Math Will Make You a Better Data Scientist

一个快速而粗略的答案往往比一个花哨的模型更有帮助作者图片(改编自 Midjourney)1945 年 7 月 16 日,在洛斯阿拉莫斯进行的第一次核弹试验中,物理学家 Enrico Fermi 扔下了一些小纸片,并观察了当冲击波到达他身边时它们移动了多远。据此,他估算出了炸弹当量的大致大小。没有花哨的设备或严格的测量;只有一些方向数据和逻辑推理。爆炸发生后大约 40 秒,空气冲击波到达了我身边。我试图通过在冲击波通过之前、期间和之后从大约六英尺高的地方扔下小纸片来估计其强度。[…] 我估计这相当于当时一千吨 T.N.T 产生的爆炸。— Enrico Fermi 考虑到这个估计是如何产生的,它竟

使用 PCA 进行异常值检测

Using PCA for Outlier Detection

一种识别数值数据中异常值的令人惊讶的有效方法PCA(主成分分析)通常用于数据科学,通常用于降维(通常用于可视化),但它实际上对于异常值检测也非常有用,我将在本文中描述它。本文延续了我的异常值检测系列,其中还包括关于 FPOF、计数异常值检测器、距离度量学习、共享最近邻和兴奋剂的文章。这还包括我书《Python 中的异常值检测》的另一段摘录。PCA 背后的想法是大多数数据集在某些列中的方差比其他列大得多,并且特征之间也存在相关性。其中一个含义是:为了表示数据,通常不需要使用尽可能多的特征;我们通常可以使用更少的特征(有时要少得多)很好地近似数据。例如,对于包含 100 个特征的数值数据表,我们可

制作完美数据科学简历的综合指南

Comprehensive Guide to Crafting a Perfect CV in Data Science

通过创建出色的简历给招聘人员留下深刻印象并获得理想的工作继续阅读 Towards Data Science »

面向产品的 ML:数据科学家指南

Product-Oriented ML: A Guide for Data Scientists

如何打造用户喜爱的 ML 产品。照片由 Pavel Danilyuk 拍摄:https://www.pexels.com/photo/a-robot-holding-a-flower-8438979/数据科学提供了丰富的机会来探索新概念并展示其可行性,所有这些都是为了构建功能和产品背后的“智能”。然而,大多数机器学习 (ML) 项目都失败了!这不仅仅是因为这项工作本质上是实验性的。项目可能缺乏目的或对现实问题的基础,而将 ML 集成到产品中需要致力于长期解决问题、投资数据基础设施以及多位技术专家的参与。这篇文章是关于在规划阶段减轻这些风险,快速失败,同时发展成为面向产品的数据科学家。本文通过介

学习使用无代码工具可视化大量点云 + 3D 网格

Learn to Visualize Massive Point Clouds + 3D Mesh with No-Code Tools

一个无代码教程,使用 2 个开源解决方案来管理大量点云(超过 2.5 亿个点)和 3D 网格。继续阅读 Towards Data Science »

入门:如何使用 AWS 和 Bedrock 设置全栈应用程序

Getting Started: How to Set up a Full-Stack App with AWS and Bedrock

我希望拥有的 AWS Bedrock 教程:为 AWS 基础设施准备机器所需了解的一切第 1 部分:节省无数小时处理零散和不完整文档的时间,并在不到一小时内准备好您的环境作者使用 Midjourney 生成的图像如何将笔记本中一个漂亮的小型机器学习原型开发成一个强大的全栈 Web 应用程序?虽然这个过程似乎令人生畏,但这个由多个部分组成的系列将帮助您一步一步解决学习曲线,指导您解决最棘手的权限问题(AWS 因该问题而臭名昭著)。在本系列结束时,您将拥有一个功能齐全的语言翻译应用程序,并建立了快速扩展自己的 GenAI 管道所需的概念知识。这是我们关于 🌊 构建由 Amazon Bedrock

克拉美-拉奥界限

The Cramér–Rao Bound

你不可能总是得到你想要的继续阅读 Towards Data Science »

为何扩展有效:归纳偏差与惨痛教训

Why Scaling Works: Inductive Biases vs The Bitter Lesson

通过一个玩具问题构建深刻见解来源:所有图片均由作者提供在过去十年中,我们见证了扩展深度学习模型的力量。在大量数据上训练的大型模型在语言建模、图像生成、玩游戏甚至蛋白质折叠方面的表现始终优于以前的方法。要了解扩展为何有效,让我们看一个玩具问题。介绍一个玩具问题我们从一个 1D 流形开始,它穿过 2D 平面并形成一个螺旋:现在我们添加一个热图,它表示对特定 2D 点进行采样的概率密度。值得注意的是,这个概率密度与流形的形状无关:让我们假设流形两侧的数据始终完全可分离(即没有噪音)。流形外部的数据点为蓝色,内部的数据点为橙色。如果我们抽取 N=1000 个点的样本,它可能看起来像这样:玩具问题:我们

博弈论,第 1 部分 — 囚徒困境问题

Game Theory, Part 1 — The Prisoner’s Dilemma Problem

博弈论在现实生活场景和决策中普遍存在继续阅读 Towards Data Science »

使用向量引导来改进模型引导

Using Vector Steering to Improve Model Guidance

探索向量控制研究并编写实现继续阅读 Towards Data Science »

离散化解释:初学者的带有代码示例的可视化指南

Discretization, Explained: A Visual Guide with Code Examples for Beginners

数据预处理将数字分类到箱中的 6 种有趣方法!⛳️ 更多数据预处理说明:· 缺失值插补 · 分类编码 · 数据缩放 ▶ 离散化 · 过度和欠采样(即将推出!)大多数机器学习模型都要求数据为数值——所有对象或分类数据必须首先采用数字格式。但实际上,有时分类数据会派上用场(大多数时候,它对我们人类比对机器更有用)。离散化(或分箱)就是这样做的——将数值数据转换为分类数据!根据您的目标,有多种方法可以对数据进行分类。在这里,我们将使用一个简单的数据集来展示六种不同的分箱方法。从等宽到基于聚类的方法,我们将这些数值扫入一些分类箱中!所有视觉效果:作者使用 Canva Pro 创建。针对移动设备进行了优

释放概率的力量来预测您的业务未来

Unleash the Power of Probability to Predict the Future of Your Business

在现实世界中使用 Python 概率概念的实用指南继续阅读 Towards Data Science »

SQL 和数据建模实际应用:深入了解 Data Lakehouse

SQL and Data Modelling in Action: A Deep Dive into Data Lakehouses

任何从事商业智能、数据科学、数据分析或云计算的人都会在某个时候遇到 SQL。我们可以……继续阅读 Towards Data Science »

使用 CLIP 样式编码器进行零样本定位

Zero-Shot Localization with CLIP-Style Encoders

我们如何才能看到视觉编码器所看到的内容?Stephan Widua 在 Unsplash 上的照片想想您最喜欢的预训练视觉编码器。我假设您选择了 CNN(卷积神经网络)或 ViT(视觉变换器)的某种变体。编码器是将图像映射到 d 维向量空间的函数。在此过程中,图像被转换为​​特征图序列:作者提供的图片。特征图 (w × h × k) 可以被认为是收集的 k 维补丁嵌入的 2D 数组,或者等效地,具有 k 个通道 f₁, … fₖ 的粗略图像 (w × h)。CNN 和 ViT 都以各自的方式将输入图像转换为特征图序列。当图像穿过其层时,我们如何才能看到视觉编码器所看到的内容?零样本定位方法旨在

AWS Inferentia 和 Trainium 上的 AI 模型优化

AI Model Optimization on AWS Inferentia and Trainium

使用 AWS Neuron SDK 加速 ML 的技巧照片由 julien Tromeur 在 Unsplash 上拍摄我们正处于人工智能的黄金时代,尖端模型颠覆了行业并准备改变我们所知的生活。推动这些进步的是越来越强大的人工智能加速器,例如 NVIDIA H100 GPU、Google Cloud TPU、AWS 的 Trainium 和 Inferentia 芯片等。随着选项数量的增加,选择最适合我们的机器学习 (ML) 工作负载的平台的挑战也随之而来——考虑到与 AI 计算相关的高成本,这是一个至关重要的决定。重要的是,对每个选项进行全面评估需要确保我们最大限度地利用它以充分利用其功能。