Using PCA for Outlier Detection
一种识别数值数据中异常值的令人惊讶的有效方法PCA(主成分分析)通常用于数据科学,通常用于降维(通常用于可视化),但它实际上对于异常值检测也非常有用,我将在本文中描述它。本文延续了我的异常值检测系列,其中还包括关于 FPOF、计数异常值检测器、距离度量学习、共享最近邻和兴奋剂的文章。这还包括我书《Python 中的异常值检测》的另一段摘录。PCA 背后的想法是大多数数据集在某些列中的方差比其他列大得多,并且特征之间也存在相关性。其中一个含义是:为了表示数据,通常不需要使用尽可能多的特征;我们通常可以使用更少的特征(有时要少得多)很好地近似数据。例如,对于包含 100 个特征的数值数据表,我们可
Comprehensive Guide to Crafting a Perfect CV in Data Science
通过创建出色的简历给招聘人员留下深刻印象并获得理想的工作继续阅读 Towards Data Science »
Product-Oriented ML: A Guide for Data Scientists
如何打造用户喜爱的 ML 产品。照片由 Pavel Danilyuk 拍摄:https://www.pexels.com/photo/a-robot-holding-a-flower-8438979/数据科学提供了丰富的机会来探索新概念并展示其可行性,所有这些都是为了构建功能和产品背后的“智能”。然而,大多数机器学习 (ML) 项目都失败了!这不仅仅是因为这项工作本质上是实验性的。项目可能缺乏目的或对现实问题的基础,而将 ML 集成到产品中需要致力于长期解决问题、投资数据基础设施以及多位技术专家的参与。这篇文章是关于在规划阶段减轻这些风险,快速失败,同时发展成为面向产品的数据科学家。本文通过介
Learn to Visualize Massive Point Clouds + 3D Mesh with No-Code Tools
一个无代码教程,使用 2 个开源解决方案来管理大量点云(超过 2.5 亿个点)和 3D 网格。继续阅读 Towards Data Science »
Getting Started: How to Set up a Full-Stack App with AWS and Bedrock
我希望拥有的 AWS Bedrock 教程:为 AWS 基础设施准备机器所需了解的一切第 1 部分:节省无数小时处理零散和不完整文档的时间,并在不到一小时内准备好您的环境作者使用 Midjourney 生成的图像如何将笔记本中一个漂亮的小型机器学习原型开发成一个强大的全栈 Web 应用程序?虽然这个过程似乎令人生畏,但这个由多个部分组成的系列将帮助您一步一步解决学习曲线,指导您解决最棘手的权限问题(AWS 因该问题而臭名昭著)。在本系列结束时,您将拥有一个功能齐全的语言翻译应用程序,并建立了快速扩展自己的 GenAI 管道所需的概念知识。这是我们关于 🌊 构建由 Amazon Bedrock
Why Scaling Works: Inductive Biases vs The Bitter Lesson
通过一个玩具问题构建深刻见解来源:所有图片均由作者提供在过去十年中,我们见证了扩展深度学习模型的力量。在大量数据上训练的大型模型在语言建模、图像生成、玩游戏甚至蛋白质折叠方面的表现始终优于以前的方法。要了解扩展为何有效,让我们看一个玩具问题。介绍一个玩具问题我们从一个 1D 流形开始,它穿过 2D 平面并形成一个螺旋:现在我们添加一个热图,它表示对特定 2D 点进行采样的概率密度。值得注意的是,这个概率密度与流形的形状无关:让我们假设流形两侧的数据始终完全可分离(即没有噪音)。流形外部的数据点为蓝色,内部的数据点为橙色。如果我们抽取 N=1000 个点的样本,它可能看起来像这样:玩具问题:我们
Game Theory, Part 1 — The Prisoner’s Dilemma Problem
博弈论在现实生活场景和决策中普遍存在继续阅读 Towards Data Science »
Using Vector Steering to Improve Model Guidance
探索向量控制研究并编写实现继续阅读 Towards Data Science »
Discretization, Explained: A Visual Guide with Code Examples for Beginners
数据预处理将数字分类到箱中的 6 种有趣方法!⛳️ 更多数据预处理说明:· 缺失值插补 · 分类编码 · 数据缩放 ▶ 离散化 · 过度和欠采样(即将推出!)大多数机器学习模型都要求数据为数值——所有对象或分类数据必须首先采用数字格式。但实际上,有时分类数据会派上用场(大多数时候,它对我们人类比对机器更有用)。离散化(或分箱)就是这样做的——将数值数据转换为分类数据!根据您的目标,有多种方法可以对数据进行分类。在这里,我们将使用一个简单的数据集来展示六种不同的分箱方法。从等宽到基于聚类的方法,我们将这些数值扫入一些分类箱中!所有视觉效果:作者使用 Canva Pro 创建。针对移动设备进行了优
Unleash the Power of Probability to Predict the Future of Your Business
在现实世界中使用 Python 概率概念的实用指南继续阅读 Towards Data Science »
SQL and Data Modelling in Action: A Deep Dive into Data Lakehouses
任何从事商业智能、数据科学、数据分析或云计算的人都会在某个时候遇到 SQL。我们可以……继续阅读 Towards Data Science »
Zero-Shot Localization with CLIP-Style Encoders
我们如何才能看到视觉编码器所看到的内容?Stephan Widua 在 Unsplash 上的照片想想您最喜欢的预训练视觉编码器。我假设您选择了 CNN(卷积神经网络)或 ViT(视觉变换器)的某种变体。编码器是将图像映射到 d 维向量空间的函数。在此过程中,图像被转换为特征图序列:作者提供的图片。特征图 (w × h × k) 可以被认为是收集的 k 维补丁嵌入的 2D 数组,或者等效地,具有 k 个通道 f₁, … fₖ 的粗略图像 (w × h)。CNN 和 ViT 都以各自的方式将输入图像转换为特征图序列。当图像穿过其层时,我们如何才能看到视觉编码器所看到的内容?零样本定位方法旨在
AI Model Optimization on AWS Inferentia and Trainium
使用 AWS Neuron SDK 加速 ML 的技巧照片由 julien Tromeur 在 Unsplash 上拍摄我们正处于人工智能的黄金时代,尖端模型颠覆了行业并准备改变我们所知的生活。推动这些进步的是越来越强大的人工智能加速器,例如 NVIDIA H100 GPU、Google Cloud TPU、AWS 的 Trainium 和 Inferentia 芯片等。随着选项数量的增加,选择最适合我们的机器学习 (ML) 工作负载的平台的挑战也随之而来——考虑到与 AI 计算相关的高成本,这是一个至关重要的决定。重要的是,对每个选项进行全面评估需要确保我们最大限度地利用它以充分利用其功能。
How to Get Started on Your Data Science Career Journey
初学者在选择数据科学和 AI/ML 技能提升资源时需要考虑的六个方面照片由 Zach Graves 在 Unsplash 上拍摄简介照片由 Jonathan Kemper 在 Unsplash 上拍摄显而易见,在过去十年中,数据科学已发展成为市场上最抢手的技能之一。传统企业、科技公司、咨询公司、初创公司 — — 随便什么 — — 都在不断招聘数据科学专业人士。该领域对经验丰富的专家的需求量大,而供应相对短缺,使其成为一个非常有利可图的职业机会。要进入该领域并取得成功,您不仅需要深入了解可用的算法和软件包,还需要培养对哪些方法适用于哪些用例的直觉。此外,您还需要学习如何将现实世界的问题转化为数据
Revisiting Karpathy’s “State of Computer Vision and AI”
回顾自 2012 年博客文章“计算机视觉和人工智能的现状:我们真的、真的很遥远”以来的人工智能进展,继续阅读《走向数据科学》»
A Graph Too Far: Graph RAG Doesn’t Require Every Graph Tool
不要使用图形 DB、QL 或图形分析使事情复杂化。知识图谱中的冒险:迷失在无尽的文档中。由 Brian Godsey 使用 DALL-E 生成。当 RAG 开发人员决定尝试图形 RAG(即构建知识图谱并将其集成到他们的 RAG(检索增强生成)系统中)时,根据互联网,他们有很多选择。有很多文章、指南和操作方法介绍了使用图形 RAG 和一般图形的不同工具。因此,一些开发人员直接开始,认为他们需要集成和配置一长串图形工具和技术才能正确执行图形 RAG。当搜索如何入门时,你通常会发现一些文章建议你需要以下部分或全部内容:知识图谱——连接语义搜索无法捕获的关键术语和概念关键字和实体提取工具——用于构建知