Building a Local Face Search Engine — A Step by Step Guide
构建本地人脸搜索引擎 — 一步一步指南第 1 部分:关于人脸嵌入以及如何动态运行人脸搜索“办公室”演员的面部识别和搜索示例演示在这篇文章(第 1 部分)中,我们将介绍人脸识别和搜索的基本概念,并纯用 Python 实现一个基本的工作解决方案。在本文的最后,您将能够在自己的图像上本地动态运行任意人脸搜索。在第 2 部分中,我们将通过使用矢量数据库来优化接口和查询,扩展第 1 部分的学习。人脸匹配、嵌入和相似性指标。目标:在图像池中找到给定查询人脸的所有实例。我们可以通过基于相似性对结果进行排序来放宽标准,而不是将搜索限制为完全匹配。相似度得分越高,结果匹配的可能性就越大。然后,我们可以只选择前
Introduction to Reinforcement Learning and Solving the Multi-armed Bandit Problem
剖析 Richard S. Sutton 的“强化学习”与自定义 Python 实现,第一集继续阅读 Towards Data Science »
Cirrus: Open-source Google Cloud forensic collection
Cirrus 是一个基于 Python 的开源工具,旨在简化 Google Cloud 取证证据收集。它可以简化涉及 Google Workspace 和 GCP 的调查中的环境访问和证据收集。该工具简化了事件响应活动并增强了组织的安全态势。 主要特点 Cirrus 的主要功能包括: 聚合来自不同 Google Cloud 组件的日志和配置。 在 Gmail 中访问特定于用户的数据。自动执行访问前提条件,为证据收集做好准备。获取重要信息……更多 →Cirrus:开源 Google Cloud 取证收集文章首次出现在 Help Net Security 上。
Evolution of Data Science: New Age Skills for the Modern End-to-End Data Scientist
从 Python 脚本到数据工程、MLOps 和 GenAI继续阅读 Towards Data Science »
Summer Olympic Games Through the Lens of Data
使用 Python 和 Wikipedia 绘制获奖国家的地理和网络地图。继续阅读 Towards Data Science »
BlazeFace: How to Run Real-time Object Detection in the Browser
训练 BlazeFace 模型的分步指南,从 Python 训练管道到 JavaScript 演示,再到模型转换。自由改编自 Unsplash 上的 visuals 的照片得益于 Ultralytics 的 YOLO 等库,如今只需几行代码即可轻松创建强大的对象检测模型。不幸的是,这些解决方案的速度还不够快,无法在任何设备上以每秒 30 帧(通常被认为是视频应用程序的实时极限)的速度在 Web 浏览器中实时视频流上运行。通常,它在普通移动设备上的运行速度低于 10 fps。Web 浏览器上最著名的实时对象检测解决方案是 Google 的 MediaPipe。这是一个非常方便且用途广泛的解决方案
The Math Behind Multi-Head Attention in Transformers
深入探究 Transformer 和 LLM 中的秘密元素多头注意力。让我们探索它的数学原理,并从头开始用 Python 构建它DALL-E 生成的图像1:简介1.1:Transformer 概述Vaswani 等人在其论文“Attention is All You Need”中介绍的 Transformer 架构已经改变了深度学习,尤其是在自然语言处理 (NLP) 领域。Transformer 使用自注意力机制,使它们能够一次性处理所有输入序列。这种并行处理允许更快地计算并更好地管理数据中的长距离依赖关系。这听起来不熟悉?别担心,因为它会在本文的末尾出现。让我们首先简单看一下 Transfo
CodeAct: Your LLM Agent Acts Better when Generating Code
大型语言模型 (LLM) 代理能够执行广泛的操作,例如调用工具和控制机器人,在应对现实世界的挑战方面表现出巨大潜力。LLM 代理通常通过生成预定义格式的 JSON 或文本来提示其产生操作,这通常受到受限的操作空间(例如,预定义工具的范围)和受限的灵活性(例如,无法组合多个工具)的限制。这项工作提出使用可执行的 Python 代码将 LLM 代理的操作整合到统一的操作空间 (CodeAct) 中。集成...
How to Deliver Successful Data Science Consulting Projects
关于如何成功开展数据科学咨询项目并建立持久客户关系的关键建议图片由作者使用 DALL-E 生成引言我并不羞于这么说:数据科学咨询并不总是那么容易!它可能很残酷——尤其是在高层,当您需要创造销售以保持竞争力时。即使让客户满意是您的首要任务,但对于数据科学项目来说,做到这一点并不总是一件容易的事。回顾十多年来提供数据科学和数据工程项目的经历——其中大部分是作为顾问——我看到项目为客户带来了令人难以置信的价值,但我也看到项目跌跌撞撞,结果平庸,通常是由于计划不周、期望不一致和技术困难。很明显,成功的数据科学咨询不仅仅是成为 Python 和 R 奇才——在 Hackerrank 数据科学编程竞赛中取
Tools Every Data Scientist Should Know: A Practical Guide
发现每个数据科学家都应该知道的基本工具,以提升他们的数据科学水平,从 Python 和 R 到 SQL 和高级可视化工具。
Exploring NLP Preprocessing Techniques: Stopwords, Bag of Words, and Word Cloud
自然语言处理 (NLP) 是一个迷人的领域,它弥合了人类交流与机器理解之间的鸿沟。NLP 的基本步骤之一是文本预处理,即将原始文本数据转换为可被算法有效分析和利用的格式。在本博客中,我们将深入探讨三种基本的 NLP 预处理技术:停用词删除、词袋和词云生成。我们将探索每种技术是什么、为什么使用它以及如何使用 Python 实现它。让我们开始吧!停用词删除:过滤掉噪音什么是停用词?停用词是常见的词,它们几乎没有什么有意义的信息,通常在预处理过程中从文本数据中删除。例子包括“the”、“is”、“in”、“and”等等。删除停用词有助于将注意力集中在对文本含义有贡献的更重要的词上。为什么要删除停用词
Running Local LLMs is More Useful and Easier Than You Think
使用 Python 在本地运行 Llama3 的分步指南继续阅读 Towards Data Science »
How to Solve an Asset Storage Problem with Mathematical Programming
使用 Python 和 Gurobipy 解决二维分类问题继续阅读 Towards Data Science »
An Off-Beat Approach to Train-Test-Validation Split Your Dataset
确保小数据集分割的分布完整性使用 Microsoft Designer 生成我们都需要对总体进行抽样,以进行统计分析并获得见解。当我们这样做时,目的是确保样本的分布与总体的分布紧密匹配。为此,我们有各种方法:简单随机抽样(其中每个总体成员都有相同的被选中的机会)、分层抽样(包括将总体划分为子组并从每个子组中抽样)、聚类抽样(其中将总体划分为簇并随机选择整个簇)、系统抽样(包括选择总体的每第 n 个成员)等。每种方法都有其优势,并根据研究的特定需求和特点进行选择。在本文中,我们不会关注抽样方法本身,而是关注使用这些概念将用于机器学习方法的数据集拆分为训练-测试-验证集。这些方法适用于所有类型的表
Doping: A Technique to Test Outlier Detectors
使用精心制作的合成数据来比较和评估异常值检测器本文继续我的异常值检测系列,继“计数异常值检测器”和“频繁模式异常值因子”之后,还提供了我书“Python 中的异常值检测”的另一段摘录。在本文中,我们将研究测试和评估异常值检测器的问题,这是一个众所周知的难题,并提出一种解决方案,有时称为掺杂。使用掺杂,实际数据行(通常)被随机修改,但修改方式可以确保它们在某些方面可能是异常值,因此应该由异常值检测器检测到。然后,我们可以通过评估探测器检测掺杂记录的能力来评估探测器。在本文中,我们专门研究表格数据,但同样的想法也可以应用于其他模态,包括文本、图像、音频、网络数据等。测试和评估其他类型的模型如果您熟
How Should You Test Your Machine Learning Project? A Beginner’s Guide
使用 Pytest 和 Pytest-cov 等标准库对机器学习项目进行测试的友好介绍代码测试,图片由作者提供简介测试是软件开发的重要组成部分,但根据我的经验,它在机器学习项目中被广泛忽视。很多人都知道他们应该测试他们的代码,但很少有人知道如何做并真正做到这一点。本指南旨在向您介绍测试机器学习流程各个部分的基本知识。我们将专注于在 IMDb 数据集上对 BERT 进行文本分类微调,并使用 pytest 和 pytest-cov 等行业标准库进行测试。我强烈建议您遵循此 Github 存储库中的代码:GitHub - FrancoisPorcher/awesome-ai-tutorials:最好
Programmatic Breakthrough: AI’s Leap From Language to Logic To Solve Complex Problems
研究人员开发了一种称为自然语言嵌入式程序 (NLEP) 的技术,该技术通过生成 Python 程序来解决……