PySpark Explained: Four Ways to Create and Populate DataFrames
从 CSV 到数据库:将数据加载到 PySpark DataFrames 继续阅读 Towards Data Science »
The Machine Learning Guide for Predictive Accuracy: Interpolation and Extrapolation
评估训练数据之外的机器学习模型简介近年来,机器学习 (ML) 和深度学习 (DL) 等数据驱动方法已应用于广泛的任务,包括机器翻译和个性化定制推荐。这些技术通过分析大量数据揭示了给定训练数据集中的一些模式。但是,如果给定的数据集存在一些偏差并且不包含您想要了解或预测的数据,则可能很难从训练模型中获得正确答案。照片由 Stephen Dawson 在 Unsplash 上拍摄让我们考虑一下 ChatGPT 的情况。ChatGPT 目前的最新版本是 ChatGPT 4o,该模型使用的数据训练到 2023 年 6 月(本文撰写时)。因此,如果您询问 2024 年发生的事情,而这些事情未包含在训练数据
Forget Statistical Tests: A/B Testing Is All About Simulations
模拟如何胜过传统统计数据,因为它们更容易理解、更灵活且具有经济意义继续阅读《走向数据科学》»
Explainability, Interpretability and Observability in Machine Learning
这些术语通常用于描述模型的透明度,但它们的真正含义是什么?模型洞察。作者从 Xplainable 截屏。机器学习 (ML) 因其能够从大型数据集中生成准确的预测和可操作的洞察而越来越流行于各个行业。在全球范围内,34% 的公司已经部署了 ML,报告称客户保留率、收入增长和成本效率显著提高 (IBM,2022)。机器学习采用率的激增可以归因于更易于访问的模型,这些模型可以产生更准确的结果,在多个领域超越了传统的业务方法。然而,随着机器学习模型变得越来越复杂,但越来越依赖,对透明度的需求变得越来越重要。根据 IBM 的全球采用指数,80% 的企业认为确定其模型如何做出决策的能力是一个关键因素。这在
How Should You Test Your Machine Learning Project? A Beginner’s Guide
使用 Pytest 和 Pytest-cov 等标准库对机器学习项目进行测试的友好介绍代码测试,图片由作者提供简介测试是软件开发的重要组成部分,但根据我的经验,它在机器学习项目中被广泛忽视。很多人都知道他们应该测试他们的代码,但很少有人知道如何做并真正做到这一点。本指南旨在向您介绍测试机器学习流程各个部分的基本知识。我们将专注于在 IMDb 数据集上对 BERT 进行文本分类微调,并使用 pytest 和 pytest-cov 等行业标准库进行测试。我强烈建议您遵循此 Github 存储库中的代码:GitHub - FrancoisPorcher/awesome-ai-tutorials:最好
LLM Apps, Crucial Data Skills, Multi-AI Agent Systems, and Other July Must-Reads
LLM 应用程序、关键数据技能、多智能体 AI 系统和其他 7 月必读内容是否受到启发,想要撰写您的第一篇 TDS 帖子?我们始终欢迎新作者的投稿。如果您居住的地方已经是夏天,我们希望您能充分利用温暖的天气和(希望如此?也许?)更轻松的日常节奏。当然,学习永无止境——至少对于数据科学家而言是这样——所以如果您认为美好时光包括迎接新挑战和探索尖端工具和工作流程,那么您将大饱眼福。我们的 7 月精选由上个月在读者中引起最大轰动的文章组成,涵盖了广泛的实用主题——其中许多旨在帮助您提高自己的标准并扩展您的技能。让我们开始吧!每月精选在 Uber、Meta 和初创公司工作的 10 年教会了我什么关于数
From MOCO v1 to v3: Towards Building a Dynamic Dictionary for Self-Supervised Learning — Part 1
从 MOCO v1 到 v3:走向构建自监督学习的动态词典 - 第 1 部分对动量对比学习框架的简要回顾我们是否已经进入自监督学习时代?数据每天都在流入。人们全天候工作。工作分布在世界的每个角落。但是,仍然有如此多的数据未注释,等待新模型、新训练或新升级的可能使用。或者,它永远不会发生。当世界以监督的方式运行时,它永远不会发生。近年来,自监督学习的兴起揭示了一个新的方向。自监督学习不是为所有任务创建注释,而是将任务分解为前置/预训练(请参阅我之前关于预训练的帖子)任务和下游任务。前置任务专注于从整个数据集中提取代表性特征,而无需任何基本事实注释的指导。尽管如此,此任务仍需要从数据集自动生成标签
A Powerful EDA Tool: Group-By Aggregation
照片由 Mourizal Zativa 在 Unsplash 上拍摄了解如何使用分组聚合从数据中发现见解探索性数据分析 (EDA) 是数据分析师的核心能力。每天,数据分析师的任务都是发现“看不见的”东西,或者从浩瀚的数据中提取有用的见解。在这方面,我想分享一种我认为有助于从数据中提取相关见解的技术:分组聚合。为此,本文的其余部分将安排如下:Pandas 中分组聚合的解释数据集:大都会州际交通大都会交通 EDA分组聚合分组聚合是一种数据处理技术,包含两个步骤。首先,我们根据特定列的值对数据进行分组。其次,我们在分组数据上执行一些聚合操作(例如,求和、平均值、中位数、唯一计数)。当我们的数据很细粒
Framework for Success Metrics Questions | Facebook Groups Success Metrics
可帮助您完美回答成功指标问题并脱颖而出的框架照片由 Dima Solomin 在 Unsplash 上拍摄当我准备参加产品数据科学家面试时,我在网上搜索有关处理“成功指标”面试问题的提示和框架。尽管找到了一些零碎的信息,但仍缺少完整的端到端指南。这就是为什么我很高兴与大家分享我在准备过程中精心设计的终极框架,这让我获得了 Meta 的录用通知!深入研究,希望它也能为您服务!框架 — 假设您是 Facebook 群组 DS 团队的一员,您将如何定义成功指标?澄清问题 — 始终从问澄清问题开始。确保您充实问题中的每个字,最重要的是,充实产品范围。如果您不问任何问题,那绝对是一个危险信号,所以请问!
The Most Undervalued Skill for Data Scientists
为什么写作对于技术角色至关重要,以及如何擅长写作继续阅读 Towards Data Science »
Using OpenAI and PandasAI for Series Operations
将自然语言查询和操作纳入 Python 数据清理工作流程。艺术家 Karen Walker 捐赠的红熊猫画作。我们在熊猫数据清理项目中需要执行的许多系列操作都可以由 AI 工具(包括 PandasAI)协助完成。PandasAI 利用大型语言模型(例如来自 OpenAI 的模型)来启用对数据列的自然语言查询和操作。在这篇文章中,我们将研究如何使用 PandasAI 查询系列值、创建新系列、有条件地设置系列值以及重塑数据。您可以通过在终端或 Windows Powershell 中输入 pip install pandasai 来安装 PandasAI。您还需要从 openai.com 获取令牌
OMOP & DataSHIELD: A perfect match to elevate privacy-enhancing healthcare analytics?
OMOP 和 DataSHIELD:提升隐私增强型医疗分析的完美搭配?探索 DataSHIELD 和 OHDSI/OMOP 之间的协同作用,以实现协作医疗分析背景跨境或多站点数据共享可能具有挑战性,因为法规和法律存在差异,并且对数据隐私、安全和所有权存在担忧。然而,对开展大规模跨国和多站点临床研究的需求日益增长,以便为更好的医疗保健提供更可靠、更及时的证据。为了解决这个问题,罗氏的联邦开放科学团队认为联邦分析(隐私增强型分散统计分析)是一种有前途的解决方案,可以促进更多的多站点和数据驱动的协作。高质量(精选)患者级数据的可用性和可访问性仍然是进步的持续瓶颈。联合模型是医疗领域协作分析和机器学习
AutoML with AutoGluon: Transform Your ML Workflow with Just Four Lines of Code
AutoML 与 AutoGluon:仅用四行代码实现的 ML 工作流AutoGluon 如何主导 Kaggle 竞赛以及您如何击败它。用四行代码击败 99% 数据科学家的算法。由 DALL-E 生成的图像在两项热门的 Kaggle 竞赛中,AutoGluon 仅在对原始数据进行 4 小时的训练后就击败了 99% 的参赛数据科学家(AutoGluon 团队。“AutoGluon:用于文本、图像和表格数据的 AutoML。” 2020)这句话摘自 AutoGluon 研究论文,完美地概括了我们今天将要探索的内容:一个以最少的编码提供令人印象深刻的性能的机器学习框架。您只需要四行代码即可设置完整的
A Comprehensive Guide to Collaborative AI Agents in Practice
定义,并组建一支代理团队来完善您的简历和求职信以用于工作申请继续阅读 Towards Data Science »
How to challenge your own analysis so others won’t
掌握健全性检查的艺术,以提高您的工作质量作者图片您是否曾经创建过分析,却被经理驳斥?或者您是否曾在演示过程中遇到一个问题,让您想“我为什么不事先检查一下?”有时,您可能会觉得经理和高管有一种不可思议的能力,可以找到您工作中的一个弱点。他们是如何如此迅速地发现问题的,尤其是当他们第一次看到你的工作时?任何人都可以学到一种看似超能力的东西,这篇文章将向你展示如何做到这一点。通过定期对你的工作进行“健全性检查”,你可以主动识别薄弱环节,并确保结果在与更广泛的受众分享之前是合理的。我将介绍:什么是健全性检查以及它们为何重要健全性检查与大多数人检查其工作的方式有何不同如何进行健全性检查如何使用健全性检查
Not All HNSW Indices Are Made Equaly
并非所有 HNSW 索引都一样克服主要的 HNSW 挑战以提高 AI 生产工作负载的效率照片由 Talha Riaz 在 Pexels 上拍摄分层可导航小世界 (HNSW) 算法以其在大规模数据搜索中的效率和准确性而闻名,使其成为搜索任务和 AI/LLM 应用程序(如 RAG)的热门选择。但是,设置和维护 HNSW 索引本身也存在一系列挑战。让我们来探索这些挑战,提供一些克服它们的方法,甚至看看我们如何通过解决其中一个问题来一石二鸟。内存消耗由于其嵌入的分层结构,HNSW 的主要挑战之一是其高内存使用率。但很少有人意识到内存问题超出了存储初始索引所需的内存。这是因为,随着 HNSW 索引的修改
风险背后的数学 — 第 2 部分在世界征服游戏中,进攻方真的有优势吗?在第 1 部分中,我们讨论了世界征服游戏 Risk 中进攻方和防守方的相对机会。在第 1 部分的结尾,我们得出结论,进攻方赢得第一名士兵战斗的几率为 47.15%,我们想知道著名的征服者是如何在这些条件下取得成就的。我们将第二名士兵的讨论留到第 2 部分。照片由 Terry Vlisidis 在 Unsplash 上拍摄为了唤醒我们的记忆,在 Risk 中,进攻方最多掷 3 个骰子,而防守方最多掷 2 个骰子。比较两者的最高掷骰结果,失败者失去一名士兵,如果平局,防守方获胜。接下来,比较两者的第二高掷骰结果,再次,失败者失去
Eco-Friendly AI: How to Reduce the Carbon and Water Footprints of Your ML Models
模型训练和服务的可持续实践继续阅读 Towards Data Science »