走向数据科学领域信息情报检索---XiaoMi-AI

2024年7月6日 01:32

聚类失败的原因

Why Clustering Fails

以及如何修复它继续阅读 Towards Data Science »

2024年7月6日 01:04

简化 AI 训练：基本数学解释

AI Training Simplified: The Essential Mathematics Explained

作者提供的图片人工智能训练中使用的数学逻辑的图解概述了解事物的工作原理总是有益的。在本文中，我将对训练人工智能模型中使用的基本数学逻辑进行非常简单的概述。我保证，如果您受过基础教育，以下示例将是可以理解的，并且您将对人工智能领域有更好的了解。创建用于销售预测的人工智能假设我们想要创建一个新的人工智能模型来预测公司的销售收入。我们有过去两个月的销售收入、广告费用和产品价格的数据。作者提供的图片换句话说，我们想要创建一个模型，告诉我们我们的销售收入如何取决于我们产品的价格和广告费用。例如，使用这样的工具，营销专家可以计算如果他们在广告上花费 50 欧元并将产品价格设定为 6 欧元，预期的销售收入。

2024年7月5日 13:02

您是否因成为艺术家而受苦？您可能有权获得补偿

Do you suffer from being an artist? You may be entitled to compensation

深入探讨人工智能、版权和“合理使用”的真正含义等当代问题。继续阅读 Towards Data Science »

2024年7月5日 07:32

LLM 对齐：基于奖励的方法与无奖励的方法

LLM Alignment: Reward-Based vs Reward-Free Methods

LLM 对齐的优化方法上下文语言模型已经展示了根据用户提供的提示生成各种引人注目的文本的非凡能力。然而，定义什么是“好”文本具有挑战性，因为它通常取决于个人偏好和具体背景。例如，在讲故事时，创造力是关键；在制作信息内容时，准确性和可靠性至关重要；而在生成代码时，确保它正确运行至关重要。因此出现了“LLM 对齐问题”，它指的是确保大型语言模型 (LLM) 的行为方式符合人类价值观、意图和偏好的挑战。设计一个损失函数来捕捉我们在文本中重视的各种品质——比如创造力、准确性或可执行性——是非常复杂且通常不切实际的。像这样的概念是不可区分的，因此不能反向传播，也不能用简单的下一个标记生成来训练。想象一下

2024年7月5日 06:07

通过潜在变量镜头进行主成分分析 (PCA)

Principal Components Analysis (PCA) Through a Latent Variable Lens

概述 PPCA（经典 PCA 的扩展）及其通过 EM 算法应用于不完整数据照片由 Dhruv Weaver 在 Unsplash 上拍摄。随着 EM 算法的 E 和 M 步骤重复，该算法收敛到局部最大似然估计量。概率主成分分析 (PPCA) 是一种降维技术，利用潜在变量框架恢复数据中最大方差的方向。当噪声遵循各向同性高斯分布时，概率主成分将与经典主成分紧密相关，在缩放因子和正交旋转方面相同。因此，PPCA 可用于许多与经典 PCA 相同的应用，例如数据可视化和特征提取。PPCA 背后的潜在变量框架还提供了经典 PCA 所不具备的功能。例如，PPCA 可以轻松扩展以适应具有缺失值的数据，而经典

2024年7月4日 20:43

GenAI 时代的时间序列预测：让梯度提升表现得像 LLM

Time Series Forecasting in the Age of GenAI: Make Gradient Boosting Behaves like LLMs

使用标准机器学习模型应用零样本预测继续阅读 Towards Data Science »

2024年7月4日 20:38

以 AI 方式处理认知失调

Dealing with Cognitive Dissonance, the AI Way

语言模型如何处理其提示中的冲突指令？继续阅读 Towards Data Science »

2024年7月4日 20:34

PySpark 解释：创建和填充数据帧的四种方法

PySpark Explained: Four Ways to Create and Populate DataFrames

从 CSV 到数据库：将数据加载到 PySpark DataFrames 继续阅读 Towards Data Science »

2024年7月4日 20:31

机器学习预测准确性指南：插值和外推

The Machine Learning Guide for Predictive Accuracy: Interpolation and Extrapolation

评估训练数据之外的机器学习模型简介近年来，机器学习 (ML) 和深度学习 (DL) 等数据驱动方法已应用于广泛的任务，包括机器翻译和个性化定制推荐。这些技术通过分析大量数据揭示了给定训练数据集中的一些模式。但是，如果给定的数据集存在一些偏差并且不包含您想要了解或预测的数据，则可能很难从训练模型中获得正确答案。照片由 Stephen Dawson 在 Unsplash 上拍摄让我们考虑一下 ChatGPT 的情况。ChatGPT 目前的最新版本是 ChatGPT 4o，该模型使用的数据训练到 2023 年 6 月（本文撰写时）。因此，如果您询问 2024 年发生的事情，而这些事情未包含在训练数据

2024年7月4日 17:58

忘记统计测试：A/B 测试就是模拟

Forget Statistical Tests: A/B Testing Is All About Simulations

模拟如何胜过传统统计数据，因为它们更容易理解、更灵活且具有经济意义继续阅读《走向数据科学》»

2024年7月4日 17:06

机器学习中的可解释性、可解释性和可观察性

Explainability, Interpretability and Observability in Machine Learning

这些术语通常用于描述模型的透明度，但它们的真正含义是什么？模型洞察。作者从 Xplainable 截屏。机器学习 (ML) 因其能够从大型数据集中生成准确的预测和可操作的洞察而越来越流行于各个行业。在全球范围内，34% 的公司已经部署了 ML，报告称客户保留率、收入增长和成本效率显著提高 (IBM，2022)。机器学习采用率的激增可以归因于更易于访问的模型，这些模型可以产生更准确的结果，在多个领域超越了传统的业务方法。然而，随着机器学习模型变得越来越复杂，但越来越依赖，对透明度的需求变得越来越重要。根据 IBM 的全球采用指数，80% 的企业认为确定其模型如何做出决策的能力是一个关键因素。这在

2024年7月4日 17:02

您应该如何测试您的机器学习项目？初学者指南

How Should You Test Your Machine Learning Project? A Beginner’s Guide

使用 Pytest 和 Pytest-cov 等标准库对机器学习项目进行测试的友好介绍代码测试，图片由作者提供简介测试是软件开发的重要组成部分，但根据我的经验，它在机器学习项目中被广泛忽视。很多人都知道他们应该测试他们的代码，但很少有人知道如何做并真正做到这一点。本指南旨在向您介绍测试机器学习流程各个部分的基本知识。我们将专注于在 IMDb 数据集上对 BERT 进行文本分类微调，并使用 pytest 和 pytest-cov 等行业标准库进行测试。我强烈建议您遵循此 Github 存储库中的代码：GitHub - FrancoisPorcher/awesome-ai-tutorials：最好

2024年7月4日 13:32

LLM 应用程序、关键数据技能、多 AI 代理系统和其他 7 月必读内容

LLM Apps, Crucial Data Skills, Multi-AI Agent Systems, and Other July Must-Reads

LLM 应用程序、关键数据技能、多智能体 AI 系统和其他 7 月必读内容是否受到启发，想要撰写您的第一篇 TDS 帖子？我们始终欢迎新作者的投稿。如果您居住的地方已经是夏天，我们希望您能充分利用温暖的天气和（希望如此？也许？）更轻松的日常节奏。当然，学习永无止境——至少对于数据科学家而言是这样——所以如果您认为美好时光包括迎接新挑战和探索尖端工具和工作流程，那么您将大饱眼福。我们的 7 月精选由上个月在读者中引起最大轰动的文章组成，涵盖了广泛的实用主题——其中许多旨在帮助您提高自己的标准并扩展您的技能。让我们开始吧！每月精选在 Uber、Meta 和初创公司工作的 10 年教会了我什么关于数

2024年7月4日 07:21

从 MOCO v1 到 v3：构建自监督学习的动态词典——第 1 部分

From MOCO v1 to v3: Towards Building a Dynamic Dictionary for Self-Supervised Learning — Part 1

从 MOCO v1 到 v3：走向构建自监督学习的动态词典 - 第 1 部分对动量对比学习框架的简要回顾我们是否已经进入自监督学习时代？数据每天都在流入。人们全天候工作。工作分布在世界的每个角落。但是，仍然有如此多的数据未注释，等待新模型、新训练或新升级的可能使用。或者，它永远不会发生。当世界以监督的方式运行时，它永远不会发生。近年来，自监督学习的兴起揭示了一个新的方向。自监督学习不是为所有任务创建注释，而是将任务分解为前置/预训练（请参阅我之前关于预训练的帖子）任务和下游任务。前置任务专注于从整个数据集中提取代表性特征，而无需任何基本事实注释的指导。尽管如此，此任务仍需要从数据集自动生成标签

2024年7月4日 06:22

强大的 EDA 工具：分组聚合

A Powerful EDA Tool: Group-By Aggregation

照片由 Mourizal Zativa 在 Unsplash 上拍摄了解如何使用分组聚合从数据中发现见解探索性数据分析 (EDA) 是数据分析师的核心能力。每天，数据分析师的任务都是发现“看不见的”东西，或者从浩瀚的数据中提取有用的见解。在这方面，我想分享一种我认为有助于从数据中提取相关见解的技术：分组聚合。为此，本文的其余部分将安排如下：Pandas 中分组聚合的解释数据集：大都会州际交通大都会交通 EDA分组聚合分组聚合是一种数据处理技术，包含两个步骤。首先，我们根据特定列的值对数据进行分组。其次，我们在分组数据上执行一些聚合操作（例如，求和、平均值、中位数、唯一计数）。当我们的数据很细粒

2024年7月3日 19:22

成功指标问题框架 | Facebook 群组成功指标

Framework for Success Metrics Questions | Facebook Groups Success Metrics

可帮助您完美回答成功指标问题并脱颖而出的框架照片由 Dima Solomin 在 Unsplash 上拍摄当我准备参加产品数据科学家面试时，我在网上搜索有关处理“成功指标”面试问题的提示和框架。尽管找到了一些零碎的信息，但仍缺少完整的端到端指南。这就是为什么我很高兴与大家分享我在准备过程中精心设计的终极框架，这让我获得了 Meta 的录用通知！深入研究，希望它也能为您服务！框架 — 假设您是 Facebook 群组 DS 团队的一员，您将如何定义成功指标？澄清问题 — 始终从问澄清问题开始。确保您充实问题中的每个字，最重要的是，充实产品范围。如果您不问任何问题，那绝对是一个危险信号，所以请问！

2024年7月3日 19:19

数据科学家最被低估的技能

The Most Undervalued Skill for Data Scientists

为什么写作对于技术角色至关重要，以及如何擅长写作继续阅读 Towards Data Science »

2024年7月3日 19:03

使用 OpenAI 和 PandasAI 进行系列操作

Using OpenAI and PandasAI for Series Operations

将自然语言查询和操作纳入 Python 数据清理工作流程。艺术家 Karen Walker 捐赠的红熊猫画作。我们在熊猫数据清理项目中需要执行的许多系列操作都可以由 AI 工具（包括 PandasAI）协助完成。PandasAI 利用大型语言模型（例如来自 OpenAI 的模型）来启用对数据列的自然语言查询和操作。在这篇文章中，我们将研究如何使用 PandasAI 查询系列值、创建新系列、有条件地设置系列值以及重塑数据。您可以通过在终端或 Windows Powershell 中输入 pip install pandasai 来安装 PandasAI。您还需要从 openai.com 获取令牌