走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

数据管理实践以最大限度地减少医疗 AI 中的偏见

Data Curation Practices to Minimize Bias in Medical AI

确保医疗 AI 应用的医疗保健结果公平公正 AI 训练数据中的潜在偏见来源。图片由作者创建。AI 偏见是指由于训练数据中的偏见,AI 系统对不同群体产生不平等结果时的歧视。如果不加以缓解,AI 和机器学习模型中的偏见会通过在决策算法中嵌入歧视,使历史上被边缘化的群体所面临的歧视系统化和加剧。训练数据中的问题,例如不具代表性或不平衡的数据集、数据中嵌入的历史偏见以及有缺陷的数据收集方法,会导致模型出现偏差。例如,如果贷款决策应用程序是根据历史决策进行训练的,但黑人贷款申请人在这些历史决策中受到系统性的歧视,那么该模型将在其决策中嵌入这种歧视模式。偏见也可能是在特征选择和工程阶段引入的,其中某些属

如何在行业中成为一名成功的机器学习工程师

How to Succeed as a Machine Learning Engineer in the Industry

5 条帮助我在 BigTech 不断超越期望的提示您是否想过要成为一名成功的机器学习工程师需要什么?您是否很难确定自己在这个充满活力的领域中的角色?我也有过这样的经历!嗨!我是 Kartik Singhal,Meta 的高级机器学习工程师。凭借在该领域的六年经验,我仍然发现自己每天都在学习。今天,我将分享五条秘诀,这些秘诀帮助我在 BigTech 担任高级机器学习工程师期间获得了“超出预期”的评级。💻 构建基础图片作者,来自 ChatGPT 4o 您需要很好地理解机器学习基础知识,并意识到其在实际应用中的局限性。了解核心概念:掌握监督学习与无监督学习、分类与回归的基础知识,以及深度学习的基础知

使用金融行业的机器学习进行欺诈预测:数据科学家的经验

Fraud Prediction with Machine Learning in the Financial Industry: A Data Scientist’s Experience

一位一线数据科学家的见解和经验照片由 Growtika 在 Unsplash 上拍摄 各位数据爱好者们,大家好!我想通过几篇文章与大家分享我 3 年开发机器学习模型来预测金融行业欺诈行为的经验。因此,如果您在欺诈检测项目中扮演项目经理、数据科学家、ML 工程师、数据工程师、Mlops 工程师、欺诈分析师或产品经理的任何角色,您可能会发现这篇文章很有帮助。在本系列的第一篇文章中,我想讨论以下几点:要解决的业务问题是什么项目的高级步骤业务问题每天,全球有数百万人使用汇款服务。这些服务帮助我们向亲人汇款,并使购物变得更容易。但欺诈者利用这些系统诱骗他人向他们汇款或接管他们的账户进行欺诈。这会伤害受害

评判 LLM Judge:用于持续改进 LLM 评估的双层评估框架

Judge an LLM Judge: A Dual-Layer Evaluation Framework for Continuous Improvement of LLM Evaluation

“评判 LLM 评委”:用于持续改进 LLM 申请评估的双层评估框架“LLM 评委对 LLM 应用程序的评估”是否可以由另一位 LLM 评委审核,以持续改进评估过程?采用无参考方法的 LLM 应用程序评估持续改进框架 - 图片来自作者TLDR本文解释了雇用 LLM 评委评估另一位 LLM 评委的概念和低抽象实现。目的是改进 LLM 申请的评估流程,减少 LLM 评委未能做出公正评估的情况。目录介绍研究问题实验设计实施实验结果结论👉 简介❇️ 在构建 LLM 应用程序领域,如何确保一致且可靠的性能是讨论最多的主题之一。由于其不确定性,LLM 模型会在输出中产生很大的变化。因此,严格要求对 LLM

探索基础时间序列模型的最新进展

Exploring the Latest Advances in Foundation Time-series Models

快速准确地预测新数据 - 无需训练继续阅读 Towards Data Science »

搜索评估的实用框架

A Practical Framework for Search Evaluation

通过搜索提升用户体验和业务绩效的数据驱动方法搜索评估 — 图片来自inspiring.team搜索功能强调了当今几乎每种数字资产的用户体验。无论是电子商务平台、内容丰富的网站还是内部知识库,搜索结果的质量都会决定用户的满意与否。但您如何真正知道您的搜索算法是否返回了相关结果?您如何确定它是否满足了用户需求并推动了业务目标?虽然这是一个非常重要的子应用程序,但我们实际上缺乏一种结构化的方法来评估搜索算法。这就是这个搜索算法评估框架所提供的。通过制定系统化的搜索质量评估程序,企业将能够获得有关其算法执行情况的有意义的见解,了解应在哪些方面努力推动改进,并学会衡量一段时间内的进展。在这篇文章中,我们

探索合适的选择:为您的数据库选择主键

Exploring the Right Fit: Choosing Primary Keys for Your Database

在现实场景中导航关键选择权衡的实用示例继续阅读 Towards Data Science »

使用 LLM 可视化和集成复杂想法,第 1 部分:Napkin AI

Visualizing and Integrating Complex Ideas with LLMs, Part 1: Napkin AI

了解 AI 工具如何将复杂的概念转化为清晰、实用的框架和图表图片由作者提供,使用 Napkin AI 制作简介Chat GPT 等 AI 工具正在改变我们处理复杂想法的方式。我喜欢使用 Chat GPT 做的事情之一是整合不同思想家的观点和想法,并区分它们以更好地理解它们的细微差别。这无疑是我最喜欢的 AI 应用之一。图片由作者提供,使用 Napkin AI 制作动机Napkin AI 引起了我的注意,因为它可以根据文本输入自动生成有趣的图表,使其高度灵活且易于使用。我一直在寻找好的概念图和知识图软件,这似乎是一个不错的起点。图片由作者提供,使用 Napkin AI 制作目标这篇文章是系列文章

大型语言模型的 MOE 和 MOA

MOE & MOA for Large Language Models

向专家小组寻求建议图片由作者提供(AI 生成 leonardo.ai)大型语言模型 (LLM) 无疑席卷了科技行业。它们的迅速崛起得益于来自维基百科、网页、书籍、大量研究论文以及我们喜爱的社交媒体平台的用户内容的大量数据。数据和计算密集型模型一直在狂热地整合来自音频和视频库的多模态数据,并且数月来一直在使用数万个 Nvidia GPU 来训练最先进的 (SOTA) 模型。所有这些都让我们怀疑这种指数级增长是否能持续下去。这些 LLM 面临的挑战很多,但让我们在这里探讨一些。成本和可扩展性:较大的模型可能需要花费数千万美元来训练和服务,成为日常应用程序采用的障碍。 (参见 GPT-4 的训练成本

在您的公司中推广 (AI) 创新

Pitching (AI) Innovation in Your Company

在当前工作中开启 AI 之旅的关键步骤图片来自 KindelMedia,在 Pexels 我多次听说数据科学家因公司内部缺乏酷炫项目而感到沮丧。说服业务利益相关者和管理层启动 AI 项目可能具有挑战性。虽然数据科学家通常没有责任去思考和提出需要优先考虑的项目,但我已经看到数据科学家与数据经理和产品经理一起如何影响路线图并帮助引入更具创新性和影响力的项目。在这篇博文中,我将分享一些我见过的成功影响团队或公司文化的步骤和策略,以引入更具创新性的 ML 或基于 AI 的项目。请注意,这不是一天发生的事情,而是一段旅程,在此期间,您的知识和动力可以帮助公司中的其他人跳出思维定势,看到 ML 和 AI

PyTorch Tabular:评论

PyTorch Tabular: A Review

快速启动和运行的概述,避免混淆照片由 Pao Dayag 在 Unsplash 上拍摄我们时不时都会考虑是否要尝试新的工具或尝试一个包,而这其中存在一些风险。如果该工具无法满足我的需求,或者需要几天时间才能运行,或者需要我没有的复杂知识,该怎么办?今天,我将分享我自己使用 PyTorch Tabular 启动和运行模型的经验的简单回顾,并提供代码示例,这些示例应该可以帮助其他考虑使用它的用户以最少的麻烦快速上手。这个项目始于一个相当高维的 CatBoost 模型,这是一个具有多类分类结果的监督学习用例。数据集有大约 30 个高度不平衡的类,我将在以后的文章中更详细地描述它们。我想尝试将神经网络

Transformers 中多头注意力背后的数学

The Math Behind Multi-Head Attention in Transformers

深入探究 Transformer 和 LLM 中的秘密元素多头注意力。让我们探索它的数学原理,并从头开始用 Python 构建它DALL-E 生成的图像1:简介1.1:Transformer 概述Vaswani 等人在其论文“Attention is All You Need”中介绍的 Transformer 架构已经改变了深度学习,尤其是在自然语言处理 (NLP) 领域。Transformer 使用自注意力机制,使它们能够一次性处理所有输入序列。这种并行处理允许更快地计算并更好地管理数据中的长距离依赖关系。这听起来不熟悉?别担心,因为它会在本文的末尾出现。让我们首先简单看一下 Transfo

查找时间序列数据中异常值的终极指南(第 3 部分)

The Ultimate Guide to Finding Outliers in Your Time-Series Data (Part 3)

发现异常值:现在怎么办?治疗方案指南继续阅读 Towards Data Science »

如何在 Power BI 中操作总数

How to Manipulate the Total in Power BI

在大多数情况下,总计会汇总视觉效果中的详细信息行。但如果总计应该显示不同内容怎么办?继续阅读 Towards Data Science »

构建可靠 AI 应用程序的 LLM 三角原则

The LLM Triangle Principles to Architect Reliable AI Apps

软件设计原则,用于精心设计可靠、高性能的 LLM 应用程序。一个框架,用于弥合潜在性能和生产级性能之间的差距。大型语言模型 (LLM) 具有巨大的潜力,但开发可靠的生产级应用程序仍然具有挑战性。在构建了数十个 LLM 系统之后,我将成功的公式提炼为任何团队都可以应用的四个基本原则。“LLM 原生应用程序 10% 是复杂的模型,90% 是实验数据驱动的工程工作。”构建可用于生产的 LLM 应用程序需要谨慎的工程实践。当用户无法直接与 LLM 交互时,必须精心编写提示以涵盖所有细微差别,因为可能无法获得迭代用户反馈。介绍 LLM 三角原则LLM 三角原则概括了构建有效 LLM 原生应用程序的基本准

用户操作序列建模:从注意力到 Transformers 及其他

User Action Sequence Modeling: From Attention to Transformers and Beyond

将推荐系统 LLM 化的探索继续阅读 Towards Data Science »

PyEnv 和 Poetry 教程:终极数据科学设置

PyEnv & Poetry Tutorial: Ultimate Data Science Setup

如何将 PyEnv 和 Poetry 结合用于数据科学项目的环境和包管理继续阅读 Towards Data Science »

PySpark 说明:用户定义函数

PySpark Explained: User-Defined Functions

它们是什么,如何使用它们?继续阅读 Towards Data Science »