走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

查找时间序列数据中异常值的终极指南(第 3 部分)

The Ultimate Guide to Finding Outliers in Your Time-Series Data (Part 3)

发现异常值:现在怎么办?治疗方案指南继续阅读 Towards Data Science »

如何在 Power BI 中操作总数

How to Manipulate the Total in Power BI

在大多数情况下,总计会汇总视觉效果中的详细信息行。但如果总计应该显示不同内容怎么办?继续阅读 Towards Data Science »

构建可靠 AI 应用程序的 LLM 三角原则

The LLM Triangle Principles to Architect Reliable AI Apps

软件设计原则,用于精心设计可靠、高性能的 LLM 应用程序。一个框架,用于弥合潜在性能和生产级性能之间的差距。大型语言模型 (LLM) 具有巨大的潜力,但开发可靠的生产级应用程序仍然具有挑战性。在构建了数十个 LLM 系统之后,我将成功的公式提炼为任何团队都可以应用的四个基本原则。“LLM 原生应用程序 10% 是复杂的模型,90% 是实验数据驱动的工程工作。”构建可用于生产的 LLM 应用程序需要谨慎的工程实践。当用户无法直接与 LLM 交互时,必须精心编写提示以涵盖所有细微差别,因为可能无法获得迭代用户反馈。介绍 LLM 三角原则LLM 三角原则概括了构建有效 LLM 原生应用程序的基本准

用户操作序列建模:从注意力到 Transformers 及其他

User Action Sequence Modeling: From Attention to Transformers and Beyond

将推荐系统 LLM 化的探索继续阅读 Towards Data Science »

PyEnv 和 Poetry 教程:终极数据科学设置

PyEnv & Poetry Tutorial: Ultimate Data Science Setup

如何将 PyEnv 和 Poetry 结合用于数据科学项目的环境和包管理继续阅读 Towards Data Science »

PySpark 说明:用户定义函数

PySpark Explained: User-Defined Functions

它们是什么,如何使用它们?继续阅读 Towards Data Science »

VerifAI 项目:开源生物医学问答系统,提供经过验证的答案

VerifAI Project: Open Source Biomedical Question Answering with Verified Answers

基于 Qdrant 和 OpenSearch 索引构建 LLM(Mistral 7B)生物医学问答系统的经验,并采用幻觉检测方法去年 9 月(2023 年),在获得 Horizo​​n Europe 的 NGI Search 资助计划的资助后,我们着手开发 VerifAI 项目。该项目的想法是创建一个基于经过审查的文档(因此我们使用了一个名为 PubMed 的生物医学期刊出版物库)的生物医学领域生成搜索引擎,并使用一个额外的模型来验证生成的答案,通过比较引用的文章和生成的声明。在生物医学等领域,以及一般科学领域,人们对幻觉的容忍度很低。虽然有些项目和产品(例如 Elicit 或 Perplex

开发人员应该使用 DuckDB 的三个理由

Three reasons why developers should use DuckDB

开发人员应该使用 DuckDB 的三个理由软件开发人员如何使用 DuckDB 进行数据分析软件开发人员必须身兼数职:从编写代码、设计系统到分析事件期间的数据转储。我们的大多数工具都针对这项任务进行了优化——对于编写代码,我们有强大的 IDE,对于设计系统,我们有功能丰富的图表工具。对于数据分析,软件开发人员是否拥有最好的工具?在本文中,我列出了三个主要原因,说明为什么 DuckDB(一种开源分析数据库)是软件开发人员必备的工具。来源:Unsplash原因 1:使用普遍理解的 SQL想象一下,你是一家食品配送公司的软件开发人员。您收到一封电子邮件,说与付款相关的客户投诉突然增加。该电子邮件包含一

在商业中使用因果推理的 15 分钟指南(附安慰剂测试)

Your 15-Minute Guide on Using Causal Inference in Business (with Placebo Tests)

“相关性不代表因果关系。”所以让我们计算因果关系。继续阅读 Towards Data Science »

介绍 zeroCPR:一种寻找互补产品的方法

Introducing zeroCPR: An Approach to Finding Complementary Products

推荐系统当前的 ML 模型可以推荐类似的产品,但互补性如何?在 AI 推荐系统领域,机器学习模型已被广泛用于推荐类似的样本,无论是产品、内容,还是建议类似的联系人。这些预训练模型大多数都是开源的,无需从头开始训练模型即可使用。但是,由于缺乏大数据,我们没有可以依赖的开源技术来推荐互补产品。在下面的文章中,我提出了一个框架(代码以用户友好库的形式呈现),该框架利用 LLM 以低成本的方式发现互补产品。我引入这个框架的目标是:可扩展该框架在运行时不需要监督,没有中断的风险,并且输出应该易于构建,可以与其他工具结合使用。负担得起应该能够以最低的花费(每 1000 个计算产品约 1 美元 - 使用 g

Pytorch 中从头开始的扩散模型

Diffusion Model from Scratch in Pytorch

去噪扩散概率模型 (DDPM) 的实现 MNIST 上的 DDPM 示例 — 作者提供的图片简介一般来说,扩散模型是一种生成式深度学习模型,它从学习到的去噪过程中创建数据。扩散模型有很多种,最流行的通常是文本条件模型,它可以根据提示生成特定的图像。一些扩散模型 (Control-Net) 甚至可以将图像与某些艺术风格融合在一起。下面是一个例子:作者使用经过微调的 MonsterLabs 的 QR Monster V2 提供的图片如果您不知道这幅图像有什么特别之处,请尝试远离屏幕或眯起眼睛来查看图像中隐藏的秘密。扩散模型有许多不同的应用和类型,但在本教程中,我们将构建基础的无条件扩散模型 DDP

从多元分布中抽样:从统计到生成模型

Sampling from Multivariate Distributions: From Statistical to Generative Modeling

将经典统计方法与尖端生成 AI 模型相结合,从多元分布中进行采样。继续阅读 Towards Data Science »

链接 Pandas 操作:优势和局限性

Chaining Pandas Operations: Strengths and Limitations

了解何时值得在管道中链接 Pandas 操作。继续阅读 Towards Data Science »

强化学习,第 5 部分:时间差异学习

Reinforcement Learning, Part 5: Temporal-Difference Learning

智能协同动态规划和蒙特卡罗算法简介强化学习是机器学习的一个领域,它引入了代理在复杂环境中学习最佳策略的概念。代理根据环境状态从其行为中学习,从而获得奖励。强化学习是一个具有挑战性的话题,与机器学习的其他领域有很大不同。强化学习的非凡之处在于,可以使用相同的算法使代理适应完全不同、未知和复杂的条件。注意。为了充分理解本文中的概念,强烈建议您熟悉之前文章中讨论的动态规划和蒙特卡罗方法。强化学习,第 2 部分:策略评估和改进强化学习,第 3 部分:蒙特卡罗方法关于本文在第 2 部分中,我们探索了动态规划 (DP) 方法,其中代理根据先前的计算迭代更新 V-/Q 函数及其策略,并用新的估计值替换它们。

为什么感觉不可能获得数据科学工作

Why It Feels Impossible to Get a Data Science Job

市场艰难的原因以及您可以采取的措施继续阅读 Towards Data Science »

Python + Google Earth Engine

Python + Google Earth Engine

如何清理巴西任何 Shapefile 的 MapBiomas LULC 栅格图 1:AC 波尔图阿克里的土地利用和土地覆盖(1985-2022 年)。自制,使用 MapBiomas LULC Collection 8。如果您曾经处理过巴西的土地使用数据,那么您肯定遇到过 MapBiomas²。他们的遥感团队开发了一种算法,用于对巴西(现在包括南美洲和印度尼西亚大部分地区)每块 30m x 30m 领土的土地使用进行分类。九年后,他们提供了各种产品,包括 MapBiomas LCLU(我们将在这里探索)、MapBiomas Fire、MapBiomas Water、MapBiomas Irrig

如何交付成功的数据科学咨询项目

How to Deliver Successful Data Science Consulting Projects

关于如何成功开展数据科学咨询项目并建立持久客户关系的关键建议图片由作者使用 DALL-E 生成引言我并不羞于这么说:数据科学咨询并不总是那么容易!它可能很残酷——尤其是在高层,当您需要创造销售以保持竞争力时。即使让客户满意是您的首要任务,但对于数据科学项目来说,做到这一点并不总是一件容易的事。回顾十多年来提供数据科学和数据工程项目的经历——其中大部分是作为顾问——我看到项目为客户带来了令人难以置信的价值,但我也看到项目跌跌撞撞,结果平庸,通常是由于计划不周、期望不一致和技术困难。很明显,成功的数据科学咨询不仅仅是成为 Python 和 R 奇才——在 Hackerrank 数据科学编程竞赛中取

作为数据科学经理学到的经验教训以及我为什么要回到个人贡献者角色

Lessons Learned as a Data Science Manager and Why I’m Moving Back to an Individual Contributor Role

我问自己的三个问题帮助我选择了职业道路继续阅读 Towards Data Science »