Is Multi-Collinearity Destroying Your Causal Inferences In Marketing Mix Modelling?
因果 AI,探索因果推理与机器学习的整合照片由 NOAA 在 Unsplash 上拍摄本系列是关于什么的?欢迎来到我的因果 AI 系列,我们将探索因果推理与机器学习模型的整合。期望探索不同业务环境中的许多实际应用。在上一篇文章中,我们介绍了使用 CUPED 和双重机器学习为实验提供动力。今天,我们将重点转移到了解多重共线性如何损害您做出的因果推断,特别是在营销组合建模中。如果您错过了上一篇关于使用 CUPED 和双重机器学习为实验提供动力的文章,请在此处查看:使用 CUPED 和双重机器学习为实验提供动力简介在本文中,我们将探讨多重共线性的破坏性,并评估我们可以用来解决它的一些方法。将涵盖以下
Data Science at Home: Solving the Nanny Schedule Puzzle with Monte Carlo and Genetic Algorithms
让混乱变得有序,同时简化我们寻找完美保姆的过程作为数据科学领导者,我习惯于拥有一支能够将混乱变为清晰的团队。但是,当混乱是你自己家庭的保姆时间表时,即使是最好的计划也会出错。一想到工作会议、午睡时间和不可预测的轮班,我们的思绪就会陷入混乱——直到我意识到我可以使用解决业务问题的相同算法来解决非常个人的问题。借助蒙特卡罗模拟、遗传算法和一些父母的聪明才智,我开始了一场驯服我们疯狂时间表的旅程,每次调整一个算法。结果如何?好吧,我们只能说我们保姆的新时间表看起来非常合适。照片由 Markus Spiske 在 Unsplash 上拍摄设置舞台:伟大的时间表难题我们的家庭时间表看起来就像瓷器店里的公
GenAI with Python: Coding Agents
构建一个数据科学家 AI,可以使用 SQL 查询数据库、使用 Python 分析数据、使用 HTML 编写报告以及执行机器学习(无需 GPU……继续阅读 Towards Data Science »
Introducing Semantic Tag Filtering: Enhancing Retrieval with Tag Similarity
语义标签过滤如何使用语义相似性来改进标签过滤***要理解本文,需要了解 Jaccard 相似性和向量搜索。该算法的实现已在 GitHub 上发布,并且完全开源。多年来,我们已经发现了如何从不同模态中检索信息,例如数字、原始文本、图像以及标签。随着定制 UI 的日益普及,标签搜索系统已成为一种方便的方式,可以轻松过滤具有良好准确度的信息。通常使用标签搜索的一些情况是检索社交媒体帖子、文章、游戏、电影甚至简历。然而,传统的标签搜索缺乏灵活性。如果我们要过滤掉包含指定标签的样本,可能会出现这样的情况:特别是对于只包含几千个样本的数据库,可能没有任何(或只有几个)与我们的查询匹配的样本。在结果稀缺的情
5 Pillars for a Hyper-Optimized AI Workflow
介绍一种用于创建可用于生产、可扩展且高度优化的 AI 工作流的方法 来源:Google Gemini,作者提示 简介 在过去十年中,在我从事的每个项目中,我都带着一个深刻的问题:我该如何构建和开发我的 AI 和 ML 项目?我想知道——是否有一种优雅的方法可以以迭代方式构建可用于生产的代码?可扩展、优化、可维护和可复制的代码库?如果有——这个秘密在哪里?谁拥有这种黑暗艺术的知识?多年来,我一直在努力寻找答案——阅读文章、观看教程并尝试不同的方法和框架。但我找不到令人满意的答案。每次我以为我快要找到解决方案时,总觉得还缺少一些东西。经过大约 10 年的反复试验,加上过去两年的专注努力,我想我终于
Does Semi-Supervised Learning Help to Train Better Models?
评估半监督学习如何利用未标记数据作者提供的图片 — 使用 Bing 中的 Image Creator 创建数据科学家面临的最常见挑战之一是缺乏足够的标记数据来训练可靠且准确的模型。标记数据对于监督学习任务(例如分类或回归)至关重要。但是,在许多领域,获取标记数据可能成本高昂、耗时或不切实际。另一方面,未标记数据通常很容易收集,但它们不提供任何直接输入来训练模型。我们如何利用未标记数据来改进我们的监督学习模型?这就是半监督学习发挥作用的地方。半监督学习是机器学习的一个分支,它结合标记和未标记数据来训练一个比单独使用标记数据表现更好的模型。半监督学习背后的直觉是,未标记的数据可以提供有关数据底层结
Benchmarking Hallucination Detection Methods in RAG
评估增强 LLM 生成响应可靠性的方法。未经检查的幻觉仍然是当今检索增强生成应用中的一个大问题。本研究评估了 4 个公共 RAG 数据集中流行的幻觉检测器。使用 AUROC 和精确度/召回率,我们报告了 G-eval、Ragas 和可信语言模型等方法自动标记不正确的 LLM 响应的能力。使用各种幻觉检测方法识别 RAG 系统中的 LLM 错误。我目前在 Cleanlab 担任机器学习工程师,我为本文讨论的可信语言模型的开发做出了贡献。我很高兴介绍这种方法并在以下基准测试中与其他方法一起对其进行评估。问题:RAG 系统中的幻觉和错误众所周知,当被问到训练数据中没有很好支持的问题时,大型语言模型
Python QuickStart for People Learning AI
适合初学者的指南 Python 已成为 AI 和数据科学事实上的编程语言。尽管存在无代码解决方案,但学习如何编码对于构建完全自定义的 AI 项目或产品仍然至关重要。在本文中,我分享了一份使用 Python 进行 AI 开发的初学者快速入门指南。我将介绍基础知识,然后分享一个带有代码的具体示例。图片来自 Canva。Python 是一种编程语言,即一种向计算机发出精确指令来做我们不能或不想做的事情的方法 [1]。这在没有现成解决方案的情况下自动执行独特任务时非常方便。例如,如果我想自动编写和发送个性化的会议跟进,我可以编写一个 Python 脚本来执行此操作。有了 ChatGPT 这样的工具,很
Intuitive Explanation of Async / Await in JavaScript
设计异步管道以实现高效的数据处理注。本文假设您熟悉回调和承诺,并对 JavaScript 中的异步范式有基本的了解。简介异步机制是 JavaScript 和一般编程中最重要的概念之一。它允许程序在后台单独执行次要任务,而不会阻止当前线程执行主要任务。当次要任务完成后,将返回其结果,程序继续正常运行。在这种情况下,此类次要任务称为异步。异步任务通常包括向外部环境(如数据库、Web API 或操作系统)发出请求。如果异步操作的结果不影响主程序的逻辑,那么与其在任务完成之前等待,不如不要浪费这段时间并继续执行主要任务。然而,有时异步操作的结果会立即用于下一行代码。在这种情况下,后续代码行不应在异步操
The Price of Gold: Is Olympic Success Reserved for the Wealthy?
分析 30 年奥运会奖牌分布和国家财富指标继续阅读 Towards Data Science »
From Theory to Practice with Particle Swarm Optimization, Using Python
以下是关于什么是 PSO 以及如何使用它的教程继续阅读 Towards Data Science »
Forever Learning: Why AI Struggles with Adapting to New Challenges
了解深度学习的局限性和对真正持续适应的追求继续阅读 Towards Data Science »
Achieve Better Classification Results with ClassificationThresholdTuner
用于调整和可视化二分类和多分类问题阈值选择的 Python 工具调整分类问题中使用的阈值(即调整用于决定预测一个类别还是另一个类别的概率的截止值)是一个有时会被遗忘的步骤,但很容易做到并且可以显著提高模型的质量。这是大多数分类问题都应该执行的步骤(根据我们希望优化的内容,有一些例外,如下所述)。在本文中,我们将仔细研究执行此操作时实际发生的情况 — 特别是在多分类中,这可能会有点微妙。我们将介绍我自己编写的开源工具 ClassificationThesholdTuner,它可以自动化并向用户描述该过程。考虑到调整阈值的任务在分类问题中是多么常见,以及不同项目之间的过程通常有多么相似,我已经能够
Why Ratios Trump Raw Numbers in Business Health
了解比率是深入了解业务健康状况和推动更明智决策的关键继续阅读 Towards Data Science »
Real world Use Cases: Forecasting Service Utilization Using Tabnet and Optuna
Dall-e 生成的图像数据科学在现实世界中发挥着最佳作用。我打算分享我参与过的各种生产化项目的见解。在我担任数据科学家的这些年里,我遇到了很多有兴趣成为数据科学家的学生,或者刚刚毕业的刚起步的学生。像任何领域一样,开始数据科学的职业生涯需要陡峭的学习曲线。我经常被问到的一个非常好的问题是:我已经学到了很多关于数据科学的理论方面,但现实世界的例子是什么样的?我想分享一些我职业生涯中一直在从事的不同项目的小作品。即使有些作品可能已经是几年前的了,我只会写一些我仍然认为相关的主题。我会尽量保持总体情况的清晰和简洁,以便有抱负的新同事能够了解接下来可能发生的事情。但我也想停下来研究一下细节,我希望更
How to Implement Graph RAG Using Knowledge Graphs and Vector Databases
作者提供的图片关于实现检索增强生成 (RAG)、语义搜索和推荐的分步教程本教程的随附代码在此处。我的上一篇博客文章是关于如何在企业级一起实现知识图谱 (KG) 和大型语言模型 (LLM)。在那篇文章中,我介绍了 KG 和 LLM 目前交互的两种方式:LLM 作为构建 KG 的工具;以及 KG 作为 LLM 或 GenAI 应用程序的输入。下图显示了集成的两个方面以及人们将它们一起使用的不同方式。作者提供的图片在这篇文章中,我将重点介绍 KG 和 LLM 一起使用的一种流行方式:使用知识图谱的 RAG,有时称为 Graph RAG、GraphRAG、GRAG 或 Semantic RAG。检索增
LangGraph — Intuitively and Exhaustively Explained
在约束内构建强大的 LLM 代理继续阅读 Towards Data Science »