走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

泰勒级数解释

The Taylor Series, Explained

一种函数逼近方法继续阅读 Towards Data Science »

使用 LLM 和 TF-IDF 自动进行视频分章

Automate Video Chaptering with LLMs and TF-IDF

将原始记录转换为结构良好的文档照片由 Jakob Owens 在 Unsplash 上拍摄视频章节划分是将视频分割成不同章节的任务。除了像 YouTube 章节那样用作导航辅助之外,它还是一系列下游应用的核心,从信息检索(例如 RAG 语义分块)到引用或摘要。在最近的一个项目中,我需要自动执行此任务,但对可用的选项有限感到惊讶,尤其是在开源领域。虽然一些专业工具或付费 API 提供了此类服务,但我找不到任何提供足够强大和准确解决方案的库或教程。如果您知道任何内容,请在评论中分享!如果您想知道为什么不简单地将记录复制并粘贴到大型语言模型 (LLM) 中并要求提供章节标题,那么由于两个原因,这样做

如何使用 LlamaIndex 工作流简化我的研究和演示

How I Streamline My Research and Presentation with LlamaIndex Workflows

以可靠性、灵活性和可控性协调 AI 工作流的示例LlamaIndex 最近推出了一项新功能:工作流。它对于那些想要创建既可靠又灵活的 AI 解决方案的人来说非常有用。为什么?因为它允许您使用控制流定义自定义步骤。它支持循环、反馈和错误处理。它就像一个支持 AI 的管道。但与通常以有向无环图 (DAG) 形式实现的典型管道不同,工作流还支持循环执行,使其成为实现代理和其他更复杂过程的良好候选。介绍工作流测试版:使用 LlamaIndex 创建复杂 AI 应用程序的新方法 - LlamaIndex,LLM 应用程序的数据框架在本文中,我将展示如何使用 LlamaIndex 工作流简化我研究某个主题

如何使用 RAG 为 Gmail 创建强大的 AI 电子邮件搜索

How to Create a Powerful AI Email Search for Gmail with RAG

了解如何使用 RAG 开发应用程序来搜索电子邮件继续阅读 Towards Data Science »

XPER:揭示预测性能的驱动力

XPER: Unveiling the Driving Forces of Predictive Performance

一种分解您最喜欢的性能指标的新方法照片由 Sira Anamwong 在 123RF 上拍摄与 S. Hué、C. Hurlin 和 C. Pérignon 合著。I - 从解释模型预测到解释模型性能敏感 AI 系统的可信度和可接受性在很大程度上取决于用户理解相关模型或至少是其预测的能力。为了揭开不透明 AI 应用的面纱,可解释 AI (XAI) 方法(例如事后可解释性工具(例如 SHAP、LIME))如今被广泛使用,并且从其输出中产生的见解现在已被广泛理解。除了单个预测之外,我们在本文中展示了如何使用可解释性能 (XPER) 方法识别任何分类或回归模型的性能指标(例如 AUC、R2)的驱动因

关心还是不关心:使用 XmR 图表区分指标中的信号和噪声

To Care, or Not to Care: Using XmR Charts to Differentiate Signals from Noise in Metrics

创建和解释 XmR 图表以进行有效数据分析的分步指南继续阅读 Towards Data Science »

微型神经网络如何表示基本函数

How Tiny Neural Networks Represent Basic Functions

通过简单的算法示例对机械可解释性进行简单介绍简介本文展示了小型人工神经网络 (NN) 如何表示基本功能。目标是提供有关 NN 工作原理的基本直觉,并作为机械可解释性的简单介绍——该领域旨在对 NN 进行逆向工程。我提供了三个基本函数的示例,使用简单的算法描述了每个函数,并展示了如何将算法“编码”到神经网络的权重中。然后,我探索网络是否可以使用反向传播来学习算法。我鼓励读者将每个示例视为一个谜语,并在阅读解决方案之前花一点时间。机器学习拓扑本文尝试将 NN 分解为离散操作并将其描述为算法。另一种方法可能更常见、更自然,即研究不同层中线性变换的连续拓扑解释。以下是一些有助于增强拓扑直觉的优秀资源:

NumPy 简介,第 1 部分:了解数组

Introducing NumPy, Part 1: Understanding Arrays

创建、描述和访问属性继续阅读 Towards Data Science »

分析表格数据集所需的只是统计数据

All You Need Is Statistics to Analyze Tabular Datasets

要分析表格数据集,无需深度学习或大型语言模型继续阅读 Towards Data Science »

AI 代理可以在应用程序上完成您的日常任务吗?

Can AI Agents Do Your Day-to-Day Tasks on Apps?

在应用程序和人的世界中对编码代理进行基准测试想象这样一个世界,其中 AI 代理可以充当您的个人助理,为您完成任务,例如设置亚马逊退货或根据您的电子邮件取消会议。这将需要代理在复杂的工作流程中以交互方式操作您的应用程序,并且实际上还没有很好的方法来对此类代理进行基准测试。直到现在。🤖 1. 个人应用程序的编码代理随着底层 AI 模型的改进,AI 助手(例如,我们手机上的助手)正在不断改进。几年前,他们很难正确回答简单的事实问题。今天,他们已经开始达到可以代表我们操作应用程序来执行基本任务的程度。例如,最近的 GoogleIO 和 Apple WWDC 活动大部分都是关于 AI 助手成为代表我们工

线性规划优化:单纯形法

Linear Programming Optimization: The Simplex Method

第 3 部分:底层算法继续阅读 Towards Data Science »

教 AI 代理记住的关键见解

Key Insights for Teaching AI Agents to Remember

根据对 Autogen 的“可教代理”的实验,提出构建强大记忆能力的建议记忆无疑正在成为 Agentic AI 的一个重要方面。随着 AI 代理用例的复杂性不断增加,这些代理从过去的经验中学习、利用存储的业务特定知识以及根据累积信息适应不断变化的场景的需求也在不断增加。在我之前的文章“AI 中的记忆:主要优势和投资考虑因素”中,我探讨了记忆对 AI 至关重要的原因,讨论了其在回忆、推理和持续学习中的作用。然而,这篇文章将直接深入研究记忆的实现,通过流行的代理框架 Autogen 中的“可教性”功能来检查其影响。注意:虽然这篇文章本质上是技术性的,但它为希望评估记忆在 Agentic AI 系统

多重共线性是否会破坏营销组合建模中的因果推断?

Is Multi-Collinearity Destroying Your Causal Inferences In Marketing Mix Modelling?

因果 AI,探索因果推理与机器学习的整合照片由 NOAA 在 Unsplash 上拍摄本系列是关于什么的?欢迎来到我的因果 AI 系列,我们将探索因果推理与机器学习模型的整合。期望探索不同业务环境中的许多实际应用。在上一篇文章中,我们介绍了使用 CUPED 和双重机器学习为实验提供动力。今天,我们将重点转移到了解多重共线性如何损害您做出的因果推断,特别是在营销组合建模中。如果您错过了上一篇关于使用 CUPED 和双重机器学习为实验提供动力的文章,请在此处查看:使用 CUPED 和双重机器学习为实验提供动力简介在本文中,我们将探讨多重共线性的破坏性,并评估我们可以用来解决它的一些方法。将涵盖以下

家庭数据科学:使用蒙特卡洛和遗传算法解决保姆时间表难题

Data Science at Home: Solving the Nanny Schedule Puzzle with Monte Carlo and Genetic Algorithms

让混乱变得有序,同时简化我们寻找完美保姆的过程作为数据科学领导者,我习惯于拥有一支能够将混乱变为清晰的团队。但是,当混乱是你自己家庭的保姆时间表时,即使是最好的计划也会出错。一想到工作会议、午睡时间和不可预测的轮班,我们的思绪就会陷入混乱——直到我意识到我可以使用解决业务问题的相同算法来解决非常个人的问题。借助蒙特卡罗模拟、遗传算法和一些父母的聪明才智,我开始了一场驯服我们疯狂时间表的旅程,每次调整一个算法。结果如何?好吧,我们只能说我们保姆的新时间表看起来非常合适。照片由 Markus Spiske 在 Unsplash 上拍摄设置舞台:伟大的时间表难题我们的家庭时间表看起来就像瓷器店里的公

使用 Python 的 GenAI:编码代理

GenAI with Python: Coding Agents

构建一个数据科学家 AI,可以使用 SQL 查询数据库、使用 Python 分析数据、使用 HTML 编写报告以及执行机器学习(无需 GPU……继续阅读 Towards Data Science »

引入语义标签过滤:通过标签相似性增强检索

Introducing Semantic Tag Filtering: Enhancing Retrieval with Tag Similarity

语义标签过滤如何使用语义相似性来改进标签过滤***要理解本文,需要了解 Jaccard 相似性和向量搜索。该算法的实现已在 GitHub 上发布,并且完全开源。多年来,我们已经发现了如何从不同模态中检索信息,例如数字、原始文本、图像以及标签。随着定制 UI 的日益普及,标签搜索系统已成为一种方便的方式,可以轻松过滤具有良好准确度的信息。通常使用标签搜索的一些情况是检索社交媒体帖子、文章、游戏、电影甚至简历。然而,传统的标签搜索缺乏灵活性。如果我们要过滤掉包含指定标签的样本,可能会出现这样的情况:特别是对于只包含几千个样本的数据库,可能没有任何(或只有几个)与我们的查询匹配的样本。在结果稀缺的情

超优化 AI 工作流的 5 个支柱

5 Pillars for a Hyper-Optimized AI Workflow

介绍一种用于创建可用于生产、可扩展且高度优化的 AI 工作流的方法 来源:Google Gemini,作者提示 简介 在过去十年中,在我从事的每个项目中,我都带着一个深刻的问题:我该如何构建和开发我的 AI 和 ML 项目?我想知道——是否有一种优雅的方法可以以迭代方式构建可用于生产的代码?可扩展、优化、可维护和可复制的代码库?如果有——这个秘密在哪里?谁拥有这种黑暗艺术的知识?多年来,我一直在努力寻找答案——阅读文章、观看教程并尝试不同的方法和框架。但我找不到令人满意的答案。每次我以为我快要找到解决方案时,总觉得还缺少一些东西。经过大约 10 年的反复试验,加上过去两年的专注努力,我想我终于

半监督学习有助于训练更好的模型吗?

Does Semi-Supervised Learning Help to Train Better Models?

评估半监督学习如何利用未标记数据作者提供的图片 — 使用 Bing 中的 Image Creator 创建数据科学家面临的最常见挑战之一是缺乏足够的标记数据来训练可靠且准确的模型。标记数据对于监督学习任务(例如分类或回归)至关重要。但是,在许多领域,获取标记数据可能成本高昂、耗时或不切实际。另一方面,未标记数据通常很容易收集,但它们不提供任何直接输入来训练模型。我们如何利用未标记数据来改进我们的监督学习模型?这就是半监督学习发挥作用的地方。半监督学习是机器学习的一个分支,它结合标记和未标记数据来训练一个比单独使用标记数据表现更好的模型。半监督学习背后的直觉是,未标记的数据可以提供有关数据底层结