How to succeed with AI: Combining Kafka and AI Guardrails
为什么实时数据和治理对于 AI 来说是不可协商的Photo by Sid Verma on UnsplashKafka 很棒。AI 很棒。当我们将两者结合起来会发生什么?连续性。—AI 正在改变我们的效率和运营方式的许多方面:卓越的翻译、客户互动、代码生成器、驾驶汽车等。即使我们喜欢尖端的东西,我们也很难跟上它。我们往往会忘记一个巨大的问题:如果没有正确的护栏,AI 很容易脱轨。一旦发生,这不仅仅是一个技术故障,还可能给企业带来灾难性的后果。从我作为 CTO 的经验来看,我亲眼看到真正的 AI 成功不仅仅来自速度。它来自控制——控制你的 AI 消耗的数据、它的运行方式,并确保它不会提供错误的输
FormulaFeatures: A Tool to Generate Highly Predictive Features for Interpretable Models
使用基于数字特征的算术组合自动设计的简洁、高度预测的特征创建更易于解释的模型在本文中,我们研究了一个名为 FormulaFeatures 的工具。这主要用于可解释模型,例如浅层决策树,其中少量简洁且高度预测的特征可以极大地帮助提高模型的可解释性和准确性。机器学习中的可解释模型本文继续我关于可解释机器学习的系列文章,之前的文章包括 ikNN、加法决策树、遗传决策树和 PRISM 规则。如前几篇文章所述(并在那里更详细地介绍),通常有强烈的动机使用可解释的预测模型:每个预测都可以很好地理解,我们可以确信模型将在未来看不见的数据上表现合理。有许多模型可以提供可解释的 ML,但不幸的是,这些模型比我们
Efficient Testing of ETL Pipelines with Python
如何即时检测数据质量问题并确定其原因继续阅读 Towards Data Science »
AI Agents: The Intersection of Tool Calling and Reasoning in Generative AI
解析人工智能中的问题解决和工具驱动的决策作者和 GPT-4o 的图片描绘了处于推理和工具调用交汇处的人工智能代理简介:代理人工智能的兴起如今,新的库和低代码平台使构建人工智能代理(也称为数字工作者)变得比以往任何时候都更容易。工具调用是驱动生成式人工智能模型“代理”性质的主要能力之一,它通过将其能力扩展到对话任务之外。通过执行工具(函数),代理可以代表您采取行动,解决需要稳健决策并与各种外部数据源交互的复杂、多步骤问题。本文重点介绍如何通过工具调用来表达推理,探讨工具使用的一些挑战,介绍评估工具调用能力的常用方法,并提供不同模型和代理如何与工具交互的示例。解决问题的推理表达成功的代理的核心是两
释放 RAG 工作流的全部潜力为什么、何时以及如何对增强型 RAG 进行分块我们如何分割球?(使用 Cava 生成)大型语言模型在单个请求中可以处理的最大标记数称为上下文长度(或上下文窗口)。下表显示了所有版本的 GPT-4 的上下文长度(截至 2024 年 9 月)。虽然上下文长度随着每次迭代和每个新模型而增加,但我们可以为模型提供的信息仍然有限。此外,输入的大小与 LLM 生成的响应的上下文相关性之间存在反比关系,简短而集中的输入比包含大量信息的长上下文产生更好的结果。这强调了将数据分解成更小、更相关的块的重要性,以确保 LLM 做出更合适的响应 — — 至少在 LLM 无需重新训练即可处
The “Who Does What” Guide To Enterprise Data Quality
一个答案和许多最佳实践,说明大型组织如何为现代数据平台实施数据质量程序企业数据质量“谁做什么”的答案。图片由作者提供。我曾与全球最大公司的数十位企业数据专家交谈过,最常见的数据质量问题之一是“谁做什么?”紧接着是“为什么和怎么做?”这是有原因的。数据质量就像一场接力赛。每条腿的成功——检测、分类、解决和测量——都取决于另一条腿。每次传递接力棒时,失败的几率都会飙升。照片由 Zach Lucero 在 Unsplash 上拍摄实际问题值得实际答案。然而,每个组织围绕数据的组织方式略有不同。我见过拥有 15,000 名员工的组织将所有关键数据的所有权集中起来,而规模只有他们一半的组织则决定完全联合
How to Build a Competency Framework for Data Science Teams
对于那些领导数据科学团队的人来说,以下 6 项基本能力可以以稳健和客观的方式将初级人员与高级人员区分开来。继续阅读 Towards Data Science »
Deploying Your Llama Model via vLLM using SageMaker Endpoint
利用 AWS 的 MLOps 平台为您的 LLM 模型提供服务继续阅读 Towards Data Science »
A Step-by-Step Guide to Build a Graph Learning System for a Movie Recommender
使用 PyTorch Geometric 和 MovieLens DataSet 构建继续阅读 Towards Data Science »
Market Basket Analysis Using High Utility Itemset Mining
在交易中寻找高价值模式在这篇文章中,我将提供一种替代流行的市场篮子分析技术的方法,它可以帮助从业者找到高价值模式,而不仅仅是最常见的模式。我们将对不同的模式挖掘问题有一些直观的了解,并看一个真实的例子。完整的代码可以在这里找到。所有图像均由作者创建。简介我已经写了一篇关于模式挖掘的更入门的文章;如果你不熟悉这里提到的一些概念,请先阅读那篇文章。简而言之,模式挖掘试图在数据中寻找模式(呃)。大多数时候,这些数据以(多)集或序列的形式出现。例如,在我的上一篇文章中,我研究了用户在网站上执行的操作序列。在这种情况下,我们会关心项目的顺序。在其他情况下,比如我们将在下面讨论的情况,我们不关心项目的顺序
Understanding Einstein’s Notation and einsum Multiplication
使用字符串符号执行高阶张量运算继续阅读 Towards Data Science »
Deep Learning for Crop Yield Prediction (Pt.1 — Model)
提高作物产量并优化灌溉:一种深度学习方法进行多元分析继续阅读 Towards Data Science »
How I’d Learn to Be a Data Analyst in 2024
...如果我可以重新开始。继续阅读 Towards Data Science »
Forecasting Germany’s Solar Energy Production: A Practical Approach with Prophet
使用 Python 进行分析和实施继续阅读 Towards Data Science »
Is Your User Base Growing or Shrinking?
如何通过跟踪客户细分和 KPI 揭示业务的真实健康状况继续阅读 Towards Data Science »
Automate Video Chaptering with LLMs and TF-IDF
将原始记录转换为结构良好的文档照片由 Jakob Owens 在 Unsplash 上拍摄视频章节划分是将视频分割成不同章节的任务。除了像 YouTube 章节那样用作导航辅助之外,它还是一系列下游应用的核心,从信息检索(例如 RAG 语义分块)到引用或摘要。在最近的一个项目中,我需要自动执行此任务,但对可用的选项有限感到惊讶,尤其是在开源领域。虽然一些专业工具或付费 API 提供了此类服务,但我找不到任何提供足够强大和准确解决方案的库或教程。如果您知道任何内容,请在评论中分享!如果您想知道为什么不简单地将记录复制并粘贴到大型语言模型 (LLM) 中并要求提供章节标题,那么由于两个原因,这样做
How I Streamline My Research and Presentation with LlamaIndex Workflows
以可靠性、灵活性和可控性协调 AI 工作流的示例LlamaIndex 最近推出了一项新功能:工作流。它对于那些想要创建既可靠又灵活的 AI 解决方案的人来说非常有用。为什么?因为它允许您使用控制流定义自定义步骤。它支持循环、反馈和错误处理。它就像一个支持 AI 的管道。但与通常以有向无环图 (DAG) 形式实现的典型管道不同,工作流还支持循环执行,使其成为实现代理和其他更复杂过程的良好候选。介绍工作流测试版:使用 LlamaIndex 创建复杂 AI 应用程序的新方法 - LlamaIndex,LLM 应用程序的数据框架在本文中,我将展示如何使用 LlamaIndex 工作流简化我研究某个主题