Top 5 Geospatial Data APIs for Advanced Analysis
探索 Overpass、Geoapify、Distancematrix.ai、Amadeus 和 Mapillary 以获得高级地图和位置数据继续阅读 Towards Data Science »
Getting Started with Powerful Data Tables in your Python Web Apps
开始使用 Python Web 应用程序中的强大数据表使用 AG Grid 和 Reflex 以纯 Python 构建财务应用程序过去几个月,我一直在探索用于 Web 应用程序的各种数据可视化和操作工具。作为 Python 开发人员,我经常需要处理大型数据集并将其显示在交互式、可自定义的表中。一直困扰我的一个问题是:如何构建一个与我的 Python 后端无缝集成的强大数据网格 UI?有无数种选项可以构建复杂的数据网格,但作为一名 Python 工程师,我对 JavaScript 或任何前端框架的经验有限。我一直在寻找一种仅使用我最熟悉的语言 Python 来创建功能丰富的数据网格的方法!我决定
Exploring the AI Alignment Problem with GridWorlds
探索网格世界中的 AI 对齐问题很难在不遇到正交目标的情况下构建有能力的 AI 代理设计一个“网格世界”,AI 代理很难在不鼓励不良行为的情况下学习。图片由作者提供。这是 AI 对齐问题的本质:具有强大功能的高级 AI 模型的目标可能与我们的最佳利益不一致。这种模型可能会以不利于人类文明繁荣的方式追求自己的利益。对齐问题通常在生存风险的背景下讨论。许多人批评这个想法,认为人工智能对人类构成生存风险的可能性很小。一个常见的贬义简化是,人工智能安全研究人员担心超级智能人工智能会像电影《终结者》中那样制造杀人机器人。更令人担忧的是人工智能有“正交”而不是敌对的目标。一个常见的例子是,当我们修建高速公
How to succeed with AI: Combining Kafka and AI Guardrails
为什么实时数据和治理对于 AI 来说是不可协商的Photo by Sid Verma on UnsplashKafka 很棒。AI 很棒。当我们将两者结合起来会发生什么?连续性。—AI 正在改变我们的效率和运营方式的许多方面:卓越的翻译、客户互动、代码生成器、驾驶汽车等。即使我们喜欢尖端的东西,我们也很难跟上它。我们往往会忘记一个巨大的问题:如果没有正确的护栏,AI 很容易脱轨。一旦发生,这不仅仅是一个技术故障,还可能给企业带来灾难性的后果。从我作为 CTO 的经验来看,我亲眼看到真正的 AI 成功不仅仅来自速度。它来自控制——控制你的 AI 消耗的数据、它的运行方式,并确保它不会提供错误的输
FormulaFeatures: A Tool to Generate Highly Predictive Features for Interpretable Models
使用基于数字特征的算术组合自动设计的简洁、高度预测的特征创建更易于解释的模型在本文中,我们研究了一个名为 FormulaFeatures 的工具。这主要用于可解释模型,例如浅层决策树,其中少量简洁且高度预测的特征可以极大地帮助提高模型的可解释性和准确性。机器学习中的可解释模型本文继续我关于可解释机器学习的系列文章,之前的文章包括 ikNN、加法决策树、遗传决策树和 PRISM 规则。如前几篇文章所述(并在那里更详细地介绍),通常有强烈的动机使用可解释的预测模型:每个预测都可以很好地理解,我们可以确信模型将在未来看不见的数据上表现合理。有许多模型可以提供可解释的 ML,但不幸的是,这些模型比我们
Efficient Testing of ETL Pipelines with Python
如何即时检测数据质量问题并确定其原因继续阅读 Towards Data Science »
AI Agents: The Intersection of Tool Calling and Reasoning in Generative AI
解析人工智能中的问题解决和工具驱动的决策作者和 GPT-4o 的图片描绘了处于推理和工具调用交汇处的人工智能代理简介:代理人工智能的兴起如今,新的库和低代码平台使构建人工智能代理(也称为数字工作者)变得比以往任何时候都更容易。工具调用是驱动生成式人工智能模型“代理”性质的主要能力之一,它通过将其能力扩展到对话任务之外。通过执行工具(函数),代理可以代表您采取行动,解决需要稳健决策并与各种外部数据源交互的复杂、多步骤问题。本文重点介绍如何通过工具调用来表达推理,探讨工具使用的一些挑战,介绍评估工具调用能力的常用方法,并提供不同模型和代理如何与工具交互的示例。解决问题的推理表达成功的代理的核心是两
释放 RAG 工作流的全部潜力为什么、何时以及如何对增强型 RAG 进行分块我们如何分割球?(使用 Cava 生成)大型语言模型在单个请求中可以处理的最大标记数称为上下文长度(或上下文窗口)。下表显示了所有版本的 GPT-4 的上下文长度(截至 2024 年 9 月)。虽然上下文长度随着每次迭代和每个新模型而增加,但我们可以为模型提供的信息仍然有限。此外,输入的大小与 LLM 生成的响应的上下文相关性之间存在反比关系,简短而集中的输入比包含大量信息的长上下文产生更好的结果。这强调了将数据分解成更小、更相关的块的重要性,以确保 LLM 做出更合适的响应 — — 至少在 LLM 无需重新训练即可处
The “Who Does What” Guide To Enterprise Data Quality
一个答案和许多最佳实践,说明大型组织如何为现代数据平台实施数据质量程序企业数据质量“谁做什么”的答案。图片由作者提供。我曾与全球最大公司的数十位企业数据专家交谈过,最常见的数据质量问题之一是“谁做什么?”紧接着是“为什么和怎么做?”这是有原因的。数据质量就像一场接力赛。每条腿的成功——检测、分类、解决和测量——都取决于另一条腿。每次传递接力棒时,失败的几率都会飙升。照片由 Zach Lucero 在 Unsplash 上拍摄实际问题值得实际答案。然而,每个组织围绕数据的组织方式略有不同。我见过拥有 15,000 名员工的组织将所有关键数据的所有权集中起来,而规模只有他们一半的组织则决定完全联合
How to Build a Competency Framework for Data Science Teams
对于那些领导数据科学团队的人来说,以下 6 项基本能力可以以稳健和客观的方式将初级人员与高级人员区分开来。继续阅读 Towards Data Science »
Deploying Your Llama Model via vLLM using SageMaker Endpoint
利用 AWS 的 MLOps 平台为您的 LLM 模型提供服务继续阅读 Towards Data Science »
A Step-by-Step Guide to Build a Graph Learning System for a Movie Recommender
使用 PyTorch Geometric 和 MovieLens DataSet 构建继续阅读 Towards Data Science »
Market Basket Analysis Using High Utility Itemset Mining
在交易中寻找高价值模式在这篇文章中,我将提供一种替代流行的市场篮子分析技术的方法,它可以帮助从业者找到高价值模式,而不仅仅是最常见的模式。我们将对不同的模式挖掘问题有一些直观的了解,并看一个真实的例子。完整的代码可以在这里找到。所有图像均由作者创建。简介我已经写了一篇关于模式挖掘的更入门的文章;如果你不熟悉这里提到的一些概念,请先阅读那篇文章。简而言之,模式挖掘试图在数据中寻找模式(呃)。大多数时候,这些数据以(多)集或序列的形式出现。例如,在我的上一篇文章中,我研究了用户在网站上执行的操作序列。在这种情况下,我们会关心项目的顺序。在其他情况下,比如我们将在下面讨论的情况,我们不关心项目的顺序
Understanding Einstein’s Notation and einsum Multiplication
使用字符串符号执行高阶张量运算继续阅读 Towards Data Science »
Deep Learning for Crop Yield Prediction (Pt.1 — Model)
提高作物产量并优化灌溉:一种深度学习方法进行多元分析继续阅读 Towards Data Science »
How I’d Learn to Be a Data Analyst in 2024
...如果我可以重新开始。继续阅读 Towards Data Science »
Forecasting Germany’s Solar Energy Production: A Practical Approach with Prophet
使用 Python 进行分析和实施继续阅读 Towards Data Science »
Is Your User Base Growing or Shrinking?
如何通过跟踪客户细分和 KPI 揭示业务的真实健康状况继续阅读 Towards Data Science »