走向数据科学领域信息情报检索---XiaoMi-AI

2024年10月13日 11:02

构建用户友好型数据表的 5 大原则

Top 5 Principles for Building User-Friendly Data Tables

设计直观、可靠的表格，您的数据团队一定会喜欢继续阅读 Towards Data Science »

2024年10月12日 15:01

LLM vs LLM：Codenames 锦标赛

LLM vs LLM: Codenames Tournament

3 个不同 LLM 代理之间的迷你多代理竞赛继续阅读 Towards Data Science »

2024年10月12日 12:01

为什么 2024 年诺贝尔化学奖（AI 领域）如此重要

Why the 2024 Nobel Prize in (AI for) Chemistry Matters So Much

致 DeepMind 的 Demis Hassabis 和 John Jumper，以及蛋白质设计研究所负责人 David Baker继续阅读 Towards Data Science »

2024年10月12日 00:25

高斯朴素贝叶斯解释：初学者的带有代码示例的可视化指南

Gaussian Naive Bayes, Explained: A Visual Guide with Code Examples for Beginners

分类算法钟形假设以获得更好的预测⛳️ 更多分类算法，解释：· 虚拟分类器 · K 最近邻分类器 · 伯努利朴素贝叶斯 ▶ 高斯朴素贝叶斯 · 决策树分类器 · 逻辑回归 · 支持向量分类器 · 多层感知器（即将推出！）基于我们之前关于处理二进制数据的伯努利朴素贝叶斯的文章，我们现在探索用于连续数据的高斯朴素贝叶斯。与二元方法不同，该算法假设每个特征都服从正态（高斯）分布。在这里，我们将看到高斯朴素贝叶斯如何处理连续的钟形数据（产生准确的预测），而无需深入研究贝叶斯定理的复杂数学。所有视觉效果：作者使用 Canva Pro 创建。针对移动设备进行了优化；在桌面上可能显得过大。定义与其他朴素贝叶斯

2024年10月12日 00:22

一劳永逸地戳破 AI 炒作泡沫

Bursting the AI Hype Bubble Once and for All

错误信息和不良研究：案例研究人们不能忽视这样一个事实：ChatGPT 等人工智能模型已经占领了互联网，并进入了互联网的每个角落。大多数人工智能应用程序对于广泛的任务（医疗保健、工程、计算机视觉、教育等）都非常有用和有益，我们没有理由不投入时间和金钱来开发它们。但生成式人工智能 (GenAI) 的情况并非如此，我将在本文中特别提到它。这包括 LLM 和 RAG，例如 ChatGPT、Claude、Gemini、Llama 和其他模型。对于我们所说的人工智能、我们使用的模型及其环境影响，必须非常具体。[1]：人们对“AI”和“ChatGPT”一词的兴趣随时间变化（过去四年）。截图由我拍摄。来源：G

2024年10月11日 20:42

关于数据科学的常见误解

Common Misconceptions About Data Science

您应该质疑的数据科学建议继续阅读 Towards Data Science »

2024年10月7日 10:27

了解 AWS Lambda 基础知识以运行强大的无服务器函数

Discover AWS Lambda Basics to Run Powerful Serverless Functions

了解我如何首次设置 AWS Lambda 继续阅读 Towards Data Science »

2024年10月7日 08:02

数组 — 数据科学家的数据结构和算法

Arrays — Data Structures & Algorithms for Data Scientists

动态和静态数组的工作原理继续阅读 Towards Data Science »

2024年10月6日 20:21

用于高级分析的 5 大地理空间数据 API

Top 5 Geospatial Data APIs for Advanced Analysis

探索 Overpass、Geoapify、Distancematrix.ai、Amadeus 和 Mapillary 以获得高级地图和位置数据继续阅读 Towards Data Science »

2024年10月6日 17:02

在 Python Web 应用程序中开始使用强大的数据表

Getting Started with Powerful Data Tables in your Python Web Apps

开始使用 Python Web 应用程序中的强大数据表使用 AG Grid 和 Reflex 以纯 Python 构建财务应用程序过去几个月，我一直在探索用于 Web 应用程序的各种数据可视化和操作工具。作为 Python 开发人员，我经常需要处理大型数据集并将其显示在交互式、可自定义的表中。一直困扰我的一个问题是：如何构建一个与我的 Python 后端无缝集成的强大数据网格 UI？有无数种选项可以构建复杂的数据网格，但作为一名 Python 工程师，我对 JavaScript 或任何前端框架的经验有限。我一直在寻找一种仅使用我最熟悉的语言 Python 来创建功能丰富的数据网格的方法！我决定

2024年10月6日 14:02

使用 GridWorlds 探索 AI 对齐问题

Exploring the AI Alignment Problem with GridWorlds

探索网格世界中的 AI 对齐问题很难在不遇到正交目标的情况下构建有能力的 AI 代理设计一个“网格世界”，AI 代理很难在不鼓励不良行为的情况下学习。图片由作者提供。这是 AI 对齐问题的本质：具有强大功能的高级 AI 模型的目标可能与我们的最佳利益不一致。这种模型可能会以不利于人类文明繁荣的方式追求自己的利益。对齐问题通常在生存风险的背景下讨论。许多人批评这个想法，认为人工智能对人类构成生存风险的可能性很小。一个常见的贬义简化是，人工智能安全研究人员担心超级智能人工智能会像电影《终结者》中那样制造杀人机器人。更令人担忧的是人工智能有“正交”而不是敌对的目标。一个常见的例子是，当我们修建高速公

2024年10月6日 13:16

如何通过 AI 取得成功：结合 Kafka 和 AI 护栏

How to succeed with AI: Combining Kafka and AI Guardrails

为什么实时数据和治理对于 AI 来说是不可协商的Photo by Sid Verma on UnsplashKafka 很棒。AI 很棒。当我们将两者结合起来会发生什么？连续性。—AI 正在改变我们的效率和运营方式的许多方面：卓越的翻译、客户互动、代码生成器、驾驶汽车等。即使我们喜欢尖端的东西，我们也很难跟上它。我们往往会忘记一个巨大的问题：如果没有正确的护栏，AI 很容易脱轨。一旦发生，这不仅仅是一个技术故障，还可能给企业带来灾难性的后果。从我作为 CTO 的经验来看，我亲眼看到真正的 AI 成功不仅仅来自速度。它来自控制——控制你的 AI 消耗的数据、它的运行方式，并确保它不会提供错误的输

2024年10月6日 11:02

FormulaFeatures：一种为可解释模型生成高预测性特征的工具

FormulaFeatures: A Tool to Generate Highly Predictive Features for Interpretable Models

使用基于数字特征的算术组合自动设计的简洁、高度预测的特征创建更易于解释的模型在本文中，我们研究了一个名为 FormulaFeatures 的工具。这主要用于可解释模型，例如浅层决策树，其中少量简洁且高度预测的特征可以极大地帮助提高模型的可解释性和准确性。机器学习中的可解释模型本文继续我关于可解释机器学习的系列文章，之前的文章包括 ikNN、加法决策树、遗传决策树和 PRISM 规则。如前几篇文章所述（并在那里更详细地介绍），通常有强烈的动机使用可解释的预测模型：每个预测都可以很好地理解，我们可以确信模型将在未来看不见的数据上表现合理。有许多模型可以提供可解释的 ML，但不幸的是，这些模型比我们

2024年10月5日 17:12

使用 Python 高效测试 ETL 管道

Efficient Testing of ETL Pipelines with Python

如何即时检测数据质量问题并确定其原因继续阅读 Towards Data Science »

2024年10月5日 11:02

RAG 101：分块策略

RAG 101: Chunking Strategies

释放 RAG 工作流的全部潜力为什么、何时以及如何对增强型 RAG 进行分块我们如何分割球？（使用 Cava 生成）大型语言模型在单个请求中可以处理的最大标记数称为上下文长度（或上下文窗口）。下表显示了所有版本的 GPT-4 的上下文长度（截至 2024 年 9 月）。虽然上下文长度随着每次迭代和每个新模型而增加，但我们可以为模型提供的信息仍然有限。此外，输入的大小与 LLM 生成的响应的上下文相关性之间存在反比关系，简短而集中的输入比包含大量信息的长上下文产生更好的结果。这强调了将数据分解成更小、更相关的块的重要性，以确保 LLM 做出更合适的响应 — — 至少在 LLM 无需重新训练即可处

2024年9月12日 01:25

企业数据质量“谁做什么”指南

The “Who Does What” Guide To Enterprise Data Quality

一个答案和许多最佳实践，说明大型组织如何为现代数据平台实施数据质量程序企业数据质量“谁做什么”的答案。图片由作者提供。我曾与全球最大公司的数十位企业数据专家交谈过，最常见的数据质量问题之一是“谁做什么？”紧接着是“为什么和怎么做？”这是有原因的。数据质量就像一场接力赛。每条腿的成功——检测、分类、解决和测量——都取决于另一条腿。每次传递接力棒时，失败的几率都会飙升。照片由 Zach Lucero 在 Unsplash 上拍摄实际问题值得实际答案。然而，每个组织围绕数据的组织方式略有不同。我见过拥有 15,000 名员工的组织将所有关键数据的所有权集中起来，而规模只有他们一半的组织则决定完全联合

2024年9月12日 01:08

如何为数据科学团队构建能力框架

How to Build a Competency Framework for Data Science Teams

对于那些领导数据科学团队的人来说，以下 6 项基本能力可以以稳健和客观的方式将初级人员与高级人员区分开来。继续阅读 Towards Data Science »

2024年9月12日 00:57

使用 SageMaker Endpoint 通过 vLLM 部署您的 Llama 模型

Deploying Your Llama Model via vLLM using SageMaker Endpoint

利用 AWS 的 MLOps 平台为您的 LLM 模型提供服务继续阅读 Towards Data Science »