走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

ML 模型中的因果关系:引入单调约束

Causality in ML Models: Introducing Monotonic Constraints

单调约束是使机器学习模型可操作的关键,但它们仍然未被广泛使用继续阅读 Towards Data Science »

强化学习简介和解决多臂老虎机问题

Introduction to Reinforcement Learning and Solving the Multi-armed Bandit Problem

剖析 Richard S. Sutton 的“强化学习”与自定义 Python 实现,第一集继续阅读 Towards Data Science »

空间索引:R 树

Spatial Index: R Trees

空间索引的数据驱动结构继续阅读 Towards Data Science »

最短路径算法:如何使用数据进行导航和优化

Shortest Path Algorithms: How to Use Data to Navigate and Optimize

Dijkstra 算法和 Bellman-Ford 算法概述继续阅读 Towards Data Science »

生成式 AI 会导致 AI 崩溃吗?

Can Generative AI Lead to AI Collapse?

AI 自食其果:生成系统中模型崩溃的风险继续阅读 Towards Data Science »

数据仓库,重新定义

Data Warehouse, Redefined

重新思考数据仓库:为什么重新定义是必要的,甚至超越现代数据仓库 (MDW) 和 Lakehouse 模型继续阅读 Towards Data Science »

您需要了解的有关图形数据库和 Neo4j 的一切

Everything You Need to Know About Graph Databases & Neo4j

理解图形数据库:关键概念和优势(照片由作者提供,插图由三船隆绘制,可免费使用)存储和处理数据是软件工程的基本任务。在早期的大规模专业开发中,Oracle、IBM DB2 和 SQL 等关系数据库占据主导地位。数据操作系统无法轻松处理结构化或关系数据,而只能处理平面数据表示。[1] 图形数据库试图弥合关系数据表示和平面数据表示之间的差距,同时使信息访问更加容易。[2] 这种数据库类型最受欢迎的代表是 Neo4j。[3] 名称:Neo4j 软件类型:图形数据库 (GDB) 初始版本:2007 来源:Neo4j, Inc. 目标平台:跨平台,例如Windows、Linux、..语言:用 Java 和

通过复杂推理提高 RAG 答案质量

Improving RAG Answer Quality Through Complex Reasoning

展示使用 DSPy 和 Indexify 构建多跳检索系统的过程TLDR;在本文中,我们将探索多跳检索以及如何利用它来构建需要复杂推理的 RAG 系统我们将通过使用 Indexify、OpenAI 和 DSPy 在医疗保健领域构建问答聊天机器人来了解该技术。多跳思路链 RAG 如何有效回答复杂问题。简介检索增强生成 (RAG) 系统已成为构建 LLM 驱动应用程序的强大方法。RAG 系统的运行方式是首先使用检索模型从外部知识源检索信息,然后使用此信息提示 LLM 生成响应。但是,基本 RAG 系统(也称为朴素 RAG)在处理需要对多条信息进行推理的复杂查询时可能会面临挑战。这就是多跳检索发挥作

在 Google Cloud 上大规模部署 dbt 项目

Deploying dbt Projects at Scale on Google Cloud

使用 Artifact Registry、Cloud Composer、GitHub Actions 和 dbt-airflow 容器化和运行 dbt 项目继续阅读 Towards Data Science »

空间索引:镶嵌

Spatial Index: Tessellation

使用镶嵌进行空间索引以及 Uber H3 的工作原理继续阅读 Towards Data Science »

空间索引:网格系统

Spatial Index: Grid Systems

使用 GeoHash 和 Google S2 进行空间索引中的网格系统继续阅读 Towards Data Science »

大多数数据质量计划在开始之前就失败了。原因如下。

Most Data Quality Initiatives Fail Before They Start. Here’s Why.

给我看看你的数据质量记分卡,我会告诉你一年后你是否会成功。照片由 Braden Collum 在 Unsplash 拍摄我每天都会与那些准备投入大量时间和资源用于注定会失败的数据质量计划的组织交谈。激励措施和 KPI 可以推动良好行为,这并不奇怪。销售薪酬计划受到严格审查,因此它们经常成为董事会会议的话题。如果我们对数据质量记分卡给予同样的关注会怎样?即使在其鼎盛时期,来自 Hadoop 时代的传统数据质量记分卡也很少取得巨大成功。我之所以知道这一点,是因为在创办 Monte Carlo 之前,我曾担任运营副总裁多年,试图创建能够推动信任和采用的数据质量标准。在过去几年中,云计算和元数据管理方

数据科学的演变:现代端到端数据科学家的新时代技能

Evolution of Data Science: New Age Skills for the Modern End-to-End Data Scientist

从 Python 脚本到数据工程、MLOps 和 GenAI继续阅读 Towards Data Science »

事件研究设计:初学者指南

Event Study Designs: A Beginner’s Guide

它们是什么,它们不是什么在本文中,我试图阐明应用计量经济学家工具包中基本工具的使用:差异-差异 (DiD) 和事件研究设计。这篇文章主要受到我学生的启发,分解了基本概念并解决了经常使从业者感到困惑的常见误解。如果您想知道为什么标题关注事件研究而我也在谈论 DiD,那是因为,当谈到因果推理时,事件研究是差异-差异的概括。但在深入研究之前,让我向您保证,如果您感到困惑,这可能是有充分理由的。近年来,DiD 文献随着新方法的出现而蓬勃发展,因此很难跟上。事件研究设计的起源也无济于事……事件研究的起源金融起源事件研究起源于金融,旨在评估特定事件(如收益公告或合并)对股价的影响。事件研究法由 Ball

空间索引:空间填充曲线

Spatial Index: Space-Filling Curves

多维数据的空间索引和空间填充曲线继续阅读 Towards Data Science »

使用 LangChain 从短暂到持久:在聊天机器人中构建长期记忆

From Ephemeral to Persistence with LangChain: Building Long-Term Memory in Chatbots

关于如何将简单的聊天机器人转变为具有长期记忆和情境理解能力的复杂 AI 助手的详细演练继续阅读 Towards Data Science »

函数调用:在 xLAM 上微调 Llama 3

Function Calling: Fine-Tuning Llama 3 on xLAM

得益于 QLoRA,速度快且内存效率高继续阅读 Towards Data Science »

通过数据镜头看夏季奥运会

Summer Olympic Games Through the Lens of Data

使用 Python 和 Wikipedia 绘制获奖国家的地理和网络地图。继续阅读 Towards Data Science »