走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

您需要了解的有关图形数据库和 Neo4j 的一切

Everything You Need to Know About Graph Databases & Neo4j

理解图形数据库:关键概念和优势(照片由作者提供,插图由三船隆绘制,可免费使用)存储和处理数据是软件工程的基本任务。在早期的大规模专业开发中,Oracle、IBM DB2 和 SQL 等关系数据库占据主导地位。数据操作系统无法轻松处理结构化或关系数据,而只能处理平面数据表示。[1] 图形数据库试图弥合关系数据表示和平面数据表示之间的差距,同时使信息访问更加容易。[2] 这种数据库类型最受欢迎的代表是 Neo4j。[3] 名称:Neo4j 软件类型:图形数据库 (GDB) 初始版本:2007 来源:Neo4j, Inc. 目标平台:跨平台,例如Windows、Linux、..语言:用 Java 和

通过复杂推理提高 RAG 答案质量

Improving RAG Answer Quality Through Complex Reasoning

展示使用 DSPy 和 Indexify 构建多跳检索系统的过程TLDR;在本文中,我们将探索多跳检索以及如何利用它来构建需要复杂推理的 RAG 系统我们将通过使用 Indexify、OpenAI 和 DSPy 在医疗保健领域构建问答聊天机器人来了解该技术。多跳思路链 RAG 如何有效回答复杂问题。简介检索增强生成 (RAG) 系统已成为构建 LLM 驱动应用程序的强大方法。RAG 系统的运行方式是首先使用检索模型从外部知识源检索信息,然后使用此信息提示 LLM 生成响应。但是,基本 RAG 系统(也称为朴素 RAG)在处理需要对多条信息进行推理的复杂查询时可能会面临挑战。这就是多跳检索发挥作

在 Google Cloud 上大规模部署 dbt 项目

Deploying dbt Projects at Scale on Google Cloud

使用 Artifact Registry、Cloud Composer、GitHub Actions 和 dbt-airflow 容器化和运行 dbt 项目继续阅读 Towards Data Science »

空间索引:镶嵌

Spatial Index: Tessellation

使用镶嵌进行空间索引以及 Uber H3 的工作原理继续阅读 Towards Data Science »

空间索引:网格系统

Spatial Index: Grid Systems

使用 GeoHash 和 Google S2 进行空间索引中的网格系统继续阅读 Towards Data Science »

大多数数据质量计划在开始之前就失败了。原因如下。

Most Data Quality Initiatives Fail Before They Start. Here’s Why.

给我看看你的数据质量记分卡,我会告诉你一年后你是否会成功。照片由 Braden Collum 在 Unsplash 拍摄我每天都会与那些准备投入大量时间和资源用于注定会失败的数据质量计划的组织交谈。激励措施和 KPI 可以推动良好行为,这并不奇怪。销售薪酬计划受到严格审查,因此它们经常成为董事会会议的话题。如果我们对数据质量记分卡给予同样的关注会怎样?即使在其鼎盛时期,来自 Hadoop 时代的传统数据质量记分卡也很少取得巨大成功。我之所以知道这一点,是因为在创办 Monte Carlo 之前,我曾担任运营副总裁多年,试图创建能够推动信任和采用的数据质量标准。在过去几年中,云计算和元数据管理方

数据科学的演变:现代端到端数据科学家的新时代技能

Evolution of Data Science: New Age Skills for the Modern End-to-End Data Scientist

从 Python 脚本到数据工程、MLOps 和 GenAI继续阅读 Towards Data Science »

事件研究设计:初学者指南

Event Study Designs: A Beginner’s Guide

它们是什么,它们不是什么在本文中,我试图阐明应用计量经济学家工具包中基本工具的使用:差异-差异 (DiD) 和事件研究设计。这篇文章主要受到我学生的启发,分解了基本概念并解决了经常使从业者感到困惑的常见误解。如果您想知道为什么标题关注事件研究而我也在谈论 DiD,那是因为,当谈到因果推理时,事件研究是差异-差异的概括。但在深入研究之前,让我向您保证,如果您感到困惑,这可能是有充分理由的。近年来,DiD 文献随着新方法的出现而蓬勃发展,因此很难跟上。事件研究设计的起源也无济于事……事件研究的起源金融起源事件研究起源于金融,旨在评估特定事件(如收益公告或合并)对股价的影响。事件研究法由 Ball

空间索引:空间填充曲线

Spatial Index: Space-Filling Curves

多维数据的空间索引和空间填充曲线继续阅读 Towards Data Science »

使用 LangChain 从短暂到持久:在聊天机器人中构建长期记忆

From Ephemeral to Persistence with LangChain: Building Long-Term Memory in Chatbots

关于如何将简单的聊天机器人转变为具有长期记忆和情境理解能力的复杂 AI 助手的详细演练继续阅读 Towards Data Science »

函数调用:在 xLAM 上微调 Llama 3

Function Calling: Fine-Tuning Llama 3 on xLAM

得益于 QLoRA,速度快且内存效率高继续阅读 Towards Data Science »

通过数据镜头看夏季奥运会

Summer Olympic Games Through the Lens of Data

使用 Python 和 Wikipedia 绘制获奖国家的地理和网络地图。继续阅读 Towards Data Science »

基于企业用例的 LLM 评估

Enterprise Use Case-Based Evaluation of LLMs

生成式 AI 评估策略继续阅读 Towards Data Science »

2M 令牌上下文窗口世界中的高级检索技术第 1 部分

Advanced Retrieval Techniques in a World of 2M Token Context Windows Part 1

2M Token Context Windows 世界中的高级检索技术,第 1 部分探索 RAG 技术以提高检索准确性 Google DeepMind 启动的可视化 AI 项目。来自 Unsplash 图像。首先,我们还关心 RAG(检索增强生成)吗?Gemini Pro 可以处理惊人的 2M 令牌上下文,而 GPT-3.5 发布时我们惊讶的只有 15k。这是否意味着我们不再关心检索或 RAG 系统?基于 Needle-in-a-Haystack 基准测试,答案是,虽然需求正在减少,尤其是对于 Gemini 模型,但高级检索技术仍可显着提高大多数 LLM 的性能。基准测试结果表明,长上下文模型

神经网络 (MLP) 在实践中用于时间序列预测

Neural Network (MLP) for Time Series Forecasting in Practice

特征工程和构建 MLP 模型的实用示例简介时间序列,更具体地说是时间序列预测,是专业人士和商业用户中非常著名的数据科学问题。存在几种预测方法,为了理解和更好的概述,可以将其归类为统计或机器学习方法,但事实上,对预测的需求如此之高,以至于可用的选项非常丰富。机器学习方法被认为是时间序列预测中最先进的方法,并且越来越受欢迎,因为它们能够捕捉数据中复杂的非线性关系,并且通常可以提高预测的准确性 [1]。一个流行的机器学习领域是神经网络领域。具体来说,对于时间序列分析,循环神经网络已被开发并应用于解决预测问题 [2]。数据科学爱好者可能会发现此类模型背后的复杂性令人生畏,作为你们中的一员,我可以说我也

BlazeFace:如何在浏览器中运行实时对象检测

BlazeFace: How to Run Real-time Object Detection in the Browser

训练 BlazeFace 模型的分步指南,从 Python 训练管道到 JavaScript 演示,再到模型转换。自由改编自 Unsplash 上的 visuals 的照片得益于 Ultralytics 的 YOLO 等库,如今只需几行代码即可轻松创建强大的对象检测模型。不幸的是,这些解决方案的速度还不够快,无法在任何设备上以每秒 30 帧(通常被认为是视频应用程序的实时极限)的速度在 Web 浏览器中实时视频流上运行。通常,它在普通移动设备上的运行速度低于 10 fps。Web 浏览器上最著名的实时对象检测解决方案是 Google 的 MediaPipe。这是一个非常方便且用途广泛的解决方案

使用 AI 检测云

Detecting Clouds with AI

从随机森林到 YOLO:比较卫星图像中云分割的不同算法。作者:Carmen Martínez-Barbosa 和 José Arturo Celis-Gil 云朵在一片开满鲜花的绿色田野上,画的是梵高的风格。图片由作者使用 DALL 创建。卫星图像彻底改变了我们的世界。借助它,人类可以实时跟踪水、空气、土地、植被的变化以及我们在全球范围内产生的足迹效应。提供此类信息的应用程序无穷无尽。例如,它们已用于评估土地使用对河流水质的影响。卫星图像还用于监测野生动物和观察城市人口的增长等。根据忧思科学家联盟 (UCS) 的数据,大约有一千颗地球观测卫星正在绕地球运行。然而,其中最著名的是 Sentine

Pydantic V2 中的验证

Validations in Pydantic V2

使用字段、注释、字段验证器和模型验证器进行验证继续阅读 Towards Data Science »