走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

扩展您的 RAG:使用 LanceDB 和 Candle 的 Rust 驱动索引管道

Scale Up Your RAG: A Rust-Powered Indexing Pipeline with LanceDB and Candle

为大规模文档处理构建高性能嵌入和索引系统照片由 Marc Sendra Martorell 在 Unsplash 上拍摄1. 简介最近,检索增强生成 (或简称 RAG) 已成为使用大型语言模型构建生成式 AI 应用程序的事实标准。RAG 通过确保生成模型使用适当的上下文来增强文本生成,同时避免了为同一任务微调 LLM 所涉及的时间、成本和复杂性。RAG 还允许更有效地使用外部数据源并更轻松地更新模型的“知识”。尽管基于 RAG 的 AI 应用程序通常可以使用更适中或更小的 LLM,但它们仍然依赖于嵌入和索引所需知识库的强大管道,以及能够有效地检索并将相关上下文注入模型提示。在许多用例中,可以使

使用 Python 的 GenAI:LLM 与代理

GenAI with Python: LLM vs Agents

创建一个 AI 小队,无需 GPU 即可在笔记本电脑上自动执行任何操作继续阅读 Towards Data Science »

让指标变得重要

Make Metrics Matter

数据专业人员如何提高其最强大资产的影响力继续阅读 Towards Data Science »

计算机视觉和对象检测有什么新东西?

What’s New in Computer Vision and Object Detection?

是否想写出您的第一篇 TDS 文章?我们始终欢迎新作者的投稿。在开始本周的精彩文章选集之前,我们想花点时间感谢所有读者、作者和更广泛社区的成员,感谢他们帮助我们实现一个重要的里程碑,因为我们的关注者指望 Medium 刚刚实现……我们非常激动——并感谢所有支持我们使 TDS 成为蓬勃发展、以学习为重点的出版物的人。祝愿未来有更多的成长和探索!回到我们的常规业务,我们选择了三篇最近的文章作为本周的亮点,重点介绍了计算机视觉和物体检测等令人兴奋的领域的尖端工具和方法。随着多模态模型的覆盖范围不断扩大,自动驾驶、医疗保健和农业等用例成为主流,数据和机器学习从业者必须随时了解最新发展。(如果您现在对其

如何使用数学编程解决资产存储问题

How to Solve an Asset Storage Problem with Mathematical Programming

使用 Python 和 Gurobipy 解决二维分类问题继续阅读 Towards Data Science »

生成式 AI 隐私风险

Generative AI Privacy Risks

大型语言模型 (LLM) 的隐私风险继续阅读 Towards Data Science »

促进工程实现认知灵活性

Prompt Engineering for Cognitive Flexibility

使用 MMLU-Pro 进行实验的实用见解和分析来源:图片由作者提供,由 MidJourney 生成简介开发能够像人类一样思考、计划和决策等的 AI 代理是当前研究和讨论的一个突出领域。目前,LLM 已成为这些代理的基础构建块。随着我们追求越来越复杂的能力,无论使用哪种法学硕士,我们不可避免地会一遍又一遍地遇到相同类型的问题,包括:模型是否具有准确高效地完成任务所需的知识?如果有适当的知识,我们如何可靠地激活它?模型是否能够模仿复杂的认知行为,例如推理、规划和决策,达到可接受的熟练程度?本文通过我最近进行的一项利用最新 MMLU-Pro 基准的小型实验来探讨这些问题。研究结果带来了一些关于认知

迈向单义性:迈向理解大型语言模型的一步

Towards Monosemanticity: A Step Towards Understanding Large Language Models

理解机械可解释性研究问题并对这些大型语言模型进行逆向工程上下文人工智能研究人员的主要问题之一是了解这些大型语言模型的工作原理。从数学上讲,我们对不同神经网络权重如何相互作用并产生最终答案有一个很好的答案。但是,直观地理解它们是人工智能研究人员旨在回答的核心问题之一。这很重要,因为除非我们了解这些 LLM 的工作原理,否则很难解决 LLM 对齐和人工智能安全等问题,也很难对 LLM 进行建模以解决特定问题。理解大型语言模型如何工作的问题被定义为机械可解释性研究问题,核心思想是我们如何对这些大型语言模型进行逆向工程。Anthropic 是在理解这些大型模型方面取得巨大进步的公司之一。主要问题是这些

揭开元动力学的面纱:初学者掌握 PLUMED 的指南(第 1 部分,共 3 部分)

Unveiling Metadynamics: A Beginner’s Guide to Mastering PLUMED (Part 1 of 3)

揭开元动力学的面纱掌握 PLUMED 的初学者指南(第 1 部分,共 3 部分)DALL-E 生成的封面图片在计算化学和分子动力学 (MD) 中,理解复杂系统有时需要进行超出 MD 引擎或 VMD 可视化所提供的分析。我个人从事生物分子的原子模拟,它们非常庞大。由于计算这些大型模拟框中每个原子的轨迹非常复杂,通常我无法看到超过 1 或 2 微秒的轨迹,这是许多 MD 运行的一致上限。这意味着,虽然传统 MD 非常适合查看在短于该时间内发生的过程的轨迹波动,但对于需要更长时间的过程呢?存在一种强大的技术来查看这些过程,称为元动力学,而 PLUMED 因其与 GROMACS 引擎的无缝集成而成为该

LLM 量化的终极手册

The Ultimate Handbook for LLM Quantization

深入研究 LLM 量化和技术照片由 Siednji Leon 在 Unsplash 上拍摄 CPU 上的 LLM?是的,你没听错。从处理对话到创建自己的图像,AI 自诞生以来已经取得了长足的进步。但它也带来了瓶颈。随着模型的扩展,它们的计算需求也在增加。AI 开始严重依赖计算能力。为了满足这些需求,我们转向了 GPU,剩下的就是历史了。许多设备没有强大的 GPU,因此错过了 AI 功能。有必要缩小这些模型的大小和功能,以便在计算能力有限的设备(如手机或仅配备 CPU 的计算机)上运行 AI 模型。早期的努力包括修剪和蒸馏等技术。然而,这些方法对于通常具有大规模架构的 LLM 来说并不可行。最近

最佳分配和匈牙利算法

Optimum Assignment and the Hungarian Algorithm

匈牙利算法在行动!作者提供的图片。本文提供了匈牙利算法如何在图上解决最优分配问题的分步示例我写这篇文章的原因是我花了几天时间才理解匈牙利算法如何在图上工作。矩阵版本更容易理解,但它没有提供所需的洞察力。我在网上找到的所有优秀信息都无法提供直观理解算法为何这样做所需的清晰度。我也很难将算法描述转化为工作示例。虽然我们今天拥有的各种 LLM 工具有助于以各种方式重新表述算法的描述,但当我要求它们生成一个工作分步示例时,它们都失败了。所以我坚持生成了一个匈牙利算法在图上发挥其魔力的示例。我在这里一步步介绍这个示例以及我从这个练习中获得的直觉,希望它能帮助其他人学习这个奇妙的算法来解决最优分配问题。最

一种训练-测试-验证分割数据集的非常规方法

An Off-Beat Approach to Train-Test-Validation Split Your Dataset

确保小数据集分割的分布完整性使用 Microsoft Designer 生成我们都需要对总体进行抽样,以进行统计分析并获得见解。当我们这样做时,目的是确保样本的分布与总体的分布紧密匹配。为此,我们有各种方法:简单随机抽样(其中每个总体成员都有相同的被选中的机会)、分层抽样(包括将总体划分为子组并从每个子组中抽样)、聚类抽样(其中将总体划分为簇并随机选择整个簇)、系统抽样(包括选择总体的每第 n 个成员)等。每种方法都有其优势,并根据研究的特定需求和特点进行选择。在本文中,我们不会关注抽样方法本身,而是关注使用这些概念将用于机器学习方法的数据集拆分为训练-测试-验证集。这些方法适用于所有类型的表

在 Python 中创建模拟数据的分步指南

Step-by-Step Guide to Creating Simulated Data in Python

一个适合初学者的教程,教你如何生成自己的数据进行分析和测试照片由 Alexandru-Bogdan Ghita 在 Unsplash 上拍摄想象一下,你刚刚编写了一个机器学习模型,需要在特定场景中对其进行测试,或者你正在发布一篇关于自定义数据科学解决方案的学术论文,但可用的数据集有版权限制。另一方面,你可能正处于机器学习项目的调试和故障排除阶段,需要数据来识别和解决问题。所有这些情况,以及更多情况,都可以从使用模拟数据中受益。通常,现实世界的数据并不容易获得、昂贵或私密。因此,创建合成数据对数据科学从业者和专业人士来说是一项有用的技能。在本文中,我介绍了一些使用 Python 从头开始​​创建

利用 Python Pint Units Handler 包 — 第 2 部分

Leveraging Python Pint Units Handler Package — Part 2

在 Python 中为物理量创建自定义单位注册表继续阅读 Towards Data Science »

探索 Medusa 和多标记预测

Exploring Medusa and Multi-Token Prediction

这篇博文将详细介绍“MEDUSA:具有多个解码头的简单 LLM 推理加速框架”论文作者 — SDXL 的图片互联网是一个竞争异常激烈的地方。研究表明,如果网页加载时间超过 5 秒,客户就会离开网页 [2][3]。这对大多数大型语言模型 (LLM) 来说是一个挑战,因为它们无疑是目前最慢的程序之一。虽然定制硬件可以显着加快您的 LLM 速度,但目前在这种硬件上运行成本很高。如果我们能够找到充分利用标准硬件的方法,我们将能够大幅提升 LLM 的客户体验。《MEDUSA:具有多个解码头的简单 LLM 推理加速框架》论文的作者提出了一种架构变更,在现有硬件上运行时可实现 2 至 3 倍的速度提升。让我

如何测试机器学习系统

How to Test Machine Learning Systems

从概念到实用的代码片段,实现有效测试图片来自作者软件开发中的测试至关重要,因为它可以保证交付给客户的价值。交付成功的产品不是一次性的努力;而是一个持续的过程。为了确保持续交付,我们必须定义成功,整理数据,然后训练和部署我们的模型,同时持续监控和测试我们的工作。为了持续交付,我们必须定义成功,整理数据,然后训练和部署我们的模型,同时持续监控和测试我们的工作。机器学习系统中的“信任”不仅仅需要测试;它必须集成到整个生命周期中(如我的另一篇博客所示)。TRUST 的机器学习流程可以在“如何以合理的方式在机器学习中构建 TRUST”中描述(图片来自作者)。在深入讨论详细部分之前,这里有一个简短的 TL

细金属棒中的热扩散

Heat Diffusion in a Thin Metal Rod

热扩散方程的解满足傅里叶级数如果你加热绝缘金属棒的一小部分并将其放置一段时间,会发生什么?我们日常的热扩散经验让我们预测温度会逐渐趋于均匀。在完美绝缘的情况下,热量将永远留在金属中。这是对现象的正确定性描述,但如何定量描述它?照片由 Jonny Gios 在 Unsplash 上拍摄我们考虑包裹在绝缘材料中的细金属棒的一维问题。绝缘层可防止热量从侧面逸出杆,但热量可以沿杆轴流动。您可以在此处找到本文使用的代码。热扩散方程热扩散方程是一个简单的二阶微分方程,包含两个变量:x ∈ [0, L] 是沿杆的位置,t 是时间,u(x, t) 是温度,α 是材料的热扩散率。通过检查热扩散方程,我们可以对温

构建出色的数据科学组合:综合指南

Building a Standout Data Science Portfolio: A Comprehensive Guide

了解如何创建具有影响力的数据科学作品集,展示你的技能并吸引潜在雇主继续阅读《走向数据科学》»