走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

揭开元动力学的面纱:初学者掌握 PLUMED 的指南(第 1 部分,共 3 部分)

Unveiling Metadynamics: A Beginner’s Guide to Mastering PLUMED (Part 1 of 3)

揭开元动力学的面纱掌握 PLUMED 的初学者指南(第 1 部分,共 3 部分)DALL-E 生成的封面图片在计算化学和分子动力学 (MD) 中,理解复杂系统有时需要进行超出 MD 引擎或 VMD 可视化所提供的分析。我个人从事生物分子的原子模拟,它们非常庞大。由于计算这些大型模拟框中每个原子的轨迹非常复杂,通常我无法看到超过 1 或 2 微秒的轨迹,这是许多 MD 运行的一致上限。这意味着,虽然传统 MD 非常适合查看在短于该时间内发生的过程的轨迹波动,但对于需要更长时间的过程呢?存在一种强大的技术来查看这些过程,称为元动力学,而 PLUMED 因其与 GROMACS 引擎的无缝集成而成为该

LLM 量化的终极手册

The Ultimate Handbook for LLM Quantization

深入研究 LLM 量化和技术照片由 Siednji Leon 在 Unsplash 上拍摄 CPU 上的 LLM?是的,你没听错。从处理对话到创建自己的图像,AI 自诞生以来已经取得了长足的进步。但它也带来了瓶颈。随着模型的扩展,它们的计算需求也在增加。AI 开始严重依赖计算能力。为了满足这些需求,我们转向了 GPU,剩下的就是历史了。许多设备没有强大的 GPU,因此错过了 AI 功能。有必要缩小这些模型的大小和功能,以便在计算能力有限的设备(如手机或仅配备 CPU 的计算机)上运行 AI 模型。早期的努力包括修剪和蒸馏等技术。然而,这些方法对于通常具有大规模架构的 LLM 来说并不可行。最近

最佳分配和匈牙利算法

Optimum Assignment and the Hungarian Algorithm

匈牙利算法在行动!作者提供的图片。本文提供了匈牙利算法如何在图上解决最优分配问题的分步示例我写这篇文章的原因是我花了几天时间才理解匈牙利算法如何在图上工作。矩阵版本更容易理解,但它没有提供所需的洞察力。我在网上找到的所有优秀信息都无法提供直观理解算法为何这样做所需的清晰度。我也很难将算法描述转化为工作示例。虽然我们今天拥有的各种 LLM 工具有助于以各种方式重新表述算法的描述,但当我要求它们生成一个工作分步示例时,它们都失败了。所以我坚持生成了一个匈牙利算法在图上发挥其魔力的示例。我在这里一步步介绍这个示例以及我从这个练习中获得的直觉,希望它能帮助其他人学习这个奇妙的算法来解决最优分配问题。最

一种训练-测试-验证分割数据集的非常规方法

An Off-Beat Approach to Train-Test-Validation Split Your Dataset

确保小数据集分割的分布完整性使用 Microsoft Designer 生成我们都需要对总体进行抽样,以进行统计分析并获得见解。当我们这样做时,目的是确保样本的分布与总体的分布紧密匹配。为此,我们有各种方法:简单随机抽样(其中每个总体成员都有相同的被选中的机会)、分层抽样(包括将总体划分为子组并从每个子组中抽样)、聚类抽样(其中将总体划分为簇并随机选择整个簇)、系统抽样(包括选择总体的每第 n 个成员)等。每种方法都有其优势,并根据研究的特定需求和特点进行选择。在本文中,我们不会关注抽样方法本身,而是关注使用这些概念将用于机器学习方法的数据集拆分为训练-测试-验证集。这些方法适用于所有类型的表

在 Python 中创建模拟数据的分步指南

Step-by-Step Guide to Creating Simulated Data in Python

一个适合初学者的教程,教你如何生成自己的数据进行分析和测试照片由 Alexandru-Bogdan Ghita 在 Unsplash 上拍摄想象一下,你刚刚编写了一个机器学习模型,需要在特定场景中对其进行测试,或者你正在发布一篇关于自定义数据科学解决方案的学术论文,但可用的数据集有版权限制。另一方面,你可能正处于机器学习项目的调试和故障排除阶段,需要数据来识别和解决问题。所有这些情况,以及更多情况,都可以从使用模拟数据中受益。通常,现实世界的数据并不容易获得、昂贵或私密。因此,创建合成数据对数据科学从业者和专业人士来说是一项有用的技能。在本文中,我介绍了一些使用 Python 从头开始​​创建

利用 Python Pint Units Handler 包 — 第 2 部分

Leveraging Python Pint Units Handler Package — Part 2

在 Python 中为物理量创建自定义单位注册表继续阅读 Towards Data Science »

探索 Medusa 和多标记预测

Exploring Medusa and Multi-Token Prediction

这篇博文将详细介绍“MEDUSA:具有多个解码头的简单 LLM 推理加速框架”论文作者 — SDXL 的图片互联网是一个竞争异常激烈的地方。研究表明,如果网页加载时间超过 5 秒,客户就会离开网页 [2][3]。这对大多数大型语言模型 (LLM) 来说是一个挑战,因为它们无疑是目前最慢的程序之一。虽然定制硬件可以显着加快您的 LLM 速度,但目前在这种硬件上运行成本很高。如果我们能够找到充分利用标准硬件的方法,我们将能够大幅提升 LLM 的客户体验。《MEDUSA:具有多个解码头的简单 LLM 推理加速框架》论文的作者提出了一种架构变更,在现有硬件上运行时可实现 2 至 3 倍的速度提升。让我

如何测试机器学习系统

How to Test Machine Learning Systems

从概念到实用的代码片段,实现有效测试图片来自作者软件开发中的测试至关重要,因为它可以保证交付给客户的价值。交付成功的产品不是一次性的努力;而是一个持续的过程。为了确保持续交付,我们必须定义成功,整理数据,然后训练和部署我们的模型,同时持续监控和测试我们的工作。为了持续交付,我们必须定义成功,整理数据,然后训练和部署我们的模型,同时持续监控和测试我们的工作。机器学习系统中的“信任”不仅仅需要测试;它必须集成到整个生命周期中(如我的另一篇博客所示)。TRUST 的机器学习流程可以在“如何以合理的方式在机器学习中构建 TRUST”中描述(图片来自作者)。在深入讨论详细部分之前,这里有一个简短的 TL

细金属棒中的热扩散

Heat Diffusion in a Thin Metal Rod

热扩散方程的解满足傅里叶级数如果你加热绝缘金属棒的一小部分并将其放置一段时间,会发生什么?我们日常的热扩散经验让我们预测温度会逐渐趋于均匀。在完美绝缘的情况下,热量将永远留在金属中。这是对现象的正确定性描述,但如何定量描述它?照片由 Jonny Gios 在 Unsplash 上拍摄我们考虑包裹在绝缘材料中的细金属棒的一维问题。绝缘层可防止热量从侧面逸出杆,但热量可以沿杆轴流动。您可以在此处找到本文使用的代码。热扩散方程热扩散方程是一个简单的二阶微分方程,包含两个变量:x ∈ [0, L] 是沿杆的位置,t 是时间,u(x, t) 是温度,α 是材料的热扩散率。通过检查热扩散方程,我们可以对温

构建出色的数据科学组合:综合指南

Building a Standout Data Science Portfolio: A Comprehensive Guide

了解如何创建具有影响力的数据科学作品集,展示你的技能并吸引潜在雇主继续阅读《走向数据科学》»

Delta Lake 乐观并发控制 — 锁定还是不锁定!

Delta Lake Optimistic Concurrency Control — to lock or not to lock!

Delta Lake 乐观并发控制:锁定还是不锁定?Delta Lake 及其相关性随着数据世界通过 AI、ML 和其他流行技术竞相生成、存储、处理和使用大量数据,对独立可扩展存储和计算能力的需求也日益增长,以满足不断向通过 AI、ML 等训练和使用的数据集中添加(APPEND)和更改(UPSERT & MERGE)数据的需求。虽然不同云提供商提供的基于 Parquet 的数据湖存储在数据湖实施初期为我们提供了极大的灵活性,但当今业务和技术需求的发展对这些实施提出了挑战。虽然我们仍然喜欢使用 Parquet 的开放存储格式,但我们现在需要数据湖中的 ACID 事务、时间旅行和模式实施等功能。这

通过拥抱四个永恒的概念,让您的数据科学技能集具备 AI 证明能力

AI-Proof Your Data Science Skill Set by Embracing Four Timeless Concepts

在饱和的就业市场中保持竞争力继续阅读 Towards Data Science »

语言模型的缩放定律

Scaling Law Of Language Models

语言模型如何随模型大小、训练数据和训练计算扩展继续阅读 Towards Data Science »

手动深入研究 LSTM 和 xLSTM ✍️

Deep Dive into LSTMs & xLSTMs by Hand ✍️

深入研究 LSTM 和 xLSTM ✍️探索 LSTM 的智慧,从而引领 xLSTM — 可能与当今的 LLM 竞争作者图片(我 4 岁的孩子创造的古代巫师)“在 Serentia 的魔法王国中,古老的森林低语着早已被遗忘的咒语秘密,那里居住着 Enigmastrider — 一位受人尊敬的巫师,永恒智慧的守护者。在 Serentia 面临可怕危险的一个关键日子,Enigmastrider 使用精华石编织了一个神秘的仪式,充满了过去、现在和未来的精华。借助古老的魔法,他召唤出了 LSTM,这是一种知识管道,能够保存 Serentia 的历史并预见其命运。就像一条充满无限智慧的河流,LSTM 流

用于音乐理解任务的感知启发式图形卷积

Perception-Inspired Graph Convolution for Music Understanding Tasks

本文讨论了 MusGConv,一种用于符号音乐应用的感知启发式图卷积块。简介在音乐信息研究 (MIR) 领域,理解和处理乐谱的挑战不断被引入新方法和新途径。最近,许多基于图的技术已被提出,作为针对音乐理解任务的一种方式,例如语音分离、节奏检测、作曲家分类和罗马数字分析。这篇博文涵盖了我最近的一篇论文,其中我介绍了一种名为 MusGConv 的新图卷积块,专门用于处理乐谱数据。MusGConv 利用音乐感知原理来提高应用于音乐理解任务的图神经网络中图卷积的效率和性能。理解问题 MIR 中的传统方法通常依赖于音乐的音频或符号表示。虽然音频可以捕捉随时间变化的声波强度,但 MIDI 文件或乐谱等符号

使用 AI 为冰球增添趣味:使用计算机视觉进行球员跟踪

Spicing up Ice Hockey with AI: Player Tracking with Computer Vision

使用 PyTorch、计算机视觉技术和卷积神经网络 (CNN),我开发了一个跟踪球员、球队和基本表现统计数据的模型。如今,我不再像自己想的那样经常打曲棍球,但从小它就成了我的一部分。最近,我有机会在利马举行的第一届冰球锦标赛 (3 对 3) 中帮助裁判桌并记录一些统计数据。这项赛事涉及秘鲁直排轮滑球协会 (APHL) 的非凡努力和友谊联盟的亲切访问。为了增加 AI 元素,我使用 PyTorch、计算机视觉技术和卷积神经网络 (CNN) 构建了一个跟踪球员和球队并收集一些基本表现统计数据的模型。本文旨在成为设计和部署模型的快速指南。虽然该模型仍需要进行一些微调,但我希望它可以帮助任何人了解计算机

实践中的跟踪:代码、数据和 ML 模型

Tracking in Practice: Code, Data and ML Model

MLOps 中的跟踪指南继续阅读 Towards Data Science »

兴奋剂:一种测试异常值检测器的技术

Doping: A Technique to Test Outlier Detectors

使用精心制作的合成数据来比较和评估异常值检测器本文继续我的异常值检测系列,继“计数异常值检测器”和“频繁模式异常值因子”之后,还提供了我书“Python 中的异常值检测”的另一段摘录。在本文中,我们将研究测试和评估异常值检测器的问题,这是一个众所周知的难题,并提出一种解决方案,有时称为掺杂。使用掺杂,实际数据行(通常)被随机修改,但修改方式可以确保它们在某些方面可能是异常值,因此应该由异常值检测器检测到。然后,我们可以通过评估探测器检测掺杂记录的能力来评估探测器。在本文中,我们专门研究表格数据,但同样的想法也可以应用于其他模态,包括文本、图像、音频、网络数据等。测试和评估其他类型的模型如果您熟