走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

语言模型的缩放定律

Scaling Law Of Language Models

语言模型如何随模型大小、训练数据和训练计算扩展继续阅读 Towards Data Science »

手动深入研究 LSTM 和 xLSTM ✍️

Deep Dive into LSTMs & xLSTMs by Hand ✍️

深入研究 LSTM 和 xLSTM ✍️探索 LSTM 的智慧,从而引领 xLSTM — 可能与当今的 LLM 竞争作者图片(我 4 岁的孩子创造的古代巫师)“在 Serentia 的魔法王国中,古老的森林低语着早已被遗忘的咒语秘密,那里居住着 Enigmastrider — 一位受人尊敬的巫师,永恒智慧的守护者。在 Serentia 面临可怕危险的一个关键日子,Enigmastrider 使用精华石编织了一个神秘的仪式,充满了过去、现在和未来的精华。借助古老的魔法,他召唤出了 LSTM,这是一种知识管道,能够保存 Serentia 的历史并预见其命运。就像一条充满无限智慧的河流,LSTM 流

用于音乐理解任务的感知启发式图形卷积

Perception-Inspired Graph Convolution for Music Understanding Tasks

本文讨论了 MusGConv,一种用于符号音乐应用的感知启发式图卷积块。简介在音乐信息研究 (MIR) 领域,理解和处理乐谱的挑战不断被引入新方法和新途径。最近,许多基于图的技术已被提出,作为针对音乐理解任务的一种方式,例如语音分离、节奏检测、作曲家分类和罗马数字分析。这篇博文涵盖了我最近的一篇论文,其中我介绍了一种名为 MusGConv 的新图卷积块,专门用于处理乐谱数据。MusGConv 利用音乐感知原理来提高应用于音乐理解任务的图神经网络中图卷积的效率和性能。理解问题 MIR 中的传统方法通常依赖于音乐的音频或符号表示。虽然音频可以捕捉随时间变化的声波强度,但 MIDI 文件或乐谱等符号

使用 AI 为冰球增添趣味:使用计算机视觉进行球员跟踪

Spicing up Ice Hockey with AI: Player Tracking with Computer Vision

使用 PyTorch、计算机视觉技术和卷积神经网络 (CNN),我开发了一个跟踪球员、球队和基本表现统计数据的模型。如今,我不再像自己想的那样经常打曲棍球,但从小它就成了我的一部分。最近,我有机会在利马举行的第一届冰球锦标赛 (3 对 3) 中帮助裁判桌并记录一些统计数据。这项赛事涉及秘鲁直排轮滑球协会 (APHL) 的非凡努力和友谊联盟的亲切访问。为了增加 AI 元素,我使用 PyTorch、计算机视觉技术和卷积神经网络 (CNN) 构建了一个跟踪球员和球队并收集一些基本表现统计数据的模型。本文旨在成为设计和部署模型的快速指南。虽然该模型仍需要进行一些微调,但我希望它可以帮助任何人了解计算机

实践中的跟踪:代码、数据和 ML 模型

Tracking in Practice: Code, Data and ML Model

MLOps 中的跟踪指南继续阅读 Towards Data Science »

兴奋剂:一种测试异常值检测器的技术

Doping: A Technique to Test Outlier Detectors

使用精心制作的合成数据来比较和评估异常值检测器本文继续我的异常值检测系列,继“计数异常值检测器”和“频繁模式异常值因子”之后,还提供了我书“Python 中的异常值检测”的另一段摘录。在本文中,我们将研究测试和评估异常值检测器的问题,这是一个众所周知的难题,并提出一种解决方案,有时称为掺杂。使用掺杂,实际数据行(通常)被随机修改,但修改方式可以确保它们在某些方面可能是异常值,因此应该由异常值检测器检测到。然后,我们可以通过评估探测器检测掺杂记录的能力来评估探测器。在本文中,我们专门研究表格数据,但同样的想法也可以应用于其他模态,包括文本、图像、音频、网络数据等。测试和评估其他类型的模型如果您熟

在 TensorFlow(和 PyTorch)中实现神经网络

Implementing Neural Networks in TensorFlow (and PyTorch)

构建神经网络的分步代码指南继续阅读 Towards Data Science »

TensorFlow Transform:确保生产中的无缝数据准备

TensorFlow Transform: Ensuring Seamless Data Preparation in Production

利用 TensorFlow Transform 扩展用于生产环境的数据管道照片由 Suzanne D. Williams 在 Unsplash 上拍摄数据预处理是任何机器学习管道的主要步骤之一。Tensorflow Transform 可帮助我们在分布式环境中通过庞大的数据集实现它。在进一步介绍数据转换之前,数据验证是生产管道流程的第一步,这已在我的文章《在生产管道中验证数据:TFX 方式》中介绍过。请阅读本文以更好地理解本文。我已在此演示中使用 Colab,因为配置环境更容易(也更快)。如果您处于探索阶段,我也会推荐 Colab,因为它可以帮助您专注于更重要的事情。ML 管道操作从数据提取和

NLP:房产租赁清单上的文本摘要和关键字提取 - 第 1 部分

NLP: Text Summarization and Keyword Extraction on Property Rental Listings — Part 1

NLP:房产租赁清单上的文本摘要和关键字提取 - 第 1 部分文本摘要、NER、主题建模和文本分类等 NLP 技术在租赁清单数据上的实际应用简介自然语言处理 (NLP) 可以显著增强租赁清单描述的分析和可用性。在本练习中,我们将探索文本摘要、命名实体识别 (NER) 和主题建模等 NLP 技术的实际应用,以提取见解并丰富东京 Airbnb 房源数据中的房源描述。使用公开可用的数据和 spaCy 和 SciKit-Learn 等工具,您可以跟着做,重现结果,或将这些技术应用于您自己的文本数据,只需进行最少的调整。代码库可在 GitHub 上找到,您可以 fork 并进行试验。本文演示了如何使用各

LLM 的表现是否由他们的遗传密码预先决定?

Is LLM Performance Predetermined by Their Genetic Code?

探索系统发育算法来预测大型语言模型的未来继续阅读 Towards Data Science »

创意画布:使用 AI 绘制、编辑和风格化图像

Creative Canvas: Using AI to Paint, Edit, and Stylize Images

我探索了商业和开源照片编辑系统,以创造性地使用 AI 图像转换继续阅读 Towards Data Science »

这张航拍图像中有多少辆汽车?让我们从头开始使用 YOLOv8 来计算它们!

How Many Cars Are in This Aerial Imagery? Let’s Count Them with YOLOv8 from Scratch!

从 A 到 Z 的分步指南,用于在自定义数据库上部署 YOLOv8 进行对象检测和计数。继续阅读 Towards Data Science »

AI 正在吞噬你的算法

AI Is Eating Your Algorithms

简单的即时工程如何取代自定义软件继续阅读 Towards Data Science »

掌握这项数据科学技能,您将在大型科技公司找到一份工作——第一部分

Master This Data Science Skill and You Will Land a Job In Big Tech— Part I

我从与科技行业最优秀的人合作中学到的实验基础知识继续阅读 Towards Data Science »

周末 AI 项目:在 PC 和 Raspberry Pi 上使用 YOLO 进行对象检测

A Weekend AI Project: Object Detection with YOLO on PC and Raspberry Pi

在不同的硬件上运行最新的 YOLO v10 模型继续阅读 Towards Data Science »

测试 Unitree Go-1 的现场能力

Testing the Field Capabilities of the Unitree Go-1

宣传视频很棒,但将机器狗带到野外到底是什么感觉?继续阅读 Towards Data Science »

聚类失败的原因

Why Clustering Fails

以及如何修复它继续阅读 Towards Data Science »

简化 AI 训练:基本数学解释

AI Training Simplified: The Essential Mathematics Explained

作者提供的图片人工智能训练中使用的数学逻辑的图解概述了解事物的工作原理总是有益的。在本文中,我将对训练人工智能模型中使用的基本数学逻辑进行非常简单的概述。我保证,如果您受过基础教育,以下示例将是可以理解的,并且您将对人工智能领域有更好的了解。创建用于销售预测的人工智能假设我们想要创建一个新的人工智能模型来预测公司的销售收入。我们有过去两个月的销售收入、广告费用和产品价格的数据。作者提供的图片换句话说,我们想要创建一个模型,告诉我们我们的销售收入如何取决于我们产品的价格和广告费用。例如,使用这样的工具,营销专家可以计算如果他们在广告上花费 50 欧元并将产品价格设定为 6 欧元,预期的销售收入。