走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

数据科学家:从学校到工作,第一部分

Data Scientist: From School to Work, Part I

如今,数据科学项目并未以概念证明结束;每个项目的目标都是用于生产。因此,提供高质量的代码很重要。我已经担任数据科学家已经有十多年了,我注意到[…]邮政数据科学家:从学校到工作,我的水平通常很弱,我首先出现在数据科学方面。

如何微调Distilbert进行情感分类

How to Fine-Tune DistilBERT for Emotion Classification

客户支持团队在我工作的每家公司的客户询问中淹没了大量的客户查询。您有类似的经历吗?如果我告诉您您可以使用AI自动识别,分类甚至解决最常见的问题怎么办?通过微调诸如Bert之类的变压器模型,您可以构建[…]如何微调Distilbert进行情感分类的帖子首先出现在数据科学上。

学习如何通过深神经网络玩Atari游戏

Learning How to Play Atari Games Through Deep Neural Networks

1959年7月,亚瑟·塞缪尔(Arthur Samuel)开发了最早玩跳棋游戏的代理商之一。可以用塞缪尔(Samuel)自己的话说:“……可以对其进行编程的计算机,以便它可以学会玩更好的跳棋游戏的计算机比[…]通过深度神经网络玩Atari游戏,首先出现在数据科学方面。

老实说不确定

Honestly Uncertain

道德问题,当被问及您对某种信念有多确定时,您是否应该诚实?当然,这取决于。在这篇博客文章中,您将了解什么。一款概率测验游戏David Spiegelhalter的新(截至2025年)出色的书《不确定性的艺术》(The Art of Nefrantistion) - 对于每个处理概率及其交流的人来说,这是必读的[…]诚实不确定的帖子首先出现在数据科学方面。

空间计算中的设备机学习

On-Device Machine Learning in Spatial Computing

随着空间计算平台(VR和AR)的出现,计算的景观正在经历深刻的转变。随着我们进入这个新时代,虚拟现实,增强现实和设备机器学习的交汇处为开发人员提供了前所未有的机会,可以创建将数字内容与物理世界无缝融合的体验。引言[…]空间计算中的邮政设备机学习首先出现在数据科学方面。

我如何成为机器学习工程师(无CS学位,没有训练营)

How I Became A Machine Learning Engineer (No CS Degree, No Bootcamp)

机器学习和AI是当今最受欢迎的主题之一,尤其是在技术领域。我很幸运能够每天作为机器学习工程师工作和开发这些技术!在本文中,我将带您走进成为机器学习工程师的旅程,散发出一些灯光和建议[…]我如何成为机器学习工程师的帖子(无CS学位,无训练训练训练训练)首先出现在数据科学上。

成为数据科学家的路线图,第4部分:高级机器学习

Roadmap to Becoming a Data Scientist, Part 4: Advanced Machine Learning

引言数据科学无疑是当今最迷人的领域之一。大约十年前,在机器学习方面取得了重大突破之后,数据科学在技术界的普及激增。每年,我们都会看到越来越强大的工具,这些工具曾经似乎无法想象。诸如变压器体系结构,chatgpt,检索型发电(RAG)框架和最先进的计算机视觉模型(包括gans)之类的创新具有[…]成为数据科学家的后路线图,第4部分:先进的机器学习首先出现在数据科学方面。

建立数据工程卓越中心

Building a Data Engineering Center of Excellence

随着数据的重要性不断增长并变得更加复杂,对熟练的数据工程师的需求从未有所更大。但是什么是数据工程,为什么如此重要?在这篇博客文章中,我们将讨论功能运转的数据工程实践的基本组成部分,以及为什么数据工程变得越来越多的[…]建立数据工程卓越中心的帖子首先出现在数据科学方面。

从机器学习工程师那里学习 - 第5部分:培训

Learnings from a Machine Learning Engineer — Part 5: The Training

在我系列的第五部分中,我将概述创建一个用于培训图像分类模型,评估性能和准备部署的docker容器的步骤。 AI/ML工程师希望专注于模型培训和数据工程,但现实是,我们还需要了解基础架构和力学[…]从机器学习工程师那里进行的邮政学习 - 第5部分:培训首先出现在朝向数据科学。

从机器学习工程师那里学习 - 第3部分:评估

Learnings from a Machine Learning Engineer — Part 3: The Evaluation

在我系列的第三部分中,我将探索评估过程,这是一个关键部分,它将导致更清洁的数据集并提高模型性能。我们将看到对训练有素的模型的评估(尚未生产)和对部署模型的评估(一个做真实的预测)之间的区别。在第1部分中,[…]从机器学习工程师那里学习的帖子学习 - 第3部分:评估首先是针对数据科学的。

从机器学习工程师那里学习 - 第1部分:数据

Learnings from a Machine Learning Engineer — Part 1: The Data

据说,要使机器学习模型成功,您需要拥有良好的数据。尽管这是真的(而且很明显),但很难定义,构建和维持良好的数据。让我与您分享几年来我学到的独特过程[…]从机器学习工程师那里进行的帖子学习 - 第1部分:数据首先出现在数据科学方面。

从机器学习工程师那里学习 - 第4部分:模型

Learnings from a Machine Learning Engineer — Part 4: The Model

在我系列的最新部分中,我将分享我在选择图像分类模型以及如何微调该模型时所学到的知识。我还将展示如何利用模型来加速您的标签过程,最后如何通过产生用法和性能来证明您的努力合理[…]从机器学习工程师那里进行的帖子学习 - 第4部分:该模型首先出现在朝向数据上。科学。

从机器学习工程师那里学习 - 第2部分:数据集

Learnings from a Machine Learning Engineer — Part 2: The Data Sets

在第1部分中,我们讨论了收集良好图像数据并为您的图像分类项目分配适当标签的重要性。另外,我们讨论了您数据的类和子类。这些似乎很简单,但是要对未来有一个扎实的理解很重要。因此,如果您还没有,请[…]从机器学习工程师那里进行的帖子学习 - 第2部分:数据集首先出现在数据科学上。

数据科学家应该关心量子计算吗?

Should Data Scientists Care About Quantum Computing?

我确信量子炒作已经影响到了科技界的每个人(很可能也影响到了科技界以外的每个人)。有些夸张的说法,比如“某家公司已经证明了量子霸权”、“量子革命已经到来”,或者我最喜欢的说法“量子计算机已经到来,它将取代传统计算机”。我会诚实地告诉你;[…]文章《数据科学家应该关心量子计算吗?》首先出现在 Towards Data Science 上。

使用 Python 代码进行矩估计法

Method of Moments Estimation with Python Code

假设您在客户服务中心,并且想要知道每分钟呼叫次数的概率分布,或者换句话说,您想要回答这个问题:每分钟接到零个、一个、两个……等呼叫的概率是多少?您需要此分布才能 […] 使用 Python 代码进行矩估计法的帖子首先出现在 Towards Data Science 上。

如何衡量大型语言模型响应的可靠性

How to Measure the Reliability of a Large Language Model’s Response

大型语言模型 (LLM) 的基本原理非常简单:根据训练数据中的统计模式预测单词序列中的下一个单词(或标记)。然而,当它可以执行许多令人惊叹的任务(例如文本摘要)时,这种看似简单的功能却变得非常复杂 […] 如何衡量大型语言模型响应的可靠性一文首先出现在 Towards Data Science 上。

Pandas 无法处理这个问题:ArcticDB 如何为海量数据集提供支持

Pandas Can’t Handle This: How ArcticDB Powers Massive Datasets

Python 已经发展成为数据科学的主导,其包 Pandas 已成为数据分析的首选工具。它非常适合表格数据,如果您有大容量 RAM,它支持高达 1GB 的数据文件。在这些大小限制内,它也适用于时间序列数据,因为它带有一些[…]帖子 Pandas 无法处理这个问题:ArcticDB 如何为海量数据集提供支持首先出现在 Towards Data Science 上。

分支:用于协作 ML 的 4 个 Git 工作流

Branching Out: 4 Git Workflows for Collaborating on ML

完成硕士学位已经 15 年多了,但我仍然被管理 R 脚本的令人抓狂的挫败感所困扰。作为一个(正在恢复的)完美主义者,我非常系统地按日期命名每个脚本(想想:ancova_DDMMYYYY.r)。我*知道*的系统比 _v1、_v2、_final 及其敌人更好。对吗?问题是,每次我想 […]The post Branching Out: 4 Git Workflows for Collaborating on ML 最先出现在 Towards Data Science 上。