走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

揭示空间可变基因:空间转录组学的统计观点

Unraveling Spatially Variable Genes: A Statistical Perspective on Spatial Transcriptomics

该文章由Guanao Yan博士撰写。加州大学洛杉矶分校的统计与数据科学学生。 Guanao是《自然传播评论》文章[1]的第一作者。空间分辨的转录组学(SRT)通过在保留空间环境的同时实现基因表达的高通量测量来改变基因组学。与单细胞RNA测序(SCRNA-SEQ)不同,它捕获了转录组[…]揭示空间上可变基因的后期:关于空间转录组学的统计观点首先出现在数据科学上。

使用PDE的加固学习

Reinforcement Learning with PDEs

以前,我们讨论了通过在体育馆内整合ODE来将强化学习应用于普通微分方程(ODE)。 ODE是一个强大的工具,可以描述各种系统,但仅限于单个变量。部分微分方程(PDE)是涉及多个变量的衍生物的微分方程,这些变量可以涵盖更广泛的范围[…]使用PDE的强化后学习首先出现在数据科学方面。

不要让Conda吃硬盘

Don’t Let Conda Eat Your Hard Drive

如果您是Anaconda用户,则知道Conda环境可以帮助您管理包装依赖关系,避免兼容性冲突并与他人共享您的项目。不幸的是,他们也可以接管您的计算机硬盘驱动器。我编写了很多计算机教程,并为它们井井有条,每个都有一个专用的文件夹结构,并配有conda环境。这个[…]帖子不要让Conda吃您的硬盘驱动器首先出现在数据科学上。

AI代理商从零到英雄 - 第1部分

AI Agents from Zero to Hero – Part 1

Intro AI代理是执行任务,做出决定并与他人沟通的自主程序。通常,他们使用一组工具来帮助完成任务。在Genai应用程序中,这些代理会处理顺序推理,并且可以在LLM知识还不够时使用外部工具(例如Web搜索或数据库查询)。与基本的聊天机器人不同,[…]从零到英雄的邮政代理商 - 第1部分首先出现在数据科学上。

为什么数据科学家应该关心容器 - 并脱颖而出

Why Data Scientists Should Care about Containers — and Stand Out with This Knowledge

“我训练模型,分析数据并创建仪表板 - 为什么我要关心容器?”许多是数据科学界新手的人都问自己这个问题。但是,想象一下,您已经训练了一种在笔记本电脑上完美运行的模型。但是,当其他人访问其他数据科学家应该关心容器的文章时,错误消息不断弹出,而这些知识首先出现在数据科学方面。

llm

Formulation of Feature Circuits with Sparse Autoencoders in LLM

大型语言模型(LLM)见证了令人印象深刻的进步,这些大型模型可以完成各种任务,从产生类似人类的文本到回答问题。但是,了解这些模型的工作原理仍然具有挑战性,尤其是由于一种称为叠加的现象,其中特征被混合到一个神经元中,因此很难提取人类可以理解的人[…] llm中稀疏自动编码器的特征电路的配制,首先出现在LLM中迈向数据科学。

零人类代码:我从强迫AI构建(并修复)自己的代码连续27天所学到的东西

Zero Human Code: What I Learned from Forcing AI to Build (and Fix) Its Own Code for 27 Straight Days

27天,1,700多个投入,99,9%的人工智能生成的代码围绕AI开发工具的叙述已越来越脱离现实。 YouTube充满了使用AI助手在数小时内构建复杂应用程序的主张。真相?我花了27天的时间在严格的约束下构建目标距离:AI工具将处理所有编码,调试以及[…]零后人类代码:我从强迫AI构建(并修复)自己的代码连续27天中学到了什么首先出现在数据科学上。

数据科学家:从学校到工作,第一部分

Data Scientist: From School to Work, Part I

如今,数据科学项目并未以概念证明结束;每个项目的目标都是用于生产。因此,提供高质量的代码很重要。我已经担任数据科学家已经有十多年了,我注意到[…]邮政数据科学家:从学校到工作,我的水平通常很弱,我首先出现在数据科学方面。

如何微调Distilbert进行情感分类

How to Fine-Tune DistilBERT for Emotion Classification

客户支持团队在我工作的每家公司的客户询问中淹没了大量的客户查询。您有类似的经历吗?如果我告诉您您可以使用AI自动识别,分类甚至解决最常见的问题怎么办?通过微调诸如Bert之类的变压器模型,您可以构建[…]如何微调Distilbert进行情感分类的帖子首先出现在数据科学上。

学习如何通过深神经网络玩Atari游戏

Learning How to Play Atari Games Through Deep Neural Networks

1959年7月,亚瑟·塞缪尔(Arthur Samuel)开发了最早玩跳棋游戏的代理商之一。可以用塞缪尔(Samuel)自己的话说:“……可以对其进行编程的计算机,以便它可以学会玩更好的跳棋游戏的计算机比[…]通过深度神经网络玩Atari游戏,首先出现在数据科学方面。

老实说不确定

Honestly Uncertain

道德问题,当被问及您对某种信念有多确定时,您是否应该诚实?当然,这取决于。在这篇博客文章中,您将了解什么。一款概率测验游戏David Spiegelhalter的新(截至2025年)出色的书《不确定性的艺术》(The Art of Nefrantistion) - 对于每个处理概率及其交流的人来说,这是必读的[…]诚实不确定的帖子首先出现在数据科学方面。

空间计算中的设备机学习

On-Device Machine Learning in Spatial Computing

随着空间计算平台(VR和AR)的出现,计算的景观正在经历深刻的转变。随着我们进入这个新时代,虚拟现实,增强现实和设备机器学习的交汇处为开发人员提供了前所未有的机会,可以创建将数字内容与物理世界无缝融合的体验。引言[…]空间计算中的邮政设备机学习首先出现在数据科学方面。

我如何成为机器学习工程师(无CS学位,没有训练营)

How I Became A Machine Learning Engineer (No CS Degree, No Bootcamp)

机器学习和AI是当今最受欢迎的主题之一,尤其是在技术领域。我很幸运能够每天作为机器学习工程师工作和开发这些技术!在本文中,我将带您走进成为机器学习工程师的旅程,散发出一些灯光和建议[…]我如何成为机器学习工程师的帖子(无CS学位,无训练训练训练训练)首先出现在数据科学上。

成为数据科学家的路线图,第4部分:高级机器学习

Roadmap to Becoming a Data Scientist, Part 4: Advanced Machine Learning

引言数据科学无疑是当今最迷人的领域之一。大约十年前,在机器学习方面取得了重大突破之后,数据科学在技术界的普及激增。每年,我们都会看到越来越强大的工具,这些工具曾经似乎无法想象。诸如变压器体系结构,chatgpt,检索型发电(RAG)框架和最先进的计算机视觉模型(包括gans)之类的创新具有[…]成为数据科学家的后路线图,第4部分:先进的机器学习首先出现在数据科学方面。

建立数据工程卓越中心

Building a Data Engineering Center of Excellence

随着数据的重要性不断增长并变得更加复杂,对熟练的数据工程师的需求从未有所更大。但是什么是数据工程,为什么如此重要?在这篇博客文章中,我们将讨论功能运转的数据工程实践的基本组成部分,以及为什么数据工程变得越来越多的[…]建立数据工程卓越中心的帖子首先出现在数据科学方面。

从机器学习工程师那里学习 - 第5部分:培训

Learnings from a Machine Learning Engineer — Part 5: The Training

在我系列的第五部分中,我将概述创建一个用于培训图像分类模型,评估性能和准备部署的docker容器的步骤。 AI/ML工程师希望专注于模型培训和数据工程,但现实是,我们还需要了解基础架构和力学[…]从机器学习工程师那里进行的邮政学习 - 第5部分:培训首先出现在朝向数据科学。

从机器学习工程师那里学习 - 第3部分:评估

Learnings from a Machine Learning Engineer — Part 3: The Evaluation

在我系列的第三部分中,我将探索评估过程,这是一个关键部分,它将导致更清洁的数据集并提高模型性能。我们将看到对训练有素的模型的评估(尚未生产)和对部署模型的评估(一个做真实的预测)之间的区别。在第1部分中,[…]从机器学习工程师那里学习的帖子学习 - 第3部分:评估首先是针对数据科学的。

从机器学习工程师那里学习 - 第1部分:数据

Learnings from a Machine Learning Engineer — Part 1: The Data

据说,要使机器学习模型成功,您需要拥有良好的数据。尽管这是真的(而且很明显),但很难定义,构建和维持良好的数据。让我与您分享几年来我学到的独特过程[…]从机器学习工程师那里进行的帖子学习 - 第1部分:数据首先出现在数据科学方面。