走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

联合学习奖励和策略:具有... 的迭代逆强化学习框架

Jointly learning rewards and policies: an iterative Inverse Reinforcement Learning framework with…

联合学习奖励和策略:具有排序合成轨迹的迭代逆强化学习框架一种新颖的可处理和可解释算法,用于从专家演示中学习照片由 Andrea De Santis 在 Unsplash 上拍摄简介模仿学习最近在机器学习社区中引起了越来越多的关注,因为它能够通过观察到的行为将专家知识转移到自主代理。第一类算法是行为克隆 (BC),旨在直接复制专家演示,将模仿过程视为监督学习任务,其中代理尝试匹配专家在给定状态下的行为。虽然 BC 简单且计算效率高,但它经常受到过度拟合和泛化能力差的影响。相比之下,逆强化学习 (IRL) 通过推断奖励函数来瞄准专家行为的潜在意图,该奖励函数可以解释专家的行为在考虑的环境中是最佳的

数据职业的四大支柱

The Four Pillars of a Data Career

获得入门级数据分析师职位的技术基础照片由 Jon Tyson 在 Unsplash 上拍摄TLDR;电子表格 (Excel)SQL 可视化工具 (Tableu 或 Power BI)脚本语言 (Python 或 R)简介试图进入数据领域的人经常问我,他们需要学习哪些技能才能获得第一份数据工作,以及他们应该在哪里学习这些技能。这篇文章是我在过去 5 年里为有抱负的数据科学家、分析师和工程师提供的建议的提炼。本文主要面向希望获得第一份数据工作机会的自学成才的数据骑师。如果你正在阅读这篇文章,那么你的第一份工作很可能就是分析师。数据领域的大多数入门级职位都是分析师,我不认为数据科学家或数据工程师是入

使用爬山法解决经典的世界大赛投注问题

Solving the classic Betting on the World Series problem using hill climbing

使用爬山法解决经典的世界职业棒球大赛投注问题爬山法的简单示例 — 解决没有优化技术就难以解决的问题世界职业棒球大赛投注是一个古老、有趣且具有挑战性的难题。这也是一个展示优化技术(称为爬山法)的好问题,我将在本文中介绍该技术。爬山法是一种成熟且相对简单的优化技术。网上还有许多其他使用它的示例,但我认为这个问题允许对该技术进行有趣的应用,值得一看。在加州大学戴维斯分校托管的页面上可以看到这个谜题。为了节省您的查找时间,我将在此重复:[E. Berlekamp] 世界职业棒球大赛投注。您是一名经纪人;您的工作是满足客户的愿望,而不会让您的任何个人资本面临风险。您的客户希望对世界职业棒球大赛的结果下

适用于任何拉米牌变体的核心 AI

Core AI For Any Rummy Variant

拉米纸牌 AI 的分步指南作者使用 DALL-EMotivation 生成的图像当我正在为拉米纸牌游戏开发强化学习 (RL) 模型时,我到了需要 AI 对手进行环境设置并为模型训练做出贡献的阶段。然而,在网上搜索后,我发现为拉米纸牌游戏创建 AI 的资源有限,而且可用的少数解决方案对我来说太慢了。由于 AI 将用于训练,(没有它,训练时间已经很长),因此 AI 需要在处理速度和内存使用方面快速高效地运行。不用说,蛮力解决方案根本行不通,所以我不得不尝试各种算法和优化技术来实现适合训练的复杂性和速度。那么为什么要阅读这些文章?我们将在这里构建的是通用的、适应性强的,适用于您可能正在开发的几乎任何

顶级数据科学职业问题解答

Top Data Science Career Questions, Answered

我做数据科学家已经 3 年多了。这是大多数人想了解的关于这个领域的事情。继续阅读《走向数据科学》»

是否索引

To Index or Not to Index

利用 SQL 索引来加快查询速度。了解何时索引、何时不索引以及索引在后台如何工作。继续阅读 Towards Data Science »

如何使用 gRAG 查询 LLM 知识图谱

How to Query a Knowledge Graph with LLMs Using gRAG

Google、Microsoft、LinkedIn 和许多其他科技公司都在使用 Graph RAG。为什么?让我们通过从头开始构建一个来理解它。继续阅读 Towards Data Science »

操作和分析数据

Operational and Analytical Data

有什么区别,我们应该如何处理企业中的数据?继续阅读 Towards Data Science »

重新思考 LLM 基准:测量训练数据之外的真实推理

Rethinking LLM Benchmarks: Measuring True Reasoning Beyond Training Data

Apple 的新 LLM 基准 GSM-Symbolic继续阅读 Towards Data Science »

探索递归艺术:上下文无关的分形

Exploring Recursive Art: Fractals with Context Free

使用简单规则和形状生成复杂图像继续阅读 Towards Data Science »

为 AI 文本和合成蛋白质添加水印:打击错误信息和生物恐怖主义

Watermarking for AI Text and Synthetic Proteins: Fighting Misinformation and Bioterrorism

Nataliya Smirnova 在 UnSplash 上拍摄的彩色病毒突变图像 人工智能文本和合成蛋白的水印 机器学习工程师了解人工智能在生物领域的应用 错误信息和生物恐怖主义并不是新威胁,但它们的规模和易用性迅速增加。法学硕士让制造挑拨离间自主聊天机器人变得轻而易举,而生成蛋白质设计模型则大大扩大了能够进行生物战的参与者的数量。作为一个社会,我们需要的工具多种多样,但一个重要的组成部分是我们检测它们存在的能力。这就是水印的作用所在。水印或数字水印与用来劫持您孩子的学校照片的物理水印不同,是一种用于识别所有权的秘密信号。有效的水印必须坚固耐用,经得起修改,同时在没有专门方法的情况下无法被检

生命的幻觉

An Illusion of Life

现有的人工智能可能有知觉吗?如果没有,那还缺少什么?当今的大型语言模型 (LLM) 已经非常擅长生成听起来深思熟虑且聪明的类似人类的响应。许多人都认为 LLM 已经达到了艾伦·图灵著名测试的门槛,该测试的目标是在对话中表现得与人无异。这些 LLM 能够生成听起来深思熟虑且聪明的文本,并且可以令人信服地模仿情绪的表现。智能的幻觉尽管它们能够令人信服地模仿人类的对话,但当前的 LLM 不具备思考或情感的能力。它们产生的每个单词都是基于从大量文本数据中学习到的统计模式的预测。随着每个单词一次生成,此预测过程会重复发生。与人类不同,LLM 无法记忆或自我反思。它们只是按顺序输出下一个单词。预测下一个单

超越数学和 Python:您应该培养的其他关键数据科学技能

Beyond Math and Python: The Other Key Data Science Skills You Should Develop

想要写出你的第一篇 TDS 文章吗?我们随时欢迎新作者的投稿。通往数据科学成功的路线图提供了许多不同的路径,但其中大多数都重点关注数学和编程技能(例如:Saankhya Mondal 本周早些时候发布的这份针对有抱负的数据专业人士的优秀指南)。但是,一旦你在这些领域打下了基础,下一步是什么?数据科学家需要在哪些主题上积累专业知识,才能在拥挤的就业市场中脱颖而出?我们每周的亮点将聚焦于你可能希望在未来几周和几个月内探索的一些领域,并提供来自广泛行业和学术角色的作者的可行建议。从掌握数据基础设施的来龙去脉到拓展讲故事的技能,让我们仔细看看其中一些边缘但仍然至关重要的潜在增长领域。超越技能:释放数据

优化 PySpark 中的数据处理性能

Optimizing the Data Processing Performance in PySpark

PySpark 技术和策略解决常见的性能挑战:实践演练Apache Spark 近年来凭借其强大的分布式数据处理能力成为领先的分析引擎之一。PySpark 是 Spark 的 Python API,通常用于个人和企业项目以解决数据挑战。例如,我们可以使用 PySpark 高效地实现时间序列数据的特征工程,包括提取、提取和可视化。然而,尽管它能够处理大型数据集,但在极端数据分布和复杂的数据转换工作流等各种情况下仍然会出现性能瓶颈。本文将研究使用 Databricks 上的 PySpark 进行数据处理时的各种常见性能问题,并介绍各种微调策略以实现更快的执行速度。照片由 Veri Ivanova

随机森林解释:带有代码示例的可视化指南

Random Forest, Explained: A Visual Guide with Code Examples

集成学习使用随机树进行复杂的预测决策树分类器说明:带有代码示例的可视化指南,适合初学者决策树是机器学习的一个很好的起点 — — 它们清晰且有意义。但有一个问题:它们在处理新数据时往往效果不佳。预测可能不一致且不可靠,这在您尝试构建有用的东西时是一个真正的问题。这就是随机森林的用武之地。它吸收了决策树的优点,并通过将多棵树组合在一起使它们更好地工作。它已成为许多数据科学家最喜欢的工具,因为它既有效又实用。让我们看看随机森林是如何工作的,以及为什么它可能正是您下一个项目所需要的。现在是时候停止迷失在树木中,看看森林的真面目了 — — 这是您在机器学习中的下一个可靠工具。所有视觉效果:作者使用 Ca

使用 Amazon Bedrock 上的 GenAI 对 Jira 工单进行分类

Classify Jira Tickets with GenAI On Amazon Bedrock

使用快速工程和大型语言模型 (LLMS) 替代传统的 NLP 方法,用于 Jira 票证文本分类。代码示例演练照片由 Annie Spratt 在 Unsplash 上拍摄还记得分类文本意味着踏上机器学习之旅的日子吗?如果您在 ML 领域待的时间足够长,您可能已经目睹了至少一个团队在构建“完美”文本分类系统的兔子洞中消失。故事通常是这样的:第 1 个月:“我们只需快速训练一个 NLP 模型!”第 2 个月:“我们需要更多的训练数据……”第 3 个月:“这已经足够好了”多年来,文本分类已经落入了经典 ML 的范畴。在我职业生涯的早期,我记得训练了一个支持向量机 (SVM) 来进行电子邮件分类。大

减小 AI 模型的大小

Reducing the Size of AI Models

在边缘设备上运行大型 AI 模型使用 Pixlr 创建的图像AI 模型,尤其是大型语言模型 (LLM),需要大量的 GPU 内存。例如,对于 2024 年 7 月发布的 LLaMA 3.1 模型,内存要求如下:80 亿参数模型需要 16 GB 内存(16 位浮点权重)更大的 4050 亿参数模型需要 810 GB(使用 16 位浮点数)在全尺寸机器学习模型中,权重表示为 32 位浮点数。现代模型具有数亿到数百亿(甚至数千亿)的权重。训练和运行如此大的模型非常耗费资源:它需要大量的计算(处理能力)。它需要大量的 GPU 内存。它会消耗大量的能源,特别是,造成这种能源消耗的最大因素是:- 使用 3

让光明照耀!扩散模型和重新点亮的未来

Let There Be Light! Diffusion Models and the Future of Relighting

在这篇关于场景编辑的深入博客中,了解尖端扩散模型如何处理重新照明、协调和阴影消除。照片由 Brian Aitkenhead 在 Unsplash 上拍摄。重新照明是在给定输入场景的情况下,在指定的目标照明条件下渲染场景的任务。这是计算机视觉和图形学中的关键任务。然而,这是一个不适定问题,因为场景中物体的外观是由光源、几何形状和表面材料属性等因素之间的复杂相互作用产生的。这些相互作用产生了歧义。例如,给定一个场景的照片,物体上的黑点是由于照明投射的阴影造成的,还是材料本身的颜色很暗?区分这些因素是有效重新照明的关键。在这篇博文中,我们讨论了不同的论文如何通过扩散模型解决重新照明问题。重新照明包含