走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

为什么感觉不可能获得数据科学工作

Why It Feels Impossible to Get a Data Science Job

市场艰难的原因以及您可以采取的措施继续阅读 Towards Data Science »

Python + Google Earth Engine

Python + Google Earth Engine

如何清理巴西任何 Shapefile 的 MapBiomas LULC 栅格图 1:AC 波尔图阿克里的土地利用和土地覆盖(1985-2022 年)。自制,使用 MapBiomas LULC Collection 8。如果您曾经处理过巴西的土地使用数据,那么您肯定遇到过 MapBiomas²。他们的遥感团队开发了一种算法,用于对巴西(现在包括南美洲和印度尼西亚大部分地区)每块 30m x 30m 领土的土地使用进行分类。九年后,他们提供了各种产品,包括 MapBiomas LCLU(我们将在这里探索)、MapBiomas Fire、MapBiomas Water、MapBiomas Irrig

如何交付成功的数据科学咨询项目

How to Deliver Successful Data Science Consulting Projects

关于如何成功开展数据科学咨询项目并建立持久客户关系的关键建议图片由作者使用 DALL-E 生成引言我并不羞于这么说:数据科学咨询并不总是那么容易!它可能很残酷——尤其是在高层,当您需要创造销售以保持竞争力时。即使让客户满意是您的首要任务,但对于数据科学项目来说,做到这一点并不总是一件容易的事。回顾十多年来提供数据科学和数据工程项目的经历——其中大部分是作为顾问——我看到项目为客户带来了令人难以置信的价值,但我也看到项目跌跌撞撞,结果平庸,通常是由于计划不周、期望不一致和技术困难。很明显,成功的数据科学咨询不仅仅是成为 Python 和 R 奇才——在 Hackerrank 数据科学编程竞赛中取

作为数据科学经理学到的经验教训以及我为什么要回到个人贡献者角色

Lessons Learned as a Data Science Manager and Why I’m Moving Back to an Individual Contributor Role

我问自己的三个问题帮助我选择了职业道路继续阅读 Towards Data Science »

您不需要 LLM 代理

You Don’t Need an LLM Agent

原因与替代方案继续阅读 Towards Data Science »

时间序列对于 LLM 来说并没有那么不同

Time Series Are Not That Different for LLMs

利用 LLM 的力量进行时间序列建模基础模型推动了计算语言学和计算机视觉领域的最新进步,并在人工智能 (AI) 中取得了巨大成功。成功的基础模型的关键思想包括:海量数据:庞大而多样的训练数据涵盖了全面的分布,使模型能够近似任何潜在的测试分布。可转移性:记忆和回忆所学信息的机制,例如提示 [1] 和自我监督的预训练 [2],使模型能够有效地适应新任务。在 LLM 成功之后,时间序列基础模型的开发变得更加密集。图片来自论文 https://arxiv.org/pdf/2403.14735.大型时间序列基础模型 (LTSM)随着基础模型在计算语言学领域的成功,越来越多的研究工作旨在在另一种类型的序列

3 个强大的 SQL 查询用于处理日期时间数据

3 Powerful SQL Queries To Work With Date-Time Data

使用它们进行有效的趋势分析并获得决策驱动洞察继续阅读 Towards Data Science »

彩虹:深度 Q 网络的多彩演变

Rainbow: The Colorful Evolution of Deep Q-Networks

在 JAX 中组装 DQN Megazord 所需的一切。“彩虹 Megazord”,Dall-E 32013 年,Mnih 等人引入了深度 Q 网络 (DQN)。[1] 标志着深度强化学习的首次突破,在三款 Atari 游戏中超越了人类专家玩家。多年来,DQN 的几种变体相继发布,每种变体都针对原始算法的特定弱点进行了改进。2017 年,Hessel 等人。[2]通过结合 6 种强大的变体,充分利用了 DQN 调色板,打造出所谓的 DQN Megazord:Rainbow。在本文中,我们将分解组成 Rainbow 的各个组件,同时回顾它们在 Stoix 库中的 JAX 实现。DQNRainb

使用评估来优化 RAG 管道:从分块和嵌入到 LLM

Using Evaluations to Optimize a RAG pipeline: from Chunkings and Embeddings to LLMs

使用 Milvus 矢量数据库的最佳实践 RAG,第 2 部分继续阅读 Towards Data Science »

运行本地 LLM 比您想象的更有用、更容易

Running Local LLMs is More Useful and Easier Than You Think

使用 Python 在本地运行 Llama3 的分步指南继续阅读 Towards Data Science »

扩展您的 RAG:使用 LanceDB 和 Candle 的 Rust 驱动索引管道

Scale Up Your RAG: A Rust-Powered Indexing Pipeline with LanceDB and Candle

为大规模文档处理构建高性能嵌入和索引系统照片由 Marc Sendra Martorell 在 Unsplash 上拍摄1. 简介最近,检索增强生成 (或简称 RAG) 已成为使用大型语言模型构建生成式 AI 应用程序的事实标准。RAG 通过确保生成模型使用适当的上下文来增强文本生成,同时避免了为同一任务微调 LLM 所涉及的时间、成本和复杂性。RAG 还允许更有效地使用外部数据源并更轻松地更新模型的“知识”。尽管基于 RAG 的 AI 应用程序通常可以使用更适中或更小的 LLM,但它们仍然依赖于嵌入和索引所需知识库的强大管道,以及能够有效地检索并将相关上下文注入模型提示。在许多用例中,可以使

使用 Python 的 GenAI:LLM 与代理

GenAI with Python: LLM vs Agents

创建一个 AI 小队,无需 GPU 即可在笔记本电脑上自动执行任何操作继续阅读 Towards Data Science »

让指标变得重要

Make Metrics Matter

数据专业人员如何提高其最强大资产的影响力继续阅读 Towards Data Science »

计算机视觉和对象检测有什么新东西?

What’s New in Computer Vision and Object Detection?

是否想写出您的第一篇 TDS 文章?我们始终欢迎新作者的投稿。在开始本周的精彩文章选集之前,我们想花点时间感谢所有读者、作者和更广泛社区的成员,感谢他们帮助我们实现一个重要的里程碑,因为我们的关注者指望 Medium 刚刚实现……我们非常激动——并感谢所有支持我们使 TDS 成为蓬勃发展、以学习为重点的出版物的人。祝愿未来有更多的成长和探索!回到我们的常规业务,我们选择了三篇最近的文章作为本周的亮点,重点介绍了计算机视觉和物体检测等令人兴奋的领域的尖端工具和方法。随着多模态模型的覆盖范围不断扩大,自动驾驶、医疗保健和农业等用例成为主流,数据和机器学习从业者必须随时了解最新发展。(如果您现在对其

如何使用数学编程解决资产存储问题

How to Solve an Asset Storage Problem with Mathematical Programming

使用 Python 和 Gurobipy 解决二维分类问题继续阅读 Towards Data Science »

生成式 AI 隐私风险

Generative AI Privacy Risks

大型语言模型 (LLM) 的隐私风险继续阅读 Towards Data Science »

促进工程实现认知灵活性

Prompt Engineering for Cognitive Flexibility

使用 MMLU-Pro 进行实验的实用见解和分析来源:图片由作者提供,由 MidJourney 生成简介开发能够像人类一样思考、计划和决策等的 AI 代理是当前研究和讨论的一个突出领域。目前,LLM 已成为这些代理的基础构建块。随着我们追求越来越复杂的能力,无论使用哪种法学硕士,我们不可避免地会一遍又一遍地遇到相同类型的问题,包括:模型是否具有准确高效地完成任务所需的知识?如果有适当的知识,我们如何可靠地激活它?模型是否能够模仿复杂的认知行为,例如推理、规划和决策,达到可接受的熟练程度?本文通过我最近进行的一项利用最新 MMLU-Pro 基准的小型实验来探讨这些问题。研究结果带来了一些关于认知

迈向单义性:迈向理解大型语言模型的一步

Towards Monosemanticity: A Step Towards Understanding Large Language Models

理解机械可解释性研究问题并对这些大型语言模型进行逆向工程上下文人工智能研究人员的主要问题之一是了解这些大型语言模型的工作原理。从数学上讲,我们对不同神经网络权重如何相互作用并产生最终答案有一个很好的答案。但是,直观地理解它们是人工智能研究人员旨在回答的核心问题之一。这很重要,因为除非我们了解这些 LLM 的工作原理,否则很难解决 LLM 对齐和人工智能安全等问题,也很难对 LLM 进行建模以解决特定问题。理解大型语言模型如何工作的问题被定义为机械可解释性研究问题,核心思想是我们如何对这些大型语言模型进行逆向工程。Anthropic 是在理解这些大型模型方面取得巨大进步的公司之一。主要问题是这些