走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

解开 AI 系统

Untangling AI systems

物理学如何帮助我们理解神经网络继续阅读 Towards Data Science »

不,您不需要新的微服务架构

No, You Don’t Need a New Microservices Architecture

因为你几乎肯定已经有一个了,但没有明确意识到它继续阅读 Towards Data Science »

GitHub:拉取请求模板

GitHub: Pull Request Template

帮助代码开发人员编写更好的拉取请求描述继续阅读 Towards Data Science »

如何创造机会并在数据科学工作申请中取得成功

How to Create Opportunities and Succeed in Data Science Job Applications

从我的成功和失败中吸取的来之不易的教训将在你的职业生涯中为你提供帮助照片由 James Lee 在 Unsplash 拍摄事实上,是否被招聘人员注意到,往往取决于你在 LinkedIn 上的定位以及你如何为招聘流程做准备。在本文中,我分享了过去几年学到的一些经验教训,这些经验教训让我获得了 Mercado Livre、亚马逊、Meta、TikTok 和 Uber 等公司的面试邀请。1. 显而易见:让招聘人员看到我我收到的大多数面试邀请都是因为在 LinkedIn 上活跃且曝光率高。我开始更定期地发帖,至少每隔几周一次,分享我的故事并与其他人的帖子互动。以下是一些关键提示。讲述你的故事(相关部分

使用本地文档运行 STORM AI 研究系统

Running the STORM AI research system with your local documents

使用本地文档运行 STORM AI 研究系统使用 FEMA 灾难响应文档进行 AI 辅助研究STORM 通过模拟对话中的角度引导提问来研究主题。来源 TL;DRLLM 代理的使用越来越普遍,用于解决多步骤长上下文研究任务,而传统的 RAG 直接提示方法有时会遇到困难。在本文中,我们将探讨斯坦福大学开发的一种新的有前途的技术,称为通过检索和多角度提问合成主题大纲 (STORM),它使用 LLM 代理模拟“角度引导对话”以达到复杂的研究目标并生成丰富的研究文章,可供人类在写作前研究中使用。STORM 最初是为了从网络来源收集信息而开发的,但也支持搜索本地文档向量存储。在本文中,我们将了解如何使用美

数据科学领导者的终极生产力系统

The Ultimate Productivity System for Data Science Leaders

一个优化您作为数据科学领导者可以提供的价值的框架继续阅读 Towards Data Science »

从洞察到影响:每个数据科学家都需要的演示技巧

From Insights to Impact: Presentation Skills Every Data Scientist Needs

如何构建、设计和交付赢得利益相关者青睐的数据演示继续阅读 Towards Data Science »

如何以及为何使用 LLM 进行基于块的信息检索

How and Why to use LLMs for Chunk-Based Information Retrieval

如何以及为何使用 LLM 进行基于块的信息检索检索管道 - 作者提供的图片在本文中,我旨在解释如何以及为何使用大型语言模型 (LLM) 进行基于块的信息检索是有益的。我以 OpenAI 的 GPT-4 模型为例,但这种方法可以应用于任何其他 LLM,例如 Hugging Face、Claude 和其他人的模型。每个人都可以免费访问这篇文章。标准信息检索的注意事项主要概念涉及将文档列表(文本块)存储在数据库中,可以根据某些过滤器和条件进行检索。通常,使用工具来启用混合搜索(例如 Azure AI Search、LlamaIndex 等),它允许:使用 TF-IDF 等词频算法执行基于文本的搜索(

GSM-Symbolic:分析 LLM 在数学推理中的局限性和潜在解决方案

GSM-Symbolic: Analyzing LLM Limitations in Mathematical Reasoning and Potential Solutions

这篇关于 LLM 推理的论文的正确之处 — — 以及它所遗漏之处。合著者:Alex Watson、Yev Meyer、Dane Corneil、Maarten Van Segbroeck (Gretel.ai)来源:Gretel.ai简介大型语言模型 (LLM) 最近在 AI 推理方面取得了重大进展,包括数学问题解决。然而,Mirzadeh 等人最近发表的一篇题​​为“GSM-Symbolic:理解大型语言模型中数学推理的局限性”的论文提出了关于这些模型在数学推理方面的真正能力的问题。我们审查了这篇论文,发现它对正在进行的关于 AI 能力和局限性的讨论做出了宝贵的贡献,然而,我们的分析表明,它

用于气候变化分析的图像数据收集

Image Data Collection for Climate Change Analysis

初学者指南埃特纳火山的卫星图像。来源:美国地质调查局 (USGS) 在 Unsplash 上的照片。I. 简介深度学习在地球观测中成功传播。它的成就导致了更复杂的架构和方法。然而,在这个过程中,我们忽略了一些重要的东西。拥有更多优质数据比拥有更好的模型更好。不幸的是,EO 数据集的开发一直很混乱。如今,它们有数百个。尽管我们努力编译数据集,但可以说它们散布在各处。此外,EO 数据已经激增以满足非常具体的需求。矛盾的是,这正是我们应该用它们前进的相反方向,特别是如果我们希望我们的深度学习模型更好地工作的话。例如,ImageNet 编译了数千张图像以更好地训练计算机视觉模型。然而,EO 数据比 I

SeqRAG:为我们其他人提供代理

SeqRAG: Agents for the Rest of Us

顺序检索增强生成:用于顺序规划和 RAG 的实用 AI 代理架构继续阅读 Towards Data Science »

比较 Pandas 和 (%%SQL) 在 Python 中的数据分析

Comparing Pandas and (%%SQL) for Data Analysis in Python

利用 SQL 和 Pandas 从糖尿病患者记录中提取见解继续阅读 Towards Data Science »

机器学习中的线性和非线性指南

A Guide To Linearity and Nonlinearity in Machine Learning

...以及它们在决策边界、嵌入、动态系统和下一代 LLM 中的作用继续阅读 Towards Data Science »

如何像贝叶斯一样应对周末测验

How to Tackle the Weekend Quiz Like a Bayesian

您知道以下哪个是 malmsey 吗?您能猜出来吗?几周前,悉尼先驱晨报美好周末测验中出现了这个问题:malmsey 是什么:轻微宿醉、女巫的诅咒还是强化葡萄酒?假设我们对答案一无所知,在这种情况下有什么方法可以做出明智的猜测吗?我认为有。在继续阅读之前,请随意思考一下。使用 Gemini Imagen 3 创建的因强化葡萄酒而轻微宿醉的女巫我们真的没有什么可以回答这个问题的吗?看着这个词,感觉它可能意味着这些选项中的任何一个。当然,多项选择题就是为了给人这种感觉而构建的。但我们可以采取一种理性的方法,即认识到每个选项都有不同的基准利率。也就是说,暂时忘掉什么是玛姆西酒,什么不是玛姆西酒,我们

作为数据科学家,如何协商薪水

How to Negotiate Your Salary as a Data Scientist

我第一年赚了多少钱继续阅读 Towards Data Science »

AI 生产力悖论:为什么没有更多员工使用 ChatGPT?

The AI Productivity Paradox: Why Aren’t More Workers Using ChatGPT?

真正的障碍不是技术技能——是时候思考了尽管 ChatGPT 等工具具有变革潜力,但我采访过的大多数知识工作者根本不使用它。那些使用的人主要坚持总结等基本任务。只有略高于 5% 的 ChatGPT 用户群为 plus 付费——这是潜在专业用户的一小部分——这表明利用 AI 进行复杂、高价值工作的高级用户很少。在谷歌大脑和 Shopify Ads 等公司开发 AI 产品十多年后,我亲眼目睹了该领域的发展。随着 ChatGPT 的兴起,AI 已经从照片管理器等可有可无的增强功能发展成为所有知识工作者的主要生产力提升器。大多数高管都明白,今天的热议不仅仅是炒作——他们迫切希望让自己的公司向 AI 靠拢

使用 GNN 实现符号钢琴音乐中的语音和人员分离

Voice and Staff Separation in Symbolic Piano Music with GNNs

这篇文章涵盖了我最近在 ISMIR 2024 上发表的论文 Cluster and Separate: A GNN Approach to Voice and Staff Prediction for Score Engraving 背景图片最初使用 Dall-E 3 创建 简介以 MIDI 等格式编码的音乐,即使包含量化音符、拍号或小节信息,也经常缺少可视化的重要元素,例如语音和五线谱信息。这种限制也适用于音乐生成、转录或编曲系统的输出。因此,这种音乐无法轻易转换成人类音乐家可以解读和演奏的可读乐谱。值得注意的是,语音和五线谱分离只是乐谱雕刻系统可能解决的众多方面中的两个——其他方面包括音高

Gen-AI 安全概况:文本转图像模型缓解堆栈指南

Gen-AI Safety Landscape: A Guide to the Mitigation Stack for Text-to-Image Models

AI 不再狂野:了解驯服 T2I 模型的安全组件了解文本转图像 AI 模型的功能和风险文本转图像模型 (T2I) 是根据文本提示描述生成图像的 AI 系统。潜在扩散模型 (LDM) 正在成为最流行的图像生成架构之一。LDM 首先将图像压缩到“潜在空间”,这是表示图像所需的核心信息的压缩、简化表示,而无需在较少的维度上提供所有详细的像素数据。该模型从此潜在空间中的随机噪声开始,并通过称为扩散的过程逐渐将其细化为清晰的图像,由输入文本引导。LDM 用途广泛,不仅能够生成文本转图像输出,还具有修复等功能,允许用户通过简单描述所需的更改来编辑现有图像的特定部分。例如,您可以通过文本命令无缝地从照片中删