走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

使用离线强化学习试用在线平台干预

Using Offline Reinforcement Learning To Trial Online Platform Interventions

离线强化学习和模拟以制定在线参与策略继续阅读数据科学 »

动态执行

Dynamic Execution

让您的 AI 任务区分困难和简单问题在这篇立场文件中,我讨论了一个前提,即许多潜在的性能增强都被搁置了,因为我们通常不解决动态执行的潜力。我想我需要首先定义在这种情况下什么是动态执行。正如你们许多人无疑知道的那样,我们经常通过仔细研究模型本身以及可以做些什么来使该模型的处理更高效(可以通过更低的延迟、更高的吞吐量和/或节能来衡量)来解决性能优化问题。这些方法通常解决模型的大小问题,因此我们会寻找压缩模型的方法。如果模型较小,则内存占用和带宽要求会得到改善。一些方法还解决了模型中的稀疏性问题,从而避免了无关紧要的计算。不过……我们只关注模型本身。这绝对是我们想要做的事情,但是还有其他机会可以利用

过去两年我从教学技术中学到了什么

What I Learned from Teaching Tech for the Past 2 Years

为教师和导师提供有关技术教学的提示和技巧继续阅读《走向数据科学》»

当机器提前思考时:战略 AI 的崛起

When Machines Think Ahead: The Rise of Strategic AI

战略人工智能探索战略人工智能的进步以及大型语言模型如何融入大局作者使用 Canva Magic Studio 生成的图片序言1997 年 5 月 11 日,纽约市。纽约市春光明媚。天空晴朗,气温攀升至 20 摄氏度。洋基队准备在洋基体育场与堪萨斯城皇家队比赛,游骑兵队则在麦迪逊广场花园与魔鬼队对决。一切似乎都不寻常,然而,聚集在曼哈顿中城公平中心的人们即将体验到真正独特的体验。他们即将见证这一历史性事件:一台计算机将首次在标准比赛条件下击败国际象棋卫冕世界冠军。代表人类的是加里·卡斯帕罗夫,他当时被公认为世界顶级国际象棋选手。代表机器的是深蓝——IBM 开发的国际象棋计算机。进入比赛的最后一局

GraphRAG 实际应用:从商业合同到动态问答代理

GraphRAG in Action: From Commercial Contracts to a Dynamic Q&A Agent

基于问题的提取方法在这篇博文中,我们介绍了一种利用图形检索增强生成 (GraphRAG) 方法的方法 — 以简化提取商业合同数据和构建问答代理的过程。这种方法与传统的 RAG(检索增强生成)不同,它强调数据提取的效率,而不是不加区分地分解和矢量化整个文档,这是主要的 RAG 方法。在传统的 RAG 中,每个文档都被分成块并进行矢量化以进行检索,这会导致大量不必要的数据被拆分、分块并存储在矢量索引中。然而,这里的重点是从每个合同中提取最相关的信息,以用于特定用例,即商业合同审查。然后将数据构建成知识图谱,该图谱组织关键实体和关系,从而允许通过 Cypher 查询和向量搜索进行更精确的图数据检索。

如何从文档创建 RAG 评估数据集

How to Create a RAG Evaluation Dataset From Documents

使用 LLM 自动创建任何语言的特定领域数据集继续阅读 Towards Data Science »

递归 — 面向数据科学家的数据结构和算法

Recursion — Data Structures & Algorithms for Data Scientists

递归、递归、递归、递归、递归等继续阅读 Towards Data Science »

超越技能:释放数据科学家的全部潜力

Beyond Skills: Unlocking the Full Potential of Data Scientists

图片由作者通过 DALL-E / OpenAI 创建。超越技能:释放数据科学家的全部潜力。通过赋予数据科学家超越技术任务的能力来推动创新和战略洞察,释放数据科学家的隐藏价值。[本文转载自 O’Reilly Radar]简介现代组织将数据视为推动效率、增强决策能力并为客户创造新价值的战略资产。整个组织(产品管理、营销、运营、财务等)的团队都充满了关于数据如何提升业务的想法。为了将这些想法变成现实,公司热切地聘请数据科学家来发挥他们的技术技能(Python、统计、机器学习、SQL 等)。尽管热情高涨,但许多公司的数据科学家利用率却远远不足。组织仍然只专注于雇用数据科学家来执行现有的想法,而忽视了他

Softmax 函数的视觉理解

A Visual Understanding of the Softmax Function

Softmax 函数背后的数学和直觉及其在神经网络和 softmax 回归中的应用继续阅读 Towards Data Science »

论文演练:注意力就是你所需要的一切

Paper Walkthrough: Attention Is All You Need

从头开始​​实现 Transformer 的完整指南继续阅读 Towards Data Science »

您应该在未来十年内学习如何编码吗?

Should you learn how to code in the next decade?

或者 AI 会吞噬世界上所有的软件?继续阅读 Towards Data Science »

使用 PCA 进行异常值检测的简单示例

A Simple Example Using PCA for Outlier Detection

在异常值检测之前执行 PCA 转换可提高准确性、速度和内存使用率本文继续介绍使用 PCA(主成分分析)进行异常值检测的一系列应用,紧随其后的是使用 PCA 进行异常值检测。那篇文章描述了 PCA 本身,并介绍了使用 PCA 进行异常值检测的两种主要方法:评估重构误差,以及在 PCA 转换空间上运行标准异常值检测器。它还给出了第一种方法的示例,即使用重构误差,使用 PyOD 提供的 PCA 和 KPCA 检测器可以轻松完成。本文介绍了第二种方法,我们首先使用 PCA 转换数据空间,然后在此上运行标准异常值检测。正如上一篇文章所述,在某些情况下,这可能会降低可解释性,但在准确性、执行时间和内存使用

MOIRAI-MOE:使用混合专家升级 MOIRAI 以增强预测能力

MOIRAI-MOE: Upgrading MOIRAI with Mixture-of-Experts for Enhanced Forecasting

流行的基础时间序列模型刚刚更新!继续阅读 Towards Data Science »

无监督 LLM 评估

Unsupervised LLM Evaluations

从业者判断大型语言模型输出的指南评估人工智能生成的输出对于构建大型语言模型的稳健应用程序至关重要,因为它允许将复杂的人工智能应用程序拆分为具有内置错误控制的简​​单阶段。在监督模式下评估生成输出相对简单,其中“正确答案”可以由人类评估者计算或提示。同时,在许多实际的 LLM 应用中,监督方法过于严格,需要能够解决开放式问题的评估。构建无监督评估器的最简单方法是要求 LLM 自我评估。然而,生成模型检测自身输出错误的能力尚不清楚。我们证明,通过迭代自我反思可以提高自我评估的质量。与“思想链”技术类似,该方法以推理时的计算量换取最终结果的稳健性。带有示例的 Google Colab 笔记本链接:h

不受欢迎的观点:成为一名优秀的数据科学家比以往任何时候都更难

Unpopular Opinion: It’s Harder Than Ever to Be a Good Data Scientist

过去 6 年多来,我在不同公司和行业担任数据科学家的经历教会了我什么继续阅读 Towards Data Science »

关于 AWS Trainium 和 Inferentia 的可编程性

On the Programmability of AWS Trainium and Inferentia

使用自定义运算符加速 AI/ML 模型训练 — 第 4 部分照片由 Agata Bres 在 Unsplash 上拍摄在这篇文章中,我们继续探索通过自定义运算符开发来优化机器学习 (ML) 工作负载运行时的机会。这一次,我们重点介绍 AWS Neuron SDK 提供的工具,用于在 AWS Trainium 和 AWS Inferentia 上开发和运行新内核。随着推动 AI 革命的低级模型组件(例如注意层)的快速发展,用于训练和运行 ML 模型的加速器的可编程性至关重要。专用 AI 芯片必须为广泛使用且影响深远的通用 GPU (GPGPU) 开发框架(例如 CUDA 和 Triton)提供有

私下运行大型语言模型

Running Large Language Models Privately

框架、模型和成本的比较 Robert Corwin,Austin Artificial Intelligence 首席执行官 David Davalos,Austin Artificial Intelligence ML 工程师 2024 年 10 月 24 日大型语言模型 (LLM) 迅速改变了技术格局,但安全问题仍然存在,尤其是在将私人数据发送给外部第三方方面。在这篇博文中,我们深入探讨了在本地和私下(即在自己的计算机上)部署 Llama 模型的选项。我们让 Llama 3.1 在本地运行,并调查了速度、功耗和不同版本和框架中的整体性能等关键方面。无论您是技术专家还是只是对所涉及的内容感到

我作为数据分析师第一年的经验教训

Learnings from My First Year of Being a Data Analyst

关于处理统计数据、与人互动以及最大限度提高工作场所生产力的见解继续阅读《走向数据科学》»