走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

如何构建多目标回归模型进行宏观经济预测

How to Build a Multi-Target Regression Model for Macroeconomic Prediction

预测多项经济指标的分步指南。继续阅读 Towards Data Science »

AI 首个诺贝尔奖背后的科学

The Science Behind AI’s First Nobel Prize

物理学和机器学习如何联手赢得 2024 年诺贝尔物理学奖继续阅读 Towards Data Science »

营销组合模型 (MMM):如何避免有偏差的渠道估计

Marketing Mix Modeling (MMM): How to Avoid Biased Channel Estimates

了解在模型中应该考虑和不应该考虑哪些变量照片由 Fredrick Suwandi 在 Unsplash 上拍摄“在每个营销渠道上投资 X 美元将如何影响销售?”这是营销组合模型应该回答的因果问题,以指导公司决定未来如何分配其营销渠道预算。正如我们将看到的,这个问题的结果高度依赖于你考虑的变量:忽略重要变量或在模型中包含“错误”变量将引入偏差并导致错误的因果估计。这是一个巨大的问题,因为错误的因果估计最终会导致糟糕的营销决策和财务损失。在本文中,我想解决这个问题,并指导如何确定哪些变量应该和不应该在 MMM 中考虑,结构如下:在第 1 章中,我们将通过查看渠道估计值会根据您在模拟示例中考虑的变量

为您的数据带来结构

Bringing Structure to Your Data

使用路径模型测试假设在复杂的路径模型中,找到自己的路可能变得困难。照片由 Deva Darshan 在 Unsplash 上拍摄数据科学家经常收集大量变量并寻找它们之间的关系。在此过程中,对变量之间究竟如何相互关联做出假设和假设会很有帮助。学生为下一次考试学习的动力会影响他们的成绩吗?或者好成绩会激发学习的动力吗?激励人们表现出的行为模式究竟是什么,最终会带来好成绩?为了给上述问题提供一些结构,并提供一个工具来实证测试它们,我想在本文中解释路径模型,也称为结构方程模型 (SEM)。虽然在心理学等社会科学中路径模型很常用,但我觉得它们在数据科学和计算机科学等其他领域并不那么突出。因此,我想概述路

如何使用 Python 中的假设检验执行 A/B 测试:综合指南

How to Perform A/B Testing with Hypothesis Testing in Python: A Comprehensive Guide

使用实用 Python 示例制定数据驱动决策的分步指南继续阅读 Towards Data Science »

在嵌入式系统上运行 Rust 的九条规则

Nine Rules for Running Rust on Embedded Systems

将 range-set-blaze 移植到 no_std 的实践经验教训 在嵌入式上运行的 Rust — 来源:https://openai.com/dall-e-2/。所有其他图片均来自作者。您想让您的 Rust 代码在任何地方运行吗 — 从大型服务器到网页、机器人甚至手表?在本系列三部分 [1、2、3] 的最后一篇文章中,我们将了解如何使用 Rust 在 no_std 的嵌入式设备上运行。将您的 Rust 项目移植到 no_std 环境允许您定位微控制器和深度嵌入式系统,为受限环境创建高效的软件。例如,我使用即将推出的 range-set-blaze 版本创建了一个在 Raspberry

招聘的两个方面:在不同市场中招聘与面试数据角色

The Two Sides of Hiring: Recruiting vs. Interviewing for Data Roles in Diverse Markets

在 4 个不同国家/地区申请 150 多个职位并审阅 500 多份简历后,招聘和面试成功的因素继续阅读 Towards Data Science »

构建用户友好型数据表的 5 大原则

Top 5 Principles for Building User-Friendly Data Tables

设计直观、可靠的表格,您的数据团队一定会喜欢继续阅读 Towards Data Science »

LLM vs LLM:Codenames 锦标赛

LLM vs LLM: Codenames Tournament

3 个不同 LLM 代理之间的迷你多代理竞赛继续阅读 Towards Data Science »

为什么 2024 年诺贝尔化学奖(AI 领域)如此重要

Why the 2024 Nobel Prize in (AI for) Chemistry Matters So Much

致 DeepMind 的 Demis Hassabis 和 John Jumper,以及蛋白质设计研究所负责人 David Baker继续阅读 Towards Data Science »

高斯朴素贝叶斯解释:初学者的带有代码示例的可视化指南

Gaussian Naive Bayes, Explained: A Visual Guide with Code Examples for Beginners

分类算法钟形假设以获得更好的预测⛳️ 更多分类算法,解释:· 虚拟分类器 · K 最近邻分类器 · 伯努利朴素贝叶斯 ▶ 高斯朴素贝叶斯 · 决策树分类器 · 逻辑回归 · 支持向量分类器 · 多层感知器(即将推出!)基于我们之前关于处理二进制数据的伯努利朴素贝叶斯的文章,我们现在探索用于连续数据的高斯朴素贝叶斯。与二元方法不同,该算法假设每个特征都服从正态(高斯)分布。在这里,我们将看到高斯朴素贝叶斯如何处理连续的钟形数据(产生准确的预测),而无需深入研究贝叶斯定理的复杂数学。所有视觉效果:作者使用 Canva Pro 创建。针对移动设备进行了优化;在桌面上可能显得过大。定义与其他朴素贝叶斯

一劳永逸地戳破 AI 炒作泡沫

Bursting the AI Hype Bubble Once and for All

错误信息和不良研究:案例研究人们不能忽视这样一个事实:ChatGPT 等人工智能模型已经占领了互联网,并进入了互联网的每个角落。大多数人工智能应用程序对于广泛的任务(医疗保健、工程、计算机视觉、教育等)都非常有用和有益,我们没有理由不投入时间和金钱来开发它们。但生成式人工智能 (GenAI) 的情况并非如此,我将在本文中特别提到它。这包括 LLM 和 RAG,例如 ChatGPT、Claude、Gemini、Llama 和其他模型。对于我们所说的人工智能、我们使用的模型及其环境影响,必须非常具体。[1]:人们对“AI”和“ChatGPT”一词的兴趣随时间变化(过去四年)。截图由我拍摄。来源:G

关于数据科学的常见误解

Common Misconceptions About Data Science

您应该质疑的数据科学建议继续阅读 Towards Data Science »

了解 AWS Lambda 基础知识以运行强大的无服务器函数

Discover AWS Lambda Basics to Run Powerful Serverless Functions

了解我如何首次设置 AWS Lambda 继续阅读 Towards Data Science »

数组 — 数据科学家的数据结构和算法

Arrays — Data Structures & Algorithms for Data Scientists

动态和静态数组的工作原理继续阅读 Towards Data Science »

用于高级分析的 5 大地理空间数据 API

Top 5 Geospatial Data APIs for Advanced Analysis

探索 Overpass、Geoapify、Distancematrix.ai、Amadeus 和 Mapillary 以获得高级地图和位置数据继续阅读 Towards Data Science »

在 Python Web 应用程序中开始使用强大的数据表

Getting Started with Powerful Data Tables in your Python Web Apps

开始使用 Python Web 应用程序中的强大数据表使用 AG Grid 和 Reflex 以纯 Python 构建财务应用程序过去几个月,我一直在探索用于 Web 应用程序的各种数据可视化和操作工具。作为 Python 开发人员,我经常需要处理大型数据集并将其显示在交互式、可自定义的表中。一直困扰我的一个问题是:如何构建一个与我的 Python 后端无缝集成的强大数据网格 UI?有无数种选项可以构建复杂的数据网格,但作为一名 Python 工程师,我对 JavaScript 或任何前端框架的经验有限。我一直在寻找一种仅使用我最熟悉的语言 Python 来创建功能丰富的数据网格的方法!我决定

使用 GridWorlds 探索 AI 对齐问题

Exploring the AI Alignment Problem with GridWorlds

探索网格世界中的 AI 对齐问题很难在不遇到正交目标的情况下构建有能力的 AI 代理设计一个“网格世界”,AI 代理很难在不鼓励不良行为的情况下学习。图片由作者提供。这是 AI 对齐问题的本质:具有强大功能的高级 AI 模型的目标可能与我们的最佳利益不一致。这种模型可能会以不利于人类文明繁荣的方式追求自己的利益。对齐问题通常在生存风险的背景下讨论。许多人批评这个想法,认为人工智能对人类构成生存风险的可能性很小。一个常见的贬义简化是,人工智能安全研究人员担心超级智能人工智能会像电影《终结者》中那样制造杀人机器人。更令人担忧的是人工智能有“正交”而不是敌对的目标。一个常见的例子是,当我们修建高速公