走向数据科学领域信息情报检索

在数据科学领域分享概念、思想和代码。Towards Data Science Inc.是一家在加拿大注册的公司。它为成千上万的人提供了一个交流思想、扩展对数据科学理解的平台。

LLM 温度🔥🌡️ 综合指南

A Comprehensive Guide to LLM Temperature 🔥🌡️

在构建我自己的基于 LLM 的应用程序时,我发现了许多提示工程指南,但很少有用于确定温度设置的等效指南。当然,温度是一个简单的数值,而提示可能会变得非常复杂,因此作为产品决策,它可能感觉微不足道。尽管如此,选择合适的温度可以极大地改变 […]The post LLM 温度综合指南🔥🌡️ 首先出现在 Towards Data Science 上。

如何在 Microsoft PowerBI 中创建网络图可视化

How to Create Network Graph Visualizations in Microsoft PowerBI

Microsoft PowerBI 是最流行的商业智能 (BI) 工具之一,虽然它具有为整个企业的利益相关者创建动态分析报告所需的所有功能,但创建一些高级数据可视化更具挑战性。本文将介绍如何在 Microsoft PowerBI 中创建大型网络图可视化 […] 如何在 Microsoft PowerBI 中创建网络图可视化的文章首先出现在 Towards Data Science 上。

PyTorch 中的高效指标收集:避免 TorchMetrics 的性能陷阱

Efficient Metric Collection in PyTorch: Avoiding the Performance Pitfalls of TorchMetrics

指标收集是每个机器学习项目的重要组成部分,使我们能够跟踪模型性能并监控训练进度。理想情况下,指标的收集和计算不应给训练过程带来任何额外开销。然而,就像训练循环的其他组件一样,低效的指标计算可能会带来不必要的开销,增加训练步骤[…]PyTorch 中的高效指标收集:避免 TorchMetrics 的性能陷阱首先出现在 Towards Data Science 上。

Python 中最小成本流优化简介

Introduction to Minimum Cost Flow Optimization in Python

最小成本流优化将通过节点和边缘网络移动流量的成本降至最低。节点包括源(供应)和接收器(需求),具有不同的成本和容量限制。目的是找到在遵守所有容量限制的同时将容量从源移动到接收器的最低成本方法。应用 […]The post Introduction to Minimum Cost Flow Optimization in Python appeared first on Towards Data Science.

使用 AI 和 LLM,通过 Python 和 Streamlit 从简历到求职信

From Resume to Cover Letter Using AI and LLM, with Python and Streamlit

免责声明:使用 AI 制作求职信甚至简历的想法显然不是我首先提出的。很多人之前已经这样做过(非常成功),并根据这个想法建立了网站甚至公司。这只是一个关于如何使用 […] 构建自己的求职信 AI 生成器应用程序的教程。文章从简历到求职信,使用 AI 和 LLM,使用 Python 和 Streamlit 首次出现在 Towards Data Science 上。

ML 功能管理:实用演进指南

ML Feature Management: A Practical Evolution Guide

在机器学习的世界里,我们痴迷于模型架构、训练管道和超参数调整,却常常忽略了一个基本方面:我们的特征在其整个生命周期中如何生存和呼吸。从每次预测后消失的内存计算到几个月后重现精确特征值的挑战,我们处理特征的方式可能会 […] 文章 ML 特征管理:实用演进指南首次出现在 Towards Data Science 上。

Towards Data Science 即将作为独立出版物推出

Towards Data Science is Launching as an Independent Publication

自 2016 年成立 Towards Data Science 以来,我们已经在 Medium 上建立了最大的出版物,拥有一个专注于数据科学、机器学习和人工智能的读者和贡献者社区。Medium 构建了一个很棒的平台,如果没有它的帮助,我们就无法接触到我们的受众。截至 2025 年 2 月 3 日星期一,Towards […]文章《Towards Data Science 即将作为独立出版物推出》首先出现在 Towards Data Science 上。

展示和讲述

Show and Tell

使用 PyTorch 实现最早的神经图像标题生成器模型之一。文章“Show and Tell”首先出现在 Towards Data Science 上。

神经网络——直观且详尽的解释

Neural Networks – Intuitively and Exhaustively Explained

对现代人工智能中最基本架构的深入探索。文章“神经网络——直观而详尽的解释”首先出现在 Towards Data Science 上。

如何晋升为数据科学家

How to Get Promoted as a Data Scientist

不到 2 年内获得 2 次晋升的首席数据科学家的建议文章“如何晋升为数据科学家”首先出现在 Towards Data Science 上。

如何在时间序列中查找季节性模式

How to Find Seasonality Patterns in Time Series

使用傅里叶变换检测季节性成分文章“如何在时间序列中查找季节性模式”首先出现在 Towards Data Science 上。

😲 量化惊喜——数据科学家的信息理论入门——第 1/4 部分:基础

😲 Quantifying Surprise – A Data Scientist’s Intro To Information Theory – Part 1/4: Foundations

深入了解信息理论并掌握其在机器学习和数据分析中的应用。包含 Python 代码。🐍帖子 😲 量化惊喜 - 数据科学家的信息理论入门 - 第 1/4 部分:基础知识首先出现在 Towards Data Science 上。

🤷 量化不确定性——数据科学家的信息理论入门——第 2/4 部分:熵

🤷 Quantifying Uncertainty – A Data Scientist’s Intro To Information Theory – Part 2/4: Entropy

深入了解熵并掌握其在机器学习和数据分析中的应用。包含 Python 代码。🐍帖子 🤷 量化不确定性 - 数据科学家的信息理论入门 - 第 2/4 部分:熵首先出现在 Towards Data Science 上。

为什么选择 ETL-Zero?初学者了解数据集成的转变

Why ETL-Zero? Understanding the shift in Data Integration as a Beginner

当我准备 Salesforce Data Cloud 认证时,我遇到了 Zero-ETL 这个术语。继续阅读 Towards Data Science »

检测社交媒体量时间序列中的异常

Detecting Anomalies in Social Media Volume Time Series

我如何检测社交媒体量中的异常:基于残差的方法照片由 Joshua Hoehne 在 Unsplash 上拍摄在社交媒体时代,分析对话量对于了解用户行为、检测趋势以及最重要的是识别异常至关重要。了解异常发生的时间可以帮助管理层和营销部门应对危机情况。在本文中,我们将使用来自 Twitter 的真实示例,探索一种基于残差的方法来检测社交媒体量时间序列数据中的异常。对于这样的任务,我将使用 Numenta Anomaly Benchmark 的数据,它提供了 Twitter 帖子的成交量数据,其基准测试中有 5 分钟的帧窗口。我们将从两个角度分析数据:作为第一个练习,我们将使用完整数据集检测异常,然

使用 Python 校准营销组合模型

Calibrating Marketing Mix Models In Python

实用指南第 2 部分,帮助您掌握 pymc 中的 MMM 用户生成的图像本系列是关于什么的?欢迎阅读我的营销组合模型 (MMM) 系列第 2 部分,这是一本实用指南,可帮助您掌握 MMM。在本系列中,我们将介绍模型训练、验证、校准和预算优化等关键主题,所有这些都使用强大的 pymc-marketing python 包。无论您是 MMM 新手还是想要提高技能,本系列都将为您提供实用的工具和见解,以改进您的营销策略。如果您错过了第 1 部分,请在这里查看:掌握 Python 中的营销组合模型简介在本系列的第二部分中,我们将把重点转移到使用来自实验的信息先验来校准我们的模型:为什么校准营销组合模型

我作为数据科学家的 Medium 之旅:6 个月、18 篇文章和 3,000 名关注者

My Medium Journey as a Data Scientist: 6 Months, 18 Articles, and 3,000 Followers

Medium 作家的真实数字、收入和数据驱动的增长策略继续阅读 Towards Data Science »

AdaBoost 分类器详解:带有代码示例的可视化指南

AdaBoost Classifier, Explained: A Visual Guide with Code Examples

集成学习将权重放在最需要的地方随机森林解释:带有代码示例的可视化指南每个人都会犯错 — 即使是机器学习中最简单的决策树。AdaBoost(自适应增强)算法不会忽略它们,而是会做一些不同的事情:它从这些错误中学习(或适应)以变得更好。与一次生成多棵树的随机森林不同,AdaBoost 从一棵简单的树开始,并识别它错误分类的实例。然后,它构建新的树来修复这些错误,从错误中学习并在每一步中变得更好。在这里,我们将准确说明 AdaBoost 如何进行预测,通过结合有针对性的弱学习者来增强力量,就像将集中锻炼变成全身力量的锻炼程序一样。所有视觉效果:作者使用 Canva Pro 创建。针对移动设备进行了优