How to Get Started on Your Data Science Career Journey
初学者在选择数据科学和 AI/ML 技能提升资源时需要考虑的六个方面照片由 Zach Graves 在 Unsplash 上拍摄简介照片由 Jonathan Kemper 在 Unsplash 上拍摄显而易见,在过去十年中,数据科学已发展成为市场上最抢手的技能之一。传统企业、科技公司、咨询公司、初创公司 — — 随便什么 — — 都在不断招聘数据科学专业人士。该领域对经验丰富的专家的需求量大,而供应相对短缺,使其成为一个非常有利可图的职业机会。要进入该领域并取得成功,您不仅需要深入了解可用的算法和软件包,还需要培养对哪些方法适用于哪些用例的直觉。此外,您还需要学习如何将现实世界的问题转化为数据
Revisiting Karpathy’s “State of Computer Vision and AI”
回顾自 2012 年博客文章“计算机视觉和人工智能的现状:我们真的、真的很遥远”以来的人工智能进展,继续阅读《走向数据科学》»
A Graph Too Far: Graph RAG Doesn’t Require Every Graph Tool
不要使用图形 DB、QL 或图形分析使事情复杂化。知识图谱中的冒险:迷失在无尽的文档中。由 Brian Godsey 使用 DALL-E 生成。当 RAG 开发人员决定尝试图形 RAG(即构建知识图谱并将其集成到他们的 RAG(检索增强生成)系统中)时,根据互联网,他们有很多选择。有很多文章、指南和操作方法介绍了使用图形 RAG 和一般图形的不同工具。因此,一些开发人员直接开始,认为他们需要集成和配置一长串图形工具和技术才能正确执行图形 RAG。当搜索如何入门时,你通常会发现一些文章建议你需要以下部分或全部内容:知识图谱——连接语义搜索无法捕获的关键术语和概念关键字和实体提取工具——用于构建知
Creating 3D Protein Structure Networks Using Python and the RING Server: Part 2
使用 RING 接触网络创建 3D PSN继续阅读 Towards Data Science »
Your eCommerce product performance reports are probably misleading you
为何单一指标不够完善以及加权综合评分如何转变您的业务洞察力单个指标评估的问题在电子商务领域,依靠单个指标来评估产品和品牌表现可能会产生误导。孤立的指标会给人一种虚假的成功感,导致对看似有利可图但实际上正在耗尽业务资源的产品进行过度投资,或者相反,低估具有未开发潜力的项目。要保持领先,您需要一个整体的视角——通过“毛收入”、“转化率”、“毛利率”、“客户获取成本”、“重复购买率”、“履行成本”和“退货率”等几个关键指标来评估产品和品牌的表现。以下是我的许多客户使用的电子商务数据的典型示例。为了保护客户机密性和确保隐私,此处显示的数据是使用 AI 生成的合成数据。尽管它包含各种重要指标,但团队通常
Reinforcement Learning for Physics: ODEs and Hyperparameter Tuning
使用 gymnasium 控制微分方程并优化算法超参数照片由 Brice Cooper 在 Unsplash 上拍摄如前所述,强化学习 (RL) 提供了一种强大的新工具来应对控制非线性物理系统的挑战。非线性物理系统的特点是行为复杂,输入的微小变化可能导致输出的剧烈变化,或者只有微小的输出变化可能来自大输入。解决方案可以分裂,相同条件可以产生不同的输出,甚至以路径依赖的形式具有“记忆”。我们介绍了两种将 RL 应用于非线性物理系统的不同方法:传统的基于神经网络的软演员评论家 (SAC) 和不常见的基于遗传算法的遗传编程 (GP) 方法。简而言之,SAC 使用两个神经网络,一个用于学习环境的行为方
How to Export a Stata “Notebook” to HTML
使用您的代码、输出和图表创建可共享的 HTML 文档继续阅读 Towards Data Science »
Why You Should Be Hiring Methodologists
“你需要做的就是开发你的思维。如果你深入思考,几乎所有事情看起来都很有趣。” — Oscar WildeDALL-E 图像生成器什么是方法学家?传统上,方法学家是研究定性和定量研究方法的人。现代方法学家(方法学家-分析师、方法学家-科学家和方法学家-工程师)是解决复杂问题的多种方法的掌握者。他们还熟悉可用于实施的工具和技术,尽管他们通常与这些领域的真正专家(如云架构师、软件开发人员或数据工程师)一起工作效果最好。我之前写过关于分析方法作为一门学科所涉及的创造性和系统性工作。凭借合适的个性和适当的技术或分析经验,方法学家可以成为组织中最具影响力的技术角色。那么,当您的组织急需数据工程师、数据科学
Autoencoders: An Ultimate Guide for Data Scientists
架构、Python 实现和未来展望的初学者指南继续阅读 Towards Data Science »
GraphMuse: A Python Library for Symbolic Music Graph Processing
是的,音乐和图表确实可以融合!在这篇文章中,我们将介绍我的最新论文和开源软件之一:GraphMuse Python 库。但在深入研究之前,让我先向您介绍一些符号音乐处理的基础知识。故事是这样的……符号音乐处理主要指从乐谱中提取信息。术语“符号”是指任何形式的乐谱或符号中存在的符号。乐谱可以包含除音符之外的各种元素。这些元素可能包括拍号、调号、发音标记、力度标记等。乐谱可以采用多种格式,例如 MIDI、MusicXML、MEI、Kern、ABC 等。近年来,图神经网络 (GNN) 越来越受欢迎,并在从生物网络到推荐系统再到音乐分析的许多领域取得了成功。在音乐分析领域,GNN 已用于解决和声分析、
A Critical Look at AI Image Generation
图像生成 AI 究竟能告诉我们关于这个世界的什么信息?照片由 Math 在 Unsplash 上拍摄我最近有机会对一个有趣的项目进行分析,而我要说的太多了,无法在一篇文章中全部涵盖,所以今天我将讨论我对它的更多想法。研究人员在这个项目中采用的方法是向不同的生成 AI 图像生成工具提供一系列提示:Stable Diffusion、Midjourney、YandexART 和 ERNIE-ViLG(由百度提供)。这些提示特别针对不同的世代——婴儿潮一代、X 世代、千禧一代和 Z 世代,并要求在不同背景下拍摄这些群体的图像,例如“与家人在一起”、“度假”或“在工作”。虽然结果非常有趣,也许揭示了一些
Fine-Tuning BERT for Text Classification
一个带有 Python 代码的可破解示例尽管当今的 100B+ 参数转换器模型是 AI 领域最先进的模型,但我们仍然可以使用较小的(<1B 参数)模型完成很多工作。在本文中,我将介绍一个这样的示例,即微调 BERT(1.1 亿个参数)以对网络钓鱼 URL 进行分类。我将首先介绍关键概念,然后分享示例 Python 代码。图片来自 Canva。微调微调涉及通过额外的训练将预训练模型调整到特定用例。预训练模型是通过无监督学习开发的,从而无需大规模标记数据集。然后,与从头开始训练相比,经过微调的模型可以利用预先训练的模型表示来显着降低训练成本并提高模型性能 [1]。微调大型语言模型 (LLM)将训练
Create Your Own Prompt Enhancer from Scratch
如何模拟 OpenAI 的系统提示生成器功能继续阅读 Towards Data Science »
Temporal-Difference Learning: Combining Dynamic Programming and Monte Carlo Methods for…
RL 的里程碑:Q 学习和双 Q 学习继续阅读 Towards Data Science »
A Novel Approach to Detect Coordinated Attacks Using Clustering
揭示隐藏的模式:对恶意行为进行分组聚类是无监督机器学习中的一种强大技术,它根据给定数据的固有相似性对其进行分组。与分类等依赖预先标记的数据来指导学习过程的监督学习方法不同,聚类对未标记的数据进行操作。这意味着没有预定义的类别或标签,相反,算法会在不事先知道分组应该是什么样子的情况下发现数据的底层结构。聚类的主要目标是将数据点组织成簇,其中同一簇内的数据点彼此之间的相似性高于不同簇中的数据点。这种区别使聚类算法能够形成反映数据中自然模式的组。本质上,聚类旨在最大化簇内相似性,同时最小化簇间相似性。这种技术在需要查找数据中隐藏的关系或结构的用例中特别有用,这使得它在欺诈检测和异常识别等领域很有价值
探索最新版本 DRESS Kit 中的新功能和显著变化照片来自 Google DeepMind 在 Unsplash 上概述自最初的 DRESS Kit 于 2021 年首次发布以来,它已成功应用于少数生物医学研究项目。如果您从未听说过 DRESS Kit,那么您可能有兴趣知道它是一个完全开源、无依赖、纯 ES6 JavaScript 库,专门用于执行高级统计分析和机器学习任务。DRESS Kit 旨在为那些不是经过培训的生物统计学家且无法使用专用统计软件的生物医学研究人员提供服务。DRESS Kit 不仅被证明是一种实用有效的工具,可用于分析复杂数据集和构建机器学习模型,而且这些现实世界的经
The Accuracy vs Interpretability Trade-off Is a Lie
为什么从更大的角度来看,黑盒模型并不更准确继续阅读《走向数据科学》»