A Novel Approach to Detect Coordinated Attacks Using Clustering
揭示隐藏的模式:对恶意行为进行分组聚类是无监督机器学习中的一种强大技术,它根据给定数据的固有相似性对其进行分组。与分类等依赖预先标记的数据来指导学习过程的监督学习方法不同,聚类对未标记的数据进行操作。这意味着没有预定义的类别或标签,相反,算法会在不事先知道分组应该是什么样子的情况下发现数据的底层结构。聚类的主要目标是将数据点组织成簇,其中同一簇内的数据点彼此之间的相似性高于不同簇中的数据点。这种区别使聚类算法能够形成反映数据中自然模式的组。本质上,聚类旨在最大化簇内相似性,同时最小化簇间相似性。这种技术在需要查找数据中隐藏的关系或结构的用例中特别有用,这使得它在欺诈检测和异常识别等领域很有价值
探索最新版本 DRESS Kit 中的新功能和显著变化照片来自 Google DeepMind 在 Unsplash 上概述自最初的 DRESS Kit 于 2021 年首次发布以来,它已成功应用于少数生物医学研究项目。如果您从未听说过 DRESS Kit,那么您可能有兴趣知道它是一个完全开源、无依赖、纯 ES6 JavaScript 库,专门用于执行高级统计分析和机器学习任务。DRESS Kit 旨在为那些不是经过培训的生物统计学家且无法使用专用统计软件的生物医学研究人员提供服务。DRESS Kit 不仅被证明是一种实用有效的工具,可用于分析复杂数据集和构建机器学习模型,而且这些现实世界的经
The Accuracy vs Interpretability Trade-off Is a Lie
为什么从更大的角度来看,黑盒模型并不更准确继续阅读《走向数据科学》»
How to Build a Multi-Target Regression Model for Macroeconomic Prediction
预测多项经济指标的分步指南。继续阅读 Towards Data Science »
The Science Behind AI’s First Nobel Prize
物理学和机器学习如何联手赢得 2024 年诺贝尔物理学奖继续阅读 Towards Data Science »
Marketing Mix Modeling (MMM): How to Avoid Biased Channel Estimates
了解在模型中应该考虑和不应该考虑哪些变量照片由 Fredrick Suwandi 在 Unsplash 上拍摄“在每个营销渠道上投资 X 美元将如何影响销售?”这是营销组合模型应该回答的因果问题,以指导公司决定未来如何分配其营销渠道预算。正如我们将看到的,这个问题的结果高度依赖于你考虑的变量:忽略重要变量或在模型中包含“错误”变量将引入偏差并导致错误的因果估计。这是一个巨大的问题,因为错误的因果估计最终会导致糟糕的营销决策和财务损失。在本文中,我想解决这个问题,并指导如何确定哪些变量应该和不应该在 MMM 中考虑,结构如下:在第 1 章中,我们将通过查看渠道估计值会根据您在模拟示例中考虑的变量
Bringing Structure to Your Data
使用路径模型测试假设在复杂的路径模型中,找到自己的路可能变得困难。照片由 Deva Darshan 在 Unsplash 上拍摄数据科学家经常收集大量变量并寻找它们之间的关系。在此过程中,对变量之间究竟如何相互关联做出假设和假设会很有帮助。学生为下一次考试学习的动力会影响他们的成绩吗?或者好成绩会激发学习的动力吗?激励人们表现出的行为模式究竟是什么,最终会带来好成绩?为了给上述问题提供一些结构,并提供一个工具来实证测试它们,我想在本文中解释路径模型,也称为结构方程模型 (SEM)。虽然在心理学等社会科学中路径模型很常用,但我觉得它们在数据科学和计算机科学等其他领域并不那么突出。因此,我想概述路
How to Perform A/B Testing with Hypothesis Testing in Python: A Comprehensive Guide
使用实用 Python 示例制定数据驱动决策的分步指南继续阅读 Towards Data Science »
Nine Rules for Running Rust on Embedded Systems
将 range-set-blaze 移植到 no_std 的实践经验教训 在嵌入式上运行的 Rust — 来源:https://openai.com/dall-e-2/。所有其他图片均来自作者。您想让您的 Rust 代码在任何地方运行吗 — 从大型服务器到网页、机器人甚至手表?在本系列三部分 [1、2、3] 的最后一篇文章中,我们将了解如何使用 Rust 在 no_std 的嵌入式设备上运行。将您的 Rust 项目移植到 no_std 环境允许您定位微控制器和深度嵌入式系统,为受限环境创建高效的软件。例如,我使用即将推出的 range-set-blaze 版本创建了一个在 Raspberry
The Two Sides of Hiring: Recruiting vs. Interviewing for Data Roles in Diverse Markets
在 4 个不同国家/地区申请 150 多个职位并审阅 500 多份简历后,招聘和面试成功的因素继续阅读 Towards Data Science »
Top 5 Principles for Building User-Friendly Data Tables
设计直观、可靠的表格,您的数据团队一定会喜欢继续阅读 Towards Data Science »
LLM vs LLM: Codenames Tournament
3 个不同 LLM 代理之间的迷你多代理竞赛继续阅读 Towards Data Science »
Why the 2024 Nobel Prize in (AI for) Chemistry Matters So Much
致 DeepMind 的 Demis Hassabis 和 John Jumper,以及蛋白质设计研究所负责人 David Baker继续阅读 Towards Data Science »
Gaussian Naive Bayes, Explained: A Visual Guide with Code Examples for Beginners
分类算法钟形假设以获得更好的预测⛳️ 更多分类算法,解释:· 虚拟分类器 · K 最近邻分类器 · 伯努利朴素贝叶斯 ▶ 高斯朴素贝叶斯 · 决策树分类器 · 逻辑回归 · 支持向量分类器 · 多层感知器(即将推出!)基于我们之前关于处理二进制数据的伯努利朴素贝叶斯的文章,我们现在探索用于连续数据的高斯朴素贝叶斯。与二元方法不同,该算法假设每个特征都服从正态(高斯)分布。在这里,我们将看到高斯朴素贝叶斯如何处理连续的钟形数据(产生准确的预测),而无需深入研究贝叶斯定理的复杂数学。所有视觉效果:作者使用 Canva Pro 创建。针对移动设备进行了优化;在桌面上可能显得过大。定义与其他朴素贝叶斯
Bursting the AI Hype Bubble Once and for All
错误信息和不良研究:案例研究人们不能忽视这样一个事实:ChatGPT 等人工智能模型已经占领了互联网,并进入了互联网的每个角落。大多数人工智能应用程序对于广泛的任务(医疗保健、工程、计算机视觉、教育等)都非常有用和有益,我们没有理由不投入时间和金钱来开发它们。但生成式人工智能 (GenAI) 的情况并非如此,我将在本文中特别提到它。这包括 LLM 和 RAG,例如 ChatGPT、Claude、Gemini、Llama 和其他模型。对于我们所说的人工智能、我们使用的模型及其环境影响,必须非常具体。[1]:人们对“AI”和“ChatGPT”一词的兴趣随时间变化(过去四年)。截图由我拍摄。来源:G
Discover AWS Lambda Basics to Run Powerful Serverless Functions
了解我如何首次设置 AWS Lambda 继续阅读 Towards Data Science »
Arrays — Data Structures & Algorithms for Data Scientists
动态和静态数组的工作原理继续阅读 Towards Data Science »