4-Dimensional Data Visualization: Time in Bubble Charts
气泡图将大量信息优雅地压缩为单个可视化,气泡大小增加了第三个维度。但是,比较“之前”和“之后”状态通常至关重要。为了解决这个问题,我们建议在这些状态之间添加过渡,以创建直观的用户体验。由于我们找不到现成的解决方案,所以我们开发了自己的解决方案。[…]文章 4 维数据可视化:气泡图中的时间首先出现在 Towards Data Science 上。
Multi-dimensional Digital Identity
这是我在 Allysia Doratti 的这篇博文上分享的评论和反思,Allysia Doratti 是 Dean Shareski 2024 年秋季 EC&I 832 研究生之一:Mirror, Mirror, On My Feed:探索数字世界中的身份。嗨,Allysia- 非常感谢这篇深思熟虑的帖子,尤其是对数字身份和 [...] 的反思
PREAMBLE: Private and Efficient Aggregation via Block Sparse Vectors
我们重新审查了在PRIO等两级服务器系统中高维向量的安全聚合的问题。这些系统通常用于汇总媒介,例如私人联合学习中的梯度,在该学习中,通过噪声来保护聚合本身以确保差异隐私。现有方法需要具有维数的沟通缩放,因此限制了向量的维度,可以在此设置中有效处理。我们提出序言:{\ bf pr} ivate {\ bf e} fficient {\ bf a} ggregation {\ bf a} ggregation {\ bf m} e} uclidean矢量…
Charlotte Bunne on developing AI-based diagnostic tools
Alan Warburton的图像 /©BBC / AI / Medicine / CC-BY 4.0许可的更好图像Tanya Petersen Charlotte Bunne,EPFL的分子医学组人工智能集团负责以及代表数百个组织层和蛋白质的高维数据[…]
Faster Algorithms for User-Level Private Stochastic Convex Optimization
我们研究用户级差分隐私 (DP) 约束下的隐私随机凸优化 (SCO)。在这种情况下,有 nnn 个用户,每个用户拥有 mmm 个数据项,我们需要保护每个用户整个数据项集合的隐私。现有的用户级 DP SCO 算法在许多大规模机器学习场景中都不切实际,因为:(i)它们对损失函数的平滑度参数做出了限制性假设,并要求用户数量随着参数空间的维数呈多项式增长;或(ii)它们的速度非常慢……
Burges Salmon Launches ‘Digital Enablement’ Programme + Inks Wexler Deal
英国律师事务所 Burges Salmon 宣布推出一项“多维数字支持计划”,涵盖“GenAI、数据、流程和 [其他] 技术,以及内部...
Understanding K-Fold Target Encoding to Handle High Cardinality
平衡复杂性和性能:深入了解 K 折目标编码照片由 Mika Baumeister 在 Unsplash 上拍摄简介数据科学从业者在处理不同项目中的不同数据类型时会遇到许多挑战,每个项目都需要独特的处理方法。一个常见的障碍是使用传统机器学习模型难以有效处理的数据格式,导致模型性能不佳。由于大多数机器学习算法都针对数值数据进行了优化,因此将分类数据转换为数值形式至关重要。然而,这通常会过度简化复杂的分类关系,尤其是当特征具有高基数(即大量唯一值)时,这会使处理复杂化并妨碍模型准确性。高基数是指特征中唯一元素的数量,具体解决机器学习环境中分类标签的不同计数。当一个特征有许多唯一的分类标签时,它具有高
Ensemble Learning for Anomaly Detection
深入研究隔离森林模型以检测时间序列数据中的异常异常检测是任何组织必备的功能。通过检测异常和离群值,我们不仅可以识别看似可疑(或可能错误)的数据,还可以确定“正常”数据是什么样子。异常检测可以识别数据错误,从而成为强大数据治理系统的重要功能。对于分析而言,异常值在某些情况下(例如欺诈检测和预测性维护)可能是一个关注点。然而,随着数据的增长,异常检测会变得越来越困难。高维数据带有噪声,难以用于分析和洞察。大型数据集也可能存在错误和/或特殊情况。值得庆幸的是,集成学习带来了速度和效率,帮助我们处理高维数据并检测异常。什么是集成学习?集成学习是一种机器学习技术,它结合了多个单独模型的预测,以获得比任何
Using PCA for Outlier Detection
一种识别数值数据中异常值的令人惊讶的有效方法PCA(主成分分析)通常用于数据科学,通常用于降维(通常用于可视化),但它实际上对于异常值检测也非常有用,我将在本文中描述它。本文延续了我的异常值检测系列,其中还包括关于 FPOF、计数异常值检测器、距离度量学习、共享最近邻和兴奋剂的文章。这还包括我书《Python 中的异常值检测》的另一段摘录。PCA 背后的想法是大多数数据集在某些列中的方差比其他列大得多,并且特征之间也存在相关性。其中一个含义是:为了表示数据,通常不需要使用尽可能多的特征;我们通常可以使用更少的特征(有时要少得多)很好地近似数据。例如,对于包含 100 个特征的数值数据表,我们可
Mastering t-SNE: A Comprehensive Guide to Understanding and Implementation in Python
通过分步 Python 实现和深入解释,释放 t-SNE 可视化高维数据的强大功能。继续阅读 Towards Data Science »
Snow Surface Roughness across Spatio-Temporal Scales
摘要:雪面位于大气与地球的交界处。积雪表面的变化是由于它与降水、风、湿度、短波和长波辐射、底层地形特征和土地覆盖的相互作用。这些联系创造了一个动态的雪面,影响了积雪的能量和质量平衡、吹雪潜力和其他积雪过程。尽管如此,雪面通常被认为是许多地球系统模型中的一个恒定参数。美国国家航空航天局 (NASA) 于 2002 年和 2003 年在科罗拉多州北部收集的冷陆过程实验 (CLPX) 数据被用于研究雪面粗糙度的空间和时间变化。本研究中使用的随机粗糙度 (RR) 和分形维数 (D) 指标具有很好的相关性。然而,粗糙度在各个尺度上并不相关,这里是从毫米分辨率的雪粗糙度板和米分辨率的机载激光雷达计算出来的
Spatial Index: Space-Filling Curves | by Adesh Nalpet Adimurthy | Jun, 2024
多维数据的空间索引和空间填充曲线 12 分钟阅读 · 2024 年 6 月 11 日 由于 Web 服务跟踪用户在何时何地做事,空间数据迅速增长(/正在增长)。大多数应用程序都会添加位置标签,并且通常允许用户在特定地点和时间签到。这种激增很大程度上归功于智能手机,文章空间索引:空间填充曲线 | 作者:Adesh Nalpet Adimurthy | 2024 年 6 月首次出现在 AI Quantum Intelligence 上。
Exploring NLP Preprocessing Techniques: Stopwords, Bag of Words, and Word Cloud
自然语言处理 (NLP) 是一个迷人的领域,它弥合了人类交流与机器理解之间的鸿沟。NLP 的基本步骤之一是文本预处理,即将原始文本数据转换为可被算法有效分析和利用的格式。在本博客中,我们将深入探讨三种基本的 NLP 预处理技术:停用词删除、词袋和词云生成。我们将探索每种技术是什么、为什么使用它以及如何使用 Python 实现它。让我们开始吧!停用词删除:过滤掉噪音什么是停用词?停用词是常见的词,它们几乎没有什么有意义的信息,通常在预处理过程中从文本数据中删除。例子包括“the”、“is”、“in”、“and”等等。删除停用词有助于将注意力集中在对文本含义有贡献的更重要的词上。为什么要删除停用词
Репортаж с PHDays Fest 2: эксперт УЦСБ рассказал о возможностях использования ИИ в ИБ
5月23日,在莫斯科国际网络节Positive Hack Days上,加州大学圣巴巴拉分校科学技术工作副主任尼古拉·多穆霍夫斯基(Nikolai Domukhovsky)作了题为《为何人工智能在信息安全以外的所有领域都取得胜利》的报告。事实证明,这个话题与网络安全专家息息相关,大厅里几乎没有空座位。演讲一开始,尼古拉谈到了过去10年人工智能的主要成功。人工智能成果已经从基础研究的范畴转变为急需的应用解决方案的地位,没有它我们将无法想象我们的生活。现在正处于进步的顶峰,大型语言模型也正在变得多模态——神经网络可以根据你的描述构建图像、纠正它、编写文本等。许多人利用这些机会,不幸的是,这些技术已经
Deep attractors: Where deep learning meets chaos
在非线性动力学中,当状态空间被认为是多维的,但我们所拥有的数据只是一个单变量时间序列时,人们可能会尝试通过延迟坐标嵌入重建真实空间。然而,先验地不清楚如何选择重建空间的维数和时间滞后。在这篇文章中,我们展示了如何使用自动编码器架构来解决这个问题:只需给出一系列标量的观察结果,自动编码器就会直接学习以足够的维数来表示混沌系统的吸引子。
The evolution of Natural Language Models (NLM) - Must know NLP Basics
我决定浏览一些 NLP(自然语言处理)领域的突破性论文,并总结我的学习成果。这些论文的日期从 2000 年代初到 2018 年。资料来源 - KDNuggets如果您是 NLP 领域的新手 - 我建议您从阅读这篇文章开始,其中涉及各种 NLP 基础知识。1. 神经概率语言模型2. 向量空间中单词表示的有效估计Word2Vec - Skipgram 模型3. 单词和短语的分布式表示及其组合4. GloVe:用于单词表示的全局向量5. 基于循环神经网络的语言模型6. 循环神经网络语言模型的扩展让我们从#1 开始,神经概率语言模型Bengio 等人。提出一种分布式单词表示法来对抗维数灾难。维数灾难源
我的小型技术抓地力清单正在增长。我已经进行了一些搜索以找到解决方案并失败了。任何可以解释或解决以下任何一个的人都会获得27立方体的偶然经济学家业力冲击,将在零维数学点(不一定是在这个星球上)和零持续的瞬时时间[…]我的技术抓住的帖子首次出现在偶然的经济学家上。