数数关键词检索结果

人工智能数学助手可以帮助解决人类陷入困境的问题

AI maths assistant could help solve problems that humans are stuck on

大多数数学家都不愿意开始研究人工智能,但 Meta 研究人员开发的新工具可能会改变这一现状

2025 年预测:AI 找到了利用行业数据湖的理由

2025 Predictions: AI Finds a Reason to Tap Industry Data Lakes

自计算机时代来临以来,各行各业都充斥着大量存储数据,以至于大多数数据从未得到利用。据估计,这些数据约为 120 ZB——相当于数万亿兆兆字节,或地球上每粒沙子的 120 倍以上 阅读文章

了解 K-Fold 目标编码以处理高基数

Understanding K-Fold Target Encoding to Handle High Cardinality

平衡复杂性和性能:深入了解 K 折目标编码照片由 Mika Baumeister 在 Unsplash 上拍摄简介数据科学从业者在处理不同项目中的不同数据类型时会遇到许多挑战,每个项目都需要独特的处理方法。一个常见的障碍是使用传统机器学习模型难以有效处理的数据格式,导致模型性能不佳。由于大多数机器学习算法都针对数值数据进行了优化,因此将分类数据转换为数值形式至关重要。然而,这通常会过度简化复杂的分类关系,尤其是当特征具有高基数(即大量唯一值)时,这会使处理复杂化并妨碍模型准确性。高基数是指特征中唯一元素的数量,具体解决机器学习环境中分类标签的不同计数。当一个特征有许多唯一的分类标签时,它具有高

用于气候变化分析的图像数据收集

Image Data Collection for Climate Change Analysis

初学者指南埃特纳火山的卫星图像。来源:美国地质调查局 (USGS) 在 Unsplash 上的照片。I. 简介深度学习在地球观测中成功传播。它的成就导致了更复杂的架构和方法。然而,在这个过程中,我们忽略了一些重要的东西。拥有更多优质数据比拥有更好的模型更好。不幸的是,EO 数据集的开发一直很混乱。如今,它们有数百个。尽管我们努力编译数据集,但可以说它们散布在各处。此外,EO 数据已经激增以满足非常具体的需求。矛盾的是,这正是我们应该用它们前进的相反方向,特别是如果我们希望我们的深度学习模型更好地工作的话。例如,ImageNet 编译了数千张图像以更好地训练计算机视觉模型。然而,EO 数据比 I

使用 PCA 进行异常值检测

Using PCA for Outlier Detection

一种识别数值数据中异常值的令人惊讶的有效方法PCA(主成分分析)通常用于数据科学,通常用于降维(通常用于可视化),但它实际上对于异常值检测也非常有用,我将在本文中描述它。本文延续了我的异常值检测系列,其中还包括关于 FPOF、计数异常值检测器、距离度量学习、共享最近邻和兴奋剂的文章。这还包括我书《Python 中的异常值检测》的另一段摘录。PCA 背后的想法是大多数数据集在某些列中的方差比其他列大得多,并且特征之间也存在相关性。其中一个含义是:为了表示数据,通常不需要使用尽可能多的特征;我们通常可以使用更少的特征(有时要少得多)很好地近似数据。例如,对于包含 100 个特征的数值数据表,我们可

1975-83 年的通货膨胀率、失业率和贫困率与当前比率的比较

A comparison of the inflation rates, unemployment rates and poverty rates from 1975-83 with the current rates

9 月份失业率为 4.1%,8 月份为 4.2%。2022 年和 2023 年全年的失业率为 3.6%。单击此处查看该数据。另请参阅 FRED(联邦储备经济数据)的失业率,FRED 是圣路易斯联邦储备银行的研究部门。过去 12 个月的通货膨胀率为 2.44%。2023 年 9 月的 CPI 为 307.789,2024 年 9 月的 CPI 为 315.301。由于 315.301/307.789 = 1.0244,因此通货膨胀率为 2.44%。查看 1913 年至 2024 年的消费者价格指数数据。美国人口普查局上个月报告称,2023 年的贫困率为 11.1%(与 1973 年的历史第二低水

暴力已正常化

Violence Has Been Normalized

暴力已正常化作者:Jeffrey Tucker,来自 DailyReckoning.com,在卡马拉·哈里斯和唐纳德·特朗普之间这场名不副实、荒谬可笑的辩论中,一位主持人对特朗普关于犯罪率上升的说法进行了事实核查。与特朗普的说法相反,主持人大卫·缪尔表示,联邦调查局报告称犯罪率下降,这一说法很可能让每位观众都觉得明显是错误的。在封锁之前,商店偷窃并不是一种生活方式。大多数城市并不是每个角落都充满危险的人口雷区。没有一家药店几乎所有产品都锁在有机玻璃后面。我们没有被警告在城市中,即使是中等城市,也有一些地方存在劫车的真正风险。显而易见,美国的高犯罪率是地方性的,对人和财产的尊重越来越少。至于联邦

企业数据质量“谁做什么”指南

The “Who Does What” Guide To Enterprise Data Quality

一个答案和许多最佳实践,说明大型组织如何为现代数据平台实施数据质量程序企业数据质量“谁做什么”的答案。图片由作者提供。我曾与全球最大公司的数十位企业数据专家交谈过,最常见的数据质量问题之一是“谁做什么?”紧接着是“为什么和怎么做?”这是有原因的。数据质量就像一场接力赛。每条腿的成功——检测、分类、解决和测量——都取决于另一条腿。每次传递接力棒时,失败的几率都会飙升。照片由 Zach Lucero 在 Unsplash 上拍摄实际问题值得实际答案。然而,每个组织围绕数据的组织方式略有不同。我见过拥有 15,000 名员工的组织将所有关键数据的所有权集中起来,而规模只有他们一半的组织则决定完全联合

政府统计数据的折磨

The Torture Of Government Statistics

政府统计的折磨作者:Jeffrey Tucker,《大纪元时报》自从我开始撰写有关可疑的政府经济统计数据的文章以来,我收到了一系列有趣的信件,这些信件来自现任和退休的会计人员。他们很高兴我开始讨论这个话题,并提出了各种见解。我看到的最引人注目的观点——我以前没有想到的——归结为员工本身的数学知识匮乏。他们缺乏基本的直觉,无法发现他们的数字哪里不合理。我的通讯员将责任归咎于技术。当数学家和学生使用计算尺时,他们必须保持机智,从较小的数字中推导出较大的数字,并有能力以保持一致的方式操纵小数点。数字感总是存在,用来根据核心理性来测试结果。计算器出现后,这种情况就结束了。计算器完成了工作,这样人类的大

RepCNN:用于唤醒词检测的微型、强大的模型

RepCNN: Micro-Sized, Mighty Models for Wakeword Detection

始终在线的机器学习模型需要非常低的内存和计算占用空间。它们的受限参数数量限制了模型的学习能力,以及通常的训练算法找到最佳参数的有效性。在这里,我们展示了通过首先将其计算重构为更大的冗余多分支架构,可以更好地训练小型卷积模型。然后,为了进行推理,我们代数地将训练后的模型重新参数化为具有更少参数的单分支形式,以降低内存占用和计算成本。使用这种技术,我们展示了……

流式细胞术和 FACS 有什么区别?

What’s the Difference Between Flow Cytometry and FACS?

基于流动的方法允许研究人员从样本中的单个细胞收集多参数数据,但样本的命运取决于仪器。

虚假高频自相关

Spurious High Frequency Autocorrelation

高频数据的一个奇怪之处是,大多数数据来自集中式限价订单簿 (CLOB),其中买卖价差使数据看起来具有负自相关性,因为交易是在买入价和卖出价随机进行的。推动这种模式的回报远低于交易成本,因此不会产生套利机会。然而,人们可能会倾向于使用高频数据来估计定价期权或凸度成本(又称无常损失、损失与再平衡)的方差。这是一个问题,因为 1 分钟 Gemini 回报产生的方差估计比从每日数据得出的方差估计高 40%。方差随时间线性增长;波动性随时间平方根增长。因此,对于标准随机过程,方差除以频率时应该相同。如果回报期限以分钟为单位,则 5 分钟回报的方差应为 10 分钟回报方差的一半,等等。方差 (ret(M

大学成绩膨胀开始下降,但一半最高成绩仍无法解释

University grade inflation starts to drop, but half of top grades still unexplained

对教学的渴望与对数字的热爱相结合,为 G-8 分析师创造完美的职业生涯

Desire to teach combined with love of numbers to create perfect career for G-8 analyst

并不是她在数数,但 Marsha Cuffee 已经在政府工作了 18 年零 5 个月。

复杂性原则 (!)

The Complexity Principle (!)

继续上一篇文章,如果我似乎对最近的 Kelly 等人的计划大加赞赏(确实如此),我很抱歉,但它确实让我震惊。著名的“简约”和“KISS(保持复杂简单)”原则被彻底颠覆了!George Box 和 Arnold Zellner 一定在坟墓里翻滚了…… 无处不在的复杂性美德Bryan T. Kelly(耶鲁管理学院;AQR Capital Management, LLC;美国国家经济研究局 (NBER));Semyon Malamud(洛桑联邦理工学院;经济政策研究中心 (CEPR);瑞士金融研究所);Kangying Zhou(耶鲁管理学院)我们研究了高复杂性机制下非线性回报预测模型的表现,即当

预测中的复杂性

Complexity in Prediction

很高兴看到 Kelly 等人坚持不懈,顺利进入“双底”区域并添加了正则化。回报预测中复杂性的优点 (2022)Bryan T. Kelly;Semyon Malamud;Kangying Zhou现有文献使用仅使用少量参数的“简单”模型来预测市场回报。与传统观点相反,我们从理论上证明,与参数数量超过观察数量的“复杂”模型相比,简单模型严重低估了回报的可预测性。我们通过实证证明了美国股市回报预测中复杂性的优点。我们的研究结果确立了通过机器学习对预期收益进行建模的基本原理。http://d.repec.org/n?u=RePEc:nbr:nberwo:30217&r=

Bjarne Stroustrup:C++

Bjarne Stroustrup: C++

Bjarne Stroustrup 是 C++ 的创造者,C++ 是一种编程语言,40 年后仍然是世界上最受欢迎和最强大的语言之一。它专注于快速、稳定、强大的代码,这是我们作为一个社会所依赖的世界上许多最大的系统的基础。如果您在 YouTube 上观看此视频,YouTube 的许多关键后端组件都是用 C++ 编写的。谷歌、Facebook、亚马逊、Twitter、大多数微软应用程序、Adobe 应用程序、大多数数据库系统以及在现实世界中运行的大多数物理系统(如汽车、机器人、将我们送入太空并有朝一日将我们降落在火星上的火箭)也是如此。这次对话是人工智能播客的一部分。如果您想获得有关此播客的更多信

自然语言模型 (NLM) 的演变 - 必须了解的 NLP 基础知识

The evolution of Natural Language Models (NLM) - Must know NLP Basics

我决定浏览一些 NLP(自然语言处理)领域的突破性论文,并总结我的学习成果。这些论文的日期从 2000 年代初到 2018 年。资料来源 - KDNuggets如果您是 NLP 领域的新手 - 我建议您从阅读这篇文章开始,其中涉及各种 NLP 基础知识。1. 神经概率语言模型2. 向量空间中单词表示的有效估计Word2Vec - Skipgram 模型3. 单词和短语的分布式表示及其组合4. GloVe:用于单词表示的全局向量5. 基于循环神经网络的语言模型6. 循环神经网络语言模型的扩展让我们从#1 开始,神经概率语言模型Bengio 等人。提出一种分布式单词表示法来对抗维数灾难。维数灾难源