本文简要概述了这一新兴的过度参数化 ML 理论(以下简称 TOPML),从统计信号处理的角度解释了这些最新发现。我们强调了将 TOPML 研究领域定义为现代 ML 理论子领域的独特方面,并概述了仍然存在的有趣开放问题。
Log Link vs Log Transformation in R — The Difference that Misleads Your Entire Data Analysis
尽管正常分布是最常用的,但不幸的是,许多现实数据并不正常。当面对极度偏斜的数据时,我们很容易利用日志转换来归一化分布并稳定方差。最近,我使用数据[…] R中的数据链接与日志转换分析了训练AI模型的能源消耗的项目 - 误导您的整个数据分析的差异首先出现在数据科学方面。
[Paleontology • 2025] Rise of the King: Gondwanan Origins and Evolution of Megaraptoran Dinosaurs
gondwanan的起源和进化的恐龙莫里森,Scherer,O’Callaghan,O’Callaghan,Layton,Boisvert,Rolando,Rolando,Durrant,Salas,Salas,Allain et Gascoigne,2025年,2025年。霸王龙和巨型龙;但是,目前尚不清楚这些进化枝如何多样化并成长为巨大的比例。这项研究旨在进行生物地理分析和测试气候,以此作为增加规模的潜在机制。我们使用了与R套件生物地理的发育发育矩阵来测试两个进化枝的不同生物地理假设。我们针对已知气候数据绘制了体重(BM)和身体长度,以检验该潜在的假设。大陆尺度的方差并未驱动霸王龙生物地理
When Predictors Collide: Mastering VIF in Multicollinear Regression
探索方差通货膨胀因子如何有助于检测和管理回归模型中的多重共线性。预测器发生冲突时的帖子:在多共线回归中掌握VIF首先出现在数据科学上。
这可能会感到惊讶,但是您会发现Squishy Madice吗?这次,我想谈谈从玩家的角度出现作弊有多困难,并稍有统计学观点。 现在,我们已经准备了两个骰子A和B。 A和B中的一个是所有眼睛都会出现的合法骰子,其机会是第六(约16.7%)的机会。另一侧炫耀的可能性略小。具体而言,出现某个眼睛的机会是七分之一(约14.3%),而另一只眼睛则是扭曲的骰子,机会六(约17.1%)。 我只是尝试扔A和B 100次,并安排了作为条形图的眼睛的频率(次数)。每种场合都可能存在一些差异,因此我们进行了五次尝试“ 100次”,从左到右进行排序。理论上的价值是每只眼睛都会获得100次和时间; 1/6 = 16
Study reveals cold front effects on energy exchange over a Finnish lake
了解湖泊如何与大气交换热量和水分对于区域水资源管理和可持续发展至关重要。中芬研究团队通过基于涡流协方差测量分析芬兰南部瓦纳哈韦西湖的能量通量和冷锋的影响,揭示了这一动态过程。
It’s a game of chicken now, and Boeing has up to 55bn eggs
作者:Scott Hamilton,2024 年 10 月 23 日,© Leeham News:最终,双方差距甚远。今晚投票的 IAM 751 成员中有 64% 拒绝了波音公司上周六修改后的合同要约。缺少... 阅读更多这篇文章现在是一场胆小鬼游戏,波音公司有多达 550 亿个鸡蛋,首次出现在 Leeham News and Analysis 上。
Using PCA for Outlier Detection
一种识别数值数据中异常值的令人惊讶的有效方法PCA(主成分分析)通常用于数据科学,通常用于降维(通常用于可视化),但它实际上对于异常值检测也非常有用,我将在本文中描述它。本文延续了我的异常值检测系列,其中还包括关于 FPOF、计数异常值检测器、距离度量学习、共享最近邻和兴奋剂的文章。这还包括我书《Python 中的异常值检测》的另一段摘录。PCA 背后的想法是大多数数据集在某些列中的方差比其他列大得多,并且特征之间也存在相关性。其中一个含义是:为了表示数据,通常不需要使用尽可能多的特征;我们通常可以使用更少的特征(有时要少得多)很好地近似数据。例如,对于包含 100 个特征的数值数据表,我们可
强化学习 (RL) 擅长处理单个任务,但在多任务处理方面却举步维艰,尤其是在跨不同机器人形式时。模拟环境的世界模型提供了可扩展的解决方案,但通常依赖于低效、高方差的优化方法。虽然在庞大数据集上训练的大型模型在机器人技术中具有高级的通用性,但它们通常需要近乎专家的数据,并且无法适应大型世界模型的策略学习:提高多任务强化学习的效率和性能首先出现在 AI Quantum Intelligence 上。
Principal Components Analysis (PCA) Through a Latent Variable Lens
概述 PPCA(经典 PCA 的扩展)及其通过 EM 算法应用于不完整数据照片由 Dhruv Weaver 在 Unsplash 上拍摄。随着 EM 算法的 E 和 M 步骤重复,该算法收敛到局部最大似然估计量。概率主成分分析 (PPCA) 是一种降维技术,利用潜在变量框架恢复数据中最大方差的方向。当噪声遵循各向同性高斯分布时,概率主成分将与经典主成分紧密相关,在缩放因子和正交旋转方面相同。因此,PPCA 可用于许多与经典 PCA 相同的应用,例如数据可视化和特征提取。PPCA 背后的潜在变量框架还提供了经典 PCA 所不具备的功能。例如,PPCA 可以轻松扩展以适应具有缺失值的数据,而经典
How to regularize your regression
制药应用中的一系列回归实例。我们能否从类似的特定领域数据中学习如何设置正则化参数 \(\lambda\)?概述。实际因变量 \(y\)和特征向量 \(X\)之间最简单的关系可能是线性模型 \(y = \beta X\)。给定一些由特征和因变量对 \((X_1,y_1),(X_2,y_2),\dots,(X_m,y_m)\)组成的训练示例或数据点,我们希望学习 \(\beta\),在给定未见过的示例的特征 \(X’\)的情况下,哪个会给出最佳预测 \(y’\)。将线性模型 \(\beta\)拟合到数据点的过程称为线性回归。这种简单而有效的模型在生物、行为和社会科学、环境研究和金融预测等领域有着广
Bond risk premiums -- certainty found and lost again
这是我在 11 月初斯坦福举行的 NBER 资产定价会议上发表的一系列评论中的第二篇。会议议程在这里。我的完整幻灯片在这里。第一篇文章在这里,关于新凯恩斯主义模型我对 François Gourio 和 Phuong Ngo 的“向下名义刚性和债券溢价”进行了评论。这篇论文是关于债券溢价的。评论让我意识到我以为我理解了这个问题,现在我意识到我根本不理解。经过这么多年,理解期限溢价似乎仍然是一个富有成果的研究领域。我以为我理解了风险溢价期限溢价问题是,持有长期债券或短期债券平均赚的钱更多吗?相关的是,收益率曲线平均向上还是向下倾斜?投资者应该持有长期债券还是短期债券?1. 一开始有均值方差边界和
Portfolio optimization with US large cap equity sectors
我目前仍处于量化投资的情绪中,所以今天我将介绍我在美国大型股票板块的投资组合优化方面所做的一些工作。我这样做是为了增强我目前的 MinVar 框架,我将其用于自己的投资。快速回顾一下投资组合优化的基础知识,提前向阅读本文并哀叹我遗漏了某些内容的 PM 致歉。金融有两个主力模型;切线投资组合,将投资者置于有效前沿,风险调整后的回报(或夏普比率)最大化。或者最小方差投资组合,无论回报如何,都提供具有最低方差或标准差的资产组合的风险敞口。这些投资组合通常是在给定一组约束的情况下估计的,如下所述。假设大多数投资组合分配决策都是从这些理想模型之一开始的——您要么希望实现最佳风险调整回报,要么希望实现最低
Spurious High Frequency Autocorrelation
高频数据的一个奇怪之处是,大多数数据来自集中式限价订单簿 (CLOB),其中买卖价差使数据看起来具有负自相关性,因为交易是在买入价和卖出价随机进行的。推动这种模式的回报远低于交易成本,因此不会产生套利机会。然而,人们可能会倾向于使用高频数据来估计定价期权或凸度成本(又称无常损失、损失与再平衡)的方差。这是一个问题,因为 1 分钟 Gemini 回报产生的方差估计比从每日数据得出的方差估计高 40%。方差随时间线性增长;波动性随时间平方根增长。因此,对于标准随机过程,方差除以频率时应该相同。如果回报期限以分钟为单位,则 5 分钟回报的方差应为 10 分钟回报方差的一半,等等。方差 (ret(M
Moallemi's Auction-Managed AMM
哥伦比亚大学教授 Ciamac Moallemi 和三家 Uniswap 关联公司(Adams、Reynolds 和 Robinson)最近发表了一篇论文,提出了一种重新获得凸度成本的机制。它以 Moallemi 一年前发表的关于自动做市商 (AMM) 和套利利润的先前研究为基础,Moallemi 去年夏天在 a16z crypto 上展示了这项研究。在那次演讲中,他提到拍卖是降低流动性提供者 (LP) 逆向选择成本的一种方式。AMM 的大问题是,LP 通常会在其流行的资本效率 (v3) 池中亏损。LP 的净盈利能力包括以费用收入和凸度形式呈现的收入。LP 利润 = 交易量 * 费用 - 凸度
LvR, Impermanent Loss, Theta, and Arbitrage Profits
arbprofit哥伦比亚大学教授 Ciamac Moallemi、Uniswap 的 Adams、Reynolds 和 Dan Robinson 上周发表了一篇论文,探讨如何通过让套利者竞标以较低价格进行交易的权利来收回部分 LP 凸度成本。我想深入研究这个问题,但我认为了解套利利润与 LP 凸度成本之间的关系会很有帮助,因为这并不明显。此外,这个领域的人们对我所说的 LP 凸度成本使用不同的术语和公式,澄清它们之间的区别会很有用。最终,损失与再平衡 (LvR)、无常损失 (IL)、凸度成本和 theta 代表的是同一件事。这些指标的估计方法将使用每日数据,这些数据会产生随机误差,而这些误差
How to Eliminate Impermanent Loss
无常损失 (IL) 就像是自动做市商 (AMM) 中供应商的外生税。虽然流动性提供者 (LP) 可以对冲其 IL,但这种策略只会降低其方差。最糟糕的是,它超过了大多数 AMM 的费用收入,这不是长期均衡。幸运的是,有一种简单的方法可以显着降低 IL,同时保持这些算法交易合约的自主性。具有下述功能的合约位于 Goerli 测试网上,可以在此处访问(其经过验证的代码在此处公布)。我放弃了之前关于扩展 Uniswap 的 AMM 以处理 perps 和稳定币的想法,但这个是受版权保护的并且正在申请专利。1 消除 IL 的关键是让流动性提供者 (LP) 主导其池中的价格发现交易。实际上,AMM 的套利