Stop Blaming the Data: A Better Way to Handle Covariance Shift
不要使用偏移作为性能不佳的借口,而是使用逆概率加权来估计模型在新环境中的表现。停止指责数据:处理协方差偏移的更好方法首先出现在走向数据科学上。
Beyond the Flat Table: Building an Enterprise-Grade Financial Model in Power BI
逐步完成数据转换、星型模式建模和 DAX 方差分析,并从中汲取经验教训。文章《超越平面表:在 Power BI 中构建企业级财务模型》首先出现在《走向数据科学》上。
The Intuition Behind Regression Analysis
回归分析是经济学、数据科学和计算机科学中的一个关键主题,但其根源可以追溯到这些学科之前。弗朗西斯·高尔顿爵士在研究了父母及其孩子的身高并注意到这些身高往往会“回归”到平均值后,被认为发明了这个术语。这个名称与这种类型的分析相关联,并且一直沿用至今,尽管更准确的名称可能是“方差分析”之类的东西。我们之前已经写过什么是回归分析。如果您对回归的概念完全陌生,那么这是一个很好的起点。在本文中,我们将更仔细地研究数据科学家、经济学家和统计学家工具箱中的这个工具,以准确了解当我们运行该工具时会发生什么。
December 9 - The importance of stationarity in times series work
时间序列计量经济学中最基本的概念之一是平稳性。平稳时间序列是指其统计特性(例如均值、方差和自相关)随时间保持恒定的序列。这个概念可能看起来很技术性,但它对于计量经济学推论的有效性至关重要。许多现代应用计量经济学,从预测通货膨胀到建模资产价格,都依赖于平稳性假设。当违反这一条件时,标准结果就会崩溃,导致虚假回归、误导性推论和有缺陷的政策结论。
The Machine Learning “Advent Calendar” Day 5: GMM in Excel
本文介绍了高斯混合模型作为 k-Means 的自然扩展,通过方差和马哈拉诺比斯距离改进了距离测量方式。 GMM 没有将点分配给具有硬边界的簇,而是使用通过期望最大化算法(劳埃德方法的一般形式)学习的概率。使用简单的 Excel 公式,我们在 1D 和 2D 中逐步实现 EM,并可视化高斯曲线或椭圆在训练期间如何移动。均值转变、方差调整,形状逐渐围绕数据的真实结构稳定下来。GMM 提供了一种更丰富、更灵活的方式来建模集群,一旦该过程在电子表格中可见,它就会变得直观。机器学习“降临日历”第 5 天:Excel 中的 GMM 帖子首先出现在走向数据科学上。