详细内容或原文请订阅后点击阅览
log链接与r中的日志转换 - 误导您的整个数据分析的差异
尽管正常分布是最常用的,但不幸的是,许多现实数据并不正常。当面对极度偏斜的数据时,我们很容易利用日志转换来归一化分布并稳定方差。最近,我使用数据[…] R中的数据链接与日志转换分析了训练AI模型的能源消耗的项目 - 误导您的整个数据分析的差异首先出现在数据科学方面。
来源:走向数据科学分布是最常用的,不幸的是,许多现实世界数据并不正常。当面对极度偏斜的数据时,我们很容易利用日志转换来归一化分布并稳定方差。我最近使用Epoch AI [1]的数据进行了一个项目,分析了训练AI模型的能源消耗。没有关于每个模型能源使用的官方数据,因此我通过将每个模型的功率拉动时间与训练时间相乘,从而对其进行了计算。新的变量(以kWh为单位)是高度右旋的,以及一些极端和过度分散的异常值(图1)。
为了解决这种偏斜和异性恋性,我的第一个本能是将日志转换应用于能量变量。原木(能量)的分布看起来更正常(图2),而shapiro-Wilk测试证实了边界正态性(p≈0.5)。
建模难题:日志转换与日志链接
可视化看起来不错,但是当我继续进行建模时,我会面临困境:我应该对log转换的响应变量(log(y)〜x)建模,还是应该使用日志链接函数(y〜x,link,link =“ log =“ log”)对原始响应变量进行建模?我还考虑了两个分布:高斯(正常)和伽马分布 - 并将每个分布与两个日志方法相结合。这给了我四个不同的模型,所有模型都使用R的广义线性模型(GLM)拟合:
日志转换响应变量 log(y)〜x , 原始响应变量 日志链接功能 (y〜x,link =“ log”)y〜x,link =“ log”
模型比较:AIC和诊断图
i使用Akaike信息标准(AIC)比较了这四个模型,这是预测误差的估计器。通常,AIC越低,模型拟合越好。
glm(formula = log(energy_kwh)〜训练_time_hour * hardware_quantity + triending_hardware + 0,family = gamma(),data = df)triending_hardware