详细内容或原文请订阅后点击阅览
没有碎片的流失:派对标签错误如何扭转我的头条新闻
来自英国地方选举的数据质量案例研究,涉及分类标准化、度量验证以及为什么原始标签永远不应该定义分析组。帖子《无碎片化的流失:政党标签错误如何扭转我的头条发现》首先出现在《走向数据科学》上。
来源:走向数据科学2018 年至 2022 年间,英国城市议会的波动性几乎增加了一倍。波动率中位数从 12.0 上升至 22.5。
但政党体系并没有分裂。
只有在修复了分类数据错误后,这种区别才变得可见。
这里,波动性衡量的是政党家族之间的选票份额转移程度。碎片化衡量有多少有效参与方参与竞争。如果一个主要政党倒台,而另一个政党承担了大部分损失,那么理事会可能会高度波动,但不会变得更加分裂。
67 个可比当局中,只有 18 个的有效政党数量有所增加。碎片指数的中值变化保持小幅负值:-0.31。投票进展剧烈,但主要是在已经巩固的政党体系内进行的。
该分析的第一个版本看起来截然不同。报告显示,67 个市议会中,有 66 个市议会的分裂程度加剧,波动性中值增加了两倍。那是错误的。错误在于将“工党”和“工党与合作党”等选票标签视为单独的分析政党。一旦在计算指标之前对政党家族进行标准化,标题就完全改变了。
看起来像是派对标签错误的东西实际上是类别建模的失败。其后果通过每个下游指标传播。
更正后的故事不再那么耸人听闻。它也更有用。
类别是模型的一部分
在详细介绍调查结果之前,有必要解释一下出了什么问题,因为这是最直接概括选举之外的部分。
政党标签不是中性字符串。它们编码了混乱的制度现实:联盟、选票措辞、地方政党品牌、国家政党品牌重塑以及不一致的源代码。如果这些标签分组不正确,每个下游指标可能看起来很精确,但仍然是错误的。
解决方案在概念上很简单:在度量聚合之前计算分析方族。
管道现在分隔三个身份:
