指标(和LLM)如何欺骗您:悖论的现场指南

当数字撒谎时 - 您的指标误导您的帖子,指标(和LLM)如何欺骗您:悖论的现场指南首先出现在数据科学上。

来源:走向数据科学

概述

只是错觉或令人难以置信的难题。它们也可能是合乎逻辑的,导致最初的观察结果在仔细研究后瓦解。在数据科学中,悖论会在我们以面值为单位的数字时出现,而无需查看其背后的上下文。一个人可以具有最清晰的视觉效果,但仍然走错了故事。

在本文中,我们讨论了三个逻辑悖论,这些悖论是对任何迅速解释数据而无需应用上下文的人的警告性故事。我们探讨了数据科学与商业智能(BI)用例中如何出现悖论,然后将洞察力扩展到检索增强的生成(RAG)系统,在此过程中,类似的悖论可能会破坏所提供的提示和模型输出的质量。

辛普森的商业智能悖论

辛普森的悖论描述了当数据汇总时趋势逆转的情况。换句话说,当您组合数字并分析这些趋势时,您在亚组中观察到的趋势会被翻转。假设我们正在分析流行冰淇淋链的四个地点的销售。当对每个位置的销售进行单独分析时,这表明巧克力风味是客户最喜欢的。但是,当销售加起来时,趋势就会消失,新的综合结果表明香草是最喜欢的。辛普森的悖论表示这种趋势逆转。我们使用下面的虚拟数据来证明这一点。

locationChocalyvanillataTal custerutionChocaly%vanilla%winnersuburb a1552075.0%25.0%chocolatecity B33276055.0%45.0%chocolatemall20801920400052.0%48.0%chocolateairport144402160360040.0%60.0%60.0%vanillatotal35684112768046.5%的冰上冰cropl youty cropl youty cropl youthery crecy locationChocalyvanillataTal cultessChocaly%vanilla%获胜者 位置 巧克力 香草 总客户 巧克力% 香草% 获胜者 郊区A1552075.0%25.0%巧克力 郊区 15 5 20 75.0% 25.0% 城市B33276055.0%45.0%巧克力 城市B
locationChocalyvanillataTal cultessChocaly%vanilla%获胜者 位置 巧克力 香草 总客户 巧克力% 香草% 获胜者 郊区A1552075.0%25.0%巧克力 郊区 15 5 20 75.0% 25.0% 城市B33276055.0%45.0%巧克力 城市B