当今时代,大数据泛滥、数据挖掘工具种类繁多,玩弄图表游戏已经变得不能再容易,管理者需要火眼金睛,秒杀数据间的虚假关系!
举个例子,随机选取统计学上相关的两组数据,Y轴表示数据。
截取Y轴,让两条线接近。看,订阅HBR增加了WidgetCo公司的收入。
是不是感觉被忽悠了呢?!警惕虚假相关,一起新技能get√
我们都知道“相关关系并不意味着因果关系”,但当我们看到两条线朝同样的方向倾斜,柱状图中数值同时上升,或者数据点在散点图上聚集在一起时,数据简直在请求我们找出其中的逻辑,我们也甚至想要相信其中存在某种逻辑。
然而,统计学原则要求我们不能做这个逻辑跳跃。有些图表利用视觉小把戏,企图证明事物间存在密切相关性。哈佛法学院法学博士生、《虚假相关》(Spurious Correlations)一书作者泰勒·维根(Tyler Vigen),在他的网站上展示了一些荒唐可笑的“相关性”例子,比如美国人造黄油的人均消耗量和缅因州离婚率。
1 荒谬性
泰勒 维根制作网站就是为了从容量较大的数据组中,找到并描述出数据间荒谬的相关性。以下是三个例子: