数据分析与知识发现
    主页 > 综合新闻 >

大数据思辨:如果相关不意味着因果,那么意味着

【导语】:相关性和因果性之间的联系,从统计学教材到大数据著作,都有着广泛的探讨,甚至争议不断。迈尔舍恩伯格在《大数据时代》里说,“要相关,不要因果”,在大数据时代,有相关,就够了。而周涛则在《为数据而生》一书中说,放弃对因果关系的追寻,就是人类的自我堕落,相关性分析是寻找因果关系的利器。想不想听听第三方的观点?下面文字为BuzzFeed首席数据科学家Adam Kelleher观点的部分编译,感兴趣的读者,请阅读原文。

我们知道,相关关系和因果关系,在人们的工作和生活中,都扮演着极其重要的角色,它们单独或共同影响着我们的行为去向。比如说,经过千百年来的观察,人们发现,“燕子低飞”和“即将下雨”存在相关性,因此,一旦看到“燕子低飞”,人们就知道“天将下雨”,该收衣服了。

至于因果关系,对我们的影响,就更加明显了。一方面,做某个事情前,我们总习惯“给我个理由先”。事后,也爱给自己的行为“结果”,找个“原因”。比如说,“因为我要早晨去上班,所以我必须6点钟起床”。倘若上班迟到了,给老板解释,“因为闹钟没有响,所以我没能准时起床”。千百年来,因果关系,已经深深地写入了人们的思维基因里。

既然相关性和因果性如此重要,二者之间有什么关系呢?在学校里的统计课程中,我们都不断被老师告知,“相关性并不意味着因果性”。那么,相关性意味着什么?有没有一个更好的解释模型,来帮助我们理解这个纷杂的世界呢?为了搞清楚这些问题,我们首先要了解,什么是因果关系?

何谓因果关系

现在因果关系有着非常明确的定义,通常来说,原因是指引起一定现象的现象,结果是指由于原因的作用,随之串联而引起的现象。因果联系的特征就是,原因在先,结果在后,前者的出现,导致后者。但千百年来,有关因果关系的认知,却争议不断。比如说,18世纪英国著名哲学家休谟,压根就不承认有什么因果关系,他认为,所谓的因果关系,只不过是思想中的习惯性联想罢了。

下面我们就用一个例子,来说明常规意义上的因果关系。假设你每天都要到单位上班。显然,如果交通堵塞,会导致你上班迟到。此外,如果家里的闹钟不响(因此你没能准时起床),也会导致你上班迟到。于是,我们就用一个如图1所示的关系图,来描述这这三者(闹钟、交通和迟到)之间的关系。

图1: 基本的因果关系图

图1仅仅列出了两个最常见的上班迟到原因。实际上,迟到的原因可能还包括,车在路上抛锚了,给孩子们做早餐耽搁了,早起看新闻分心了等等,诸如此类。图1不可能把所有的这些小因素都包括在内。

为了抓住主要矛盾,认知的模型必须精简,如图1所示的模型,只能包括在那些最常见的影响我们上班迟到的因素。那些被我们忽略掉的大量的小因素,可以将其视为“噪音”,将其过滤掉。事实上,我们还可以进一步构建一个更全面的“因果关系”的模型图。比如说,我们继续追寻,交通阻塞的原因是什么?闹钟不响的原因是什么?

倘若有一场意外灾难(如龙卷风),它导致电力中断,从而闹钟不响了(假设闹钟是插电式的)。意外灾难同样也导致了交通堵塞。于是我们重新更新图1,给出了闹钟失效和交通堵塞的原因,如图2所示。

图2:一个更为完整的世界

如果时间轴线足够长,我们可以收集到大数据集合,然后分析发现,在你家的闹钟不响时,交通也发生阻塞了,很显然,这两个原本“风马牛不相及”的事物,存在相关性。但我们也清楚地知道,闹钟是否响起,和是否有交通阻塞,它们之间是没有因果关系的。这就是“相关性并不意味着因果性”的本质。

更明确点来说,相关性是统计上的概念,数据多了,A发生时B发生的概率,足够显著,那么A和B就是相关的。而因果性是逻辑上的概念,A发生导致B发生。类似的还有,例如,看见闪电(A)和听见雷声(B)是高度相关的,但它们二者相互之间并没有因果关系。

正如前文所言,相关性分析,不是杀死因果关系的凶手,恰恰相反,它是寻找因果关系的利器。相关性的背后,一定有导致A和B发生的共同原因在起作用。这些背后的原因,可能不是直接原因,它可能处于“因果关系图”的“上游”某处。例如,自然灾难就是“闹钟不响”和“交通阻塞”的背后共因。雷雨天气是“打雷”和“闪电”背后的共因