洞察噪声之后的真相

Behemoth
Behemoth @behemoths
拆穿数据胡扯 - 评论

信息时代在给人们带来了种种便利的同时,也带来了众多的挑战和问题。其中,最为突出的一个问题是人们被大量信息所淹没,难以分辨哪些信息是可信的,哪些信息是不可信的。在这种情况下,人们往往会被虚假信息所误导,影响他们的决策和行为。 因此,我们需要具备一定的信息素养和判断能力,从而能够分辨真伪。

在读这本书之前,我并没有对它期待太高,尤其是本书的标题以及书中随处可见的“胡扯”二字,总是让我感觉过于口语化。然而在熬过了没有什么信息量的前几章之后,书中的内容开始逐渐变得有趣起来。从相关性误认为因果性谬误,到数字的滥用,再到 p 值操控等等,介绍了一系列相当实用的内容。

在这其中,第六章的选择偏倚,第九章的检察官谬误,第十章的费米估算应该是本书最有价值的部分。选择偏倚从我的理解来看,比较类似于我们平时所言的“幸存者偏差”,其本质在于由于我们的选择,导致有一部分样本被淘汰,使得剩余的样本分布和之前的总体变得有所不同,而我们依然习惯于按照总体的分布来理解,从而会得到错误的结论或者有一些不符合直觉的感觉。比如一个典型的现象就是为什么我们总是感觉别人会有更多的朋友。检察官谬误其实来自于贝叶斯公式,比如,对于一种罕见病,假如得病那么阳性的概率为99%,那么假如检验出阳性,那么是不是说明得病的概率有99%呢?并非如此。这个问题本质上是在区分两种不同的条件概率,虽然看起来一样,却极易混淆,结果也天差地别。事实上,假如这种罕见病的发病概率仅为0.1%,那么即便检验出阳性,得病的概率也仅有不到2%。这其中的 insight 在于,阳性且得病的概率,取决于这种疾病的基础发病概率。如果仅仅在这里就停下,那只是停留在普通的统计学教材的水平。但是本书的精彩在于,从这一个简单的例子出发,进一步引入了发表偏倚,虽然是同一个问题,但是却一下深刻了许多,发表偏倚不禁让我们思考,发表出来的论文中,可信的究竟有多少呢?这就步入了科学哲学的范畴。费米估算尽管我多少也听说过,但是,从这本书举出的种种非常实际的例子中,我才了解到这种方法究竟是多么强大,在短短几分钟甚至几秒钟的时间里,就能快速验证一种说法究竟是符合不符合实际。

虽然谬误的形式很多,种类也很多,想要分辨并不容易,但是我想,想要洞察种种噪声之后的真相,最重要的,还是要保持敢于质疑的精神,无论遇到什么新信息,都要多问几个为什么而非直接接受,保持开放的心态,不断积累,只有这样,才能让我们的批判性思维得到长足的进步和提高。