大数据面前,统计学的价值在哪里( 三 )

统计学是一门收集数据的艺术

既然统计学被认为是一门收集数据、分析数据的科学和艺术 。 我们暂时不谈科学 , 先来看看统计学为什么被认为是一门收集数据的艺术 。

我们来看第一个案例 。 这个案例是希望调查15个国家的国民的诚实情况 。 调查人员想要知道 , 哪些国家的国民最倾向于撒谎 , 哪些国家的国民很诚实 。 如果直接去问被调查的人员:“您是否撒过谎?”十之八九 , 是问不到真实答案的 。 如果被调查人员以前撒过谎 , 也不在乎多撒这个谎了 。 被调查人员可能出于不同的动机 , 不愿意给出真实答案 。 那么 , 调查数据怎么得来呢?这显然不是简单地通过计算机技术、通过某些爬虫软件就容易收集到适合研究目的相关数据的 。

如何利用统计学方法来收集数据呢?这就需要统计学的智慧了 。 调查人员设计了两组实验 。

调查人员先从每一个国家找1000人参与测试 , 15个国家一共找了15000人 , 找这么多不同国家的人来面对面调查 , 这是非常困难的 , 所以调查人员通过互联网找到了这15个国家共计15000人 。 两组实验都是在互联网上进行的 。

在第一组中 , 他们先做了一个测试 , 请受调查者在家里抛硬币 , 硬币有正反两面 , 调查者事先规定 , 受调查者抛硬币之后要告诉我结果 , 如果硬币正面朝上 , 我就奖励你十块钱 , 如果反面朝上 , 我就不给你奖励 。 这个调查不需要提供你抛硬币的证据 , 只是由你告诉调查者 , 抛硬币的结果 。 这也就是说 , 受调查者有没有撒谎 , 只有他自己知道 。

这个最后的结果 , 实际上调查者是有参照的 。 因为 , 每个国家有1000人参与测试 。 正常情况下 , 1000次抛硬币的结果 , 应该是500次左右正面朝上 。 某个国家参与实验的1000个人之中 , 如果有900个人声称自己抛出来的硬币正面朝上 , 甚至1000人声称抛出来硬币正面朝上 。 那么 , 很大概率就是其中有人撒谎了 。 这是第一组实验 。


推荐阅读