盖洛普|数据越多越好,到底是不是悖论?(下)


盖洛普|数据越多越好,到底是不是悖论?(下)
文章图片

本文转载自:光明日报
演讲人:朱利平 , 中国人民大学统计与大数据研究院副院长、博士生导师 , 中国人民大学“杰出学者”特聘教授 。 国家自然科学基金优秀青年基金获得者 。 入选中组部青年拔尖人才计划、教育部新世纪优秀人才计划等 。 长期从事复杂数据分析的研究工作 , 在统计学重要学术期刊上发表学术论文70余篇 。
注:本文基于朱利平教授在国家图书馆国图讲坛的演讲而整理 , 原载于光明日报 。 文章的上半部分《 统计无用论?来看看统计学在大数据中的价值(上) 》 主要讲述了统计学与大数据之间的关联 。 今天将继续为您讲述下半部分:数据的收集与分析 。
数据并不是越多越好
统计本身是一门收集数据的科学 , 但是数据是不是越多越好呢?很难说 。
历史上有一个非常有名的例子 。 大约500年之前 , 丹麦有一个天文学家叫第谷 , 他从当时的丹麦国王那里要了一笔钱 , 建了一个实验室 。 第谷天天去观察每颗行星的运动轨迹 , 并且每天记录下来 。 于是第谷观察了20年 , 记录了大量的数据 。 不过 , 这个数据太多了 , 第谷花了大量时间、精力来分析这个数据 , 但没有发现任何规律 。
这时候 , 一个叫开普勒的人出现了 。 开普勒认为 , 第谷每天去观测 , 一年365天每一颗行星都会有365个数据 , 这样20年观测记录积累下来 , 要分析处理的数据就太多了 , 而且那个时候的数据分析只能依靠手工计算 , 这个处理工作量实在太大了 。 于是开普勒就说 , 能不能每年只给我一个数据 , 比如说你可以只告诉我每年的1月1日 , 地球在什么位置 , 土星在什么位置 , 太阳在什么位置 , 等等 。 这样20年的观测数据筛选之后 , 每一颗行星的数据就只有20个了 。 开普勒知道 , 地球每隔365天会回到同一个位置 , 然后他把地球的位置固定 , 再分析其他行星跟地球的相对位置 。 开普勒通过固定地球的位置 , 对其他行星位置20年的数据进行分析 , 就成功得到了其他行星的运行轨迹 。 此后开普勒就发现 , 如果地球位置不变的话 , 那么其他行星的20年运行轨迹画出来之后 , 这些行星都是围着太阳运转 , 运行轨迹都是椭圆形的 。 由此开普勒发现了行星运动的规律 。
从这个天文学上的著名案例 , 我们可以看出来 ,数据太多可能会导致信息量变得巨大 , 反而增加寻找到规律的难度 。 从而需要通过科学的方法简化数据 。
关于这方面的案例还有不少 。 比如说美国总统富兰克林·罗斯福 。 他是美国历史上唯一一位连任四届的总统 。 1932年的时候他第一次当总统 , 当时美国和许多国家正在遭受经济危机 , 罗斯福面临的压力也很大 。 因此到了1936年罗斯福想竞选自己的第二任总统的时候 , 美国许多人预测罗斯福很难连任 。 那一次 , 罗斯福的主要竞选对手是兰登 。 当时就有两个机构在预测总统选举结果 , 其中一个是《文学文摘》杂志 , 它在当时是一个非常有影响力的刊物 , 因为这个杂志此前几次对总统选举结果的预测都成功了 。 到了1936年美国总统选举的时候 , 文学文摘搞了一个大的调查统计 , 它调查了240万人 。 具体方式就是在杂志里面夹上关于总统选举的调查问卷 , 然后收集反馈 。 其实当时文学文摘调查的还不止240万人 , 还要更多 , 只不过最后收回来的有效问卷是240万份 。 正是根据这个调查结果 , 文学文摘宣布他们预测兰登将战胜罗斯福赢得大选 。
而当时还有一个机构 , 准确地说是一个年轻人 , 叫盖洛普 , 他的预测结果跟文学文摘的预测正好相反 。 起初盖洛普做这类调查统计 , 是因为他的母亲要竞选众议员 , 他是给他母亲帮忙 , 于是就在经费不多的情况下做了对较小人群的相关调查 , 然后这个调查结果很成功 , 他母亲当上了众议员 。 接下来他就想调查一下 , 罗斯福和兰登谁会赢得1936年竞选 。 但是他比不了文学文摘的财大气粗 , 所以他只调查了5000个人 , 根据这5000人的调查结果 , 盖洛普预测罗斯福当选 。
结果罗斯福果然成功连任总统 , 盖洛普的预测胜利了 。
这个选举结果出来之后 , 对《文学文摘》杂志的声誉造成了巨大的冲击:毕竟文学文摘调查了240万人 , 最后却发布了一个错误的预测 , 而盖洛普只调查了5000人 , 发布的预测却是正确的 。 结果 , 文学文摘因为这个事情后来就关门倒闭了 。 而那个年轻人盖洛普 , 就此成立了一个民意调查公司 , 也就是现在的盖洛普咨询公司 。

盖洛普|数据越多越好,到底是不是悖论?(下)
文章图片

数据的量多不一定就代表准确 , 收集来的数据质量好、有代表性 , 才有可能分析出准确的结果 。
统计学是一门分析数据的艺术
前面举了一些例子 , 提醒我们需要非常小心地设计方案收集数据 。 数据收集上来之后 , 我们还要做数据分析 。 按照前面大不列颠百科全书的说法 , 统计学同样是一门分析数据的艺术 。
讲到数据分析 , 在这里我只讲两个基本概念: 相关与因果 。 为什么讲这两个概念呢?这是因为人们常常混淆这两个概念 , 常常会把相关关系误以为是因果关系 。 在许多科学研究和政策问题评价中 , 我们更关心因果关系 。 但是 , 当我们看到了某种形式的相关关系后 , 常常会误以为这就是我们追求的因果关系了 。

盖洛普|数据越多越好,到底是不是悖论?(下)
文章图片

比如说 , 在中世纪的欧洲 , 很多人相信 , 虱子对人的健康是有帮助的 。 这是因为当时人们发现 , 得病的人身上很少有虱子 , 而健康人的身上反而是有虱子的 。 这是长期的观察累积下来 , 形成的经验 。 在中世纪的欧洲 , 很长一段时间里人们都根据这个经验 , 得出这样一个因果推论:这个人身上有虱子 , 所以他身体健康 , 那个人身上没虱子 , 说明他身体不健康 。
当时 , 人们确实观察到虱子的存在与否跟人是否健康构成了相关关系 , 但是 , 这是因果关系吗?有了温度计以后 , 人们就发现了 , 这不是真正意义上的因果关系:因为虱子对人的体温非常敏感 , 它只能在一个很小的温度区间范围生存下来 。 而人体一旦生病的话 , 很多时候会出现发烧症状 。 人体一发烧 , 温度变化 , 虱子就无法适应发烧时候的热度 , 于是跑掉了 。 如果我们只停留在观察到健康与否和虱子多寡之间存在关系 , 那实际只是相关关系 , 而不是因果关系 。 与之类似的例子还有很多 , 比如说 , 我们看到每年冰淇淋销量增加的同时 , 各地不幸溺亡的人数也在增加 。 那么这两件事情是不是构成因果关系呢?常识告诉我们 , 肯定不是 。 其实是因为每年气温升高之后 , 游泳的人可能就多了起来了 , 随之溺亡人数也就相应增加了 。 而同样是因为气温升高 , 冰淇淋的销量也会增加 。
也就是说 , 如果我们观察到一个因素出现了一点点变化 , 另外一个因素也会随着跟它变化 , 它们之间可能就有相关关系 ,但是这种相关关系 , 并不意味着这两个因素构成因果关系 。
如何判断因果关系呢 , 这就需要我们非常小心 , 而且要非常艺术地做数据分析了 , 我们最终还是要回到统计学上来 。
这里 , 我们举一个历史上的疾病案例 , 这就是小儿麻痹症 , 也就是脊髓灰质炎 。 现在大家看到的小儿麻痹症病例比较少 , 因为现在有相应的疫苗 。 历史上 , 脊髓灰质炎曾经是一个让人非常害怕的疾病 。

盖洛普|数据越多越好,到底是不是悖论?(下)
文章图片

在20世纪50年代 , 当时美国一所大学的实验室 , 做出了一种针对这个疾病的疫苗 , 已经证明它在实验室条件下能够产生有效的抗体 。 但是他们不知道 , 如果应用到实际生活中的大规模实验 , 这个疫苗还会不会有效 。 所以当时美国政府部门就决定要做实验 , 这个时间大致在1954年 。 因为当时脊髓灰质炎的患者主要是孩子 , 所以当时的实验人群定为小学一二三年级的学生 。 怎么做实验才能够真正说明疫苗是否有效呢?为了确保统计结果最终反映真实的因果关系 , 当时提出了五套实验方案 。
第一套方案是 , 因为1953年之前是没有这个疫苗的 , 所以就从1954年开始 , 给所有的一二三年级小学生接种疫苗 , 最后再来看一下 , 1954年的发病率 , 跟1953年相比 , 会不会有差别 。 这个方案是个办法 , 但是它有问题 , 因为之前每一年的脊髓灰质炎发病率的差别比较大 。 比如说1951年全美可能有3万名脊髓灰质炎患者 , 1952年则有6万名 , 而1953年又可能缩减到不足4万名 。 这个脊髓灰质炎每年发病率的波动都比较大 , 万一到时候实验结果是3万名到4万名之间 , 如何判断这个结果是随机变化的 , 还是疫苗发生了作用?
第二个方案则提出要按照地区来做 。 比如 , 在纽约地区 , 就给一二三年级小学生们全部接种疫苗 , 而在芝加哥地区的就全部不接种疫苗 , 然后来统计 , 纽约和芝加哥这两个地区的脊髓灰质炎发病情况 。 这个方案后来发现也不行 。 因为脊髓灰质炎本身就是传染病 , 一个地区可能流行这个疾病了 , 而另外一个地区就可能没流行 , 那么这两个地区的数据看起来就会有差异 , 但是这不是疫苗的效果 , 不具有可比性 。
于是就有人提出了 第三个方案 。 因为当时这个疫苗接种 , 谁也不知道有没有副作用 , 因此是有一定风险的 。 所以这个方案就提出 , 让接种疫苗的孩子们的父母来自行选择 。 有的家长选择给孩子接种疫苗 , 有的就不选择接种 , 这样同一批孩子就会出现不同的对照 。 但是这么做 , 也有问题 。 因为当时人们已经发现 , 脊髓灰质炎的患者一般来自于家境比较好的家庭 。 这是因为 , 那些家庭经济状况比较差的家庭 , 因为生活条件差 , 卫生条件不好 , 可能一个人很早就接触过脊髓灰质炎的病毒了 , 甚至很可能在刚刚出生的时候就接触了脊髓灰质炎的病毒 , 但是刚出生的婴儿是有母体的免疫力的 , 婴儿凭借母体的免疫力 , 接触这个病毒之后能够产生抗体 , 反而不会得病 。 当时的这类数据情况已经展现了这种现象 。 如果采用自愿接种的方式 , 那些经济状况比较好的家庭 , 往往愿意让自己的小孩去接种 , 而经济状况不好的家庭由于经费原因 , 同时也知道自己这个阶层染病率稍微低一些 , 他可能就不愿意接种了 。 这样就造成了对实验结果的干扰 , 你无法判断到底是疫苗有效还是经济原因导致的不同结果 。
然后是 第四个方案 。 有人提出 , 只让二年级的学生接种 , 而一年级和三年级学生不接种 。 之后再比较接种的跟不接种的学生之间的区别 , 看他们的发病率会不会有差别 。 这个方案是当时的一个脊髓灰质炎防治委员会提出的方案 。 这个方案同样行不通 , 第一 , 它同样无法避开接种孩子家庭贫富差距导致的患病概率差异 。 第二 , 脊髓灰质炎是一种传染疾病 , 人群的年龄是对这种传染有影响的 , 一、二、三年级的学生年龄层次有差别 , 可能就会导致各个年级学生得病概率的差异 。 此外这个方案还有第三个重大缺陷 , 那就是可能会对医生形成心理上的诱导 。 如果按照这个方案执行下去 , 医生们就是知道的 , 一、三年学生没有接种疫苗 , 而二年级同学中有部分同学接种了疫苗 。 当时脊髓灰质炎的诊断还不太容易 , 如果医生已经知道了这个疫苗接种方案 , 而且也提前知道这个疫苗在实验室阶段是管用的 , 那么医生在面对一年级学生时 , 一旦这个疾病还无法确诊 , 那么这个医生就很可能根据“一年级学生没有接种疫苗”“疫苗是有效的”这两个提前的认知 , 就直接诊断这名一年级学生得了脊髓灰质炎 。 而且这种区别对待的方案 , 接种的学生本身心理也会受到影响的 。
当时还有 第五个方案 , 也就是最终执行并被采纳了调查结果的方案 。 这个方案具体来说 , 就是在征得学生家长同意之后 , 仍旧会告诉家长:你即使同意接种疫苗 , 我给你家孩子接种的 , 也不一定是疫苗 , 而是一种看起来跟疫苗一模一样的安慰剂 , 没什么副作用也没有什么效果 。 因为这个安慰剂跟疫苗.长得一样 , 所以医生和学生都不知道到底接种的是疫苗还是普通的安慰剂 , 但是疫苗提供方是知道的 , 它对每一个药品都加了编号 , 因此疫苗提供方知道哪些是安慰剂 , 哪些是疫苗 。 通过这样的方式 , 实验室实现了随机的方式接种疫苗 , 而且无论家境好坏 , 这个接种疫苗都是随机的 。 同时医生们也不知道 , 到底是哪一些小孩接种了疫苗 。 这就规避了年龄、经济条件等各种扰动 , 有助于确定脊髓灰质炎与疫苗之间真正的因果关系 。
1954年 , 这个实验大约有74万名小学生参与 。 最终的实验结果是 , 如果接种疫苗 , 孩子罹患脊髓灰质炎的概率大约是十万分之28 , 如果不接种疫苗 , 患病概率大约是十万分之77 , 二者相差一倍多 。 之后又经过各种努力 , 脊髓灰质炎疫苗在美国获得了通过 。
许多科学结论、政策评价都依赖于因果分析而不是相关分析 。 统计学能够帮助我们证明那些我们所需要的因果关系 。 很多时候 ,真正的因果关系 , 不能简单地建立在相关关系的基础之上 。 还有很多科学问题 , 仍需要我们去发现真正的因果关系 , 这正是统计学可以提供数据收集以及分析方案的地方 , 也是统计学的魅力所在 。
作者:朱利平 , 中国人民大学统计与大数据研究院副院长、博士生导师 , 中国人民大学“杰出学者”特聘教授 。
本文转载于:光明日报
【盖洛普|数据越多越好,到底是不是悖论?(下)】图片来源于Pexels

    推荐阅读