3种方法来利用统计数据撒谎-思拓创客综合信息网站

如何利用统计数据撒谎

3 方法:利用平均数撒谎利用数据集撒谎利用图表撒谎

每个善于观察细节的人都知道，如果你没有相关的知识背景，那么有些统计数据可以非常狡猾地骗过你。看一看下面这些步骤，学习一下如何防范自己被统计数据误导，如何将数据为自己所用，同时把它作为自己的优势。

方法 1
利用平均数撒谎

1
了解专业术语。在讨论到统计数据的时候，“平均数”这个词已经被滥用了。表面上看，这个名词的表意很明显：平均值就是大致居中的一个值。但是，实际上有好几种平均值，如果你没有正确地理解它们，就会被误导。
- “算术平均值”是把所有数据加在一起，再除以总体的样本量来计算出的。换句话说，如果你有3、3、5、4、7这几个数值，算术平均值就是把它们都加在一起（22），然后除以5（因为一共有5个数值）。
  - 在这个例子里，算术平均值是4.4。
- “中位数”是一组数值从低到高排列，恰好处在中间位置的那个数值。还用之前那组数值举例（3、3、5、4、7），中位数就是4，因为有2个数值比它小，2个数值比它大。
- “众数”就是一组数值中最常见的那个值。在我们的例子里，众数是3，因为它出现了两次。
2
利用算术平均值撒谎。算术平均值看起来貌似是以上几种计算方式里最简单的一种，但是实际上不是这样的。因为一组数据里过高或过低的数值能对算术平均值产生很大的影响。要想利用算术平均值撒谎，你就可以在数据里加上一些极端的数值，然后再用公式计算。
- 例如，假如你要统计一个社区内50户家庭的收入。大多数家庭的收入是每年40000-60000美金，但是有一家每年收入是5百万美元。当你计算算术平均值时，得到的数值就会比真实的平均水平高出很多，因为5百万美元这个数值比其他数值大太多了。
- 相似地，如果你的数据里有9个人有1000美元银行存款，第十个人只有1美元存款，那么算术平均值就是900.10美元，几乎比最常见的水平低了10%。
- 在比较可信的数据调查中，在计算算术平均值之前往往会去掉最高和最低的数值。但是，并不是每一条新闻中的调查都这么可信。除非你能直观地看到所有统计数据，或者看到了关于已经去掉极值的书面保证，那最好不要对这些数据照单全收。
3
利用中位数撒谎。中位数实际上是最不容易用来骗人的，因为和其他数据相比，它不太容易过高或过低。它肯定会处于中间的位置，但是，你可以利用中位数来隐藏那些很大或很小的数值。例如，你的数据是1、1、2、3、4、5、3000，那么中位数就是3。
- 如果你的总体样本数量是偶数，那么你就计算中间两个数值的平均值来作为中位数。这样也不会受到极值的影响。
- 在用中位数描述某件事随时间变化的程度时，你要小心。如果一个公司前9年每年涨价3%，但是在今年涨了20%，那么中位数仍然是3%。
4
利用众数撒谎。有时候，众数几乎无法用来撒谎——例如，每人买球类比赛门票的张数这种数据能够用众数精确地表现出来。但是，同样地，众数也能被用来隐藏某些数值，尤其是在比较小的数据组里。
- 例如，如果你的数据里的数值都在1-100之间，但是1出现了3次，那么1就会成为众数，虽然平均值（这种情况下比较敏感）会接近50。
- 任何一项大规模的调查都可以通过过分强调众数来被操控。如果你向100个人调查针对某个产品的满意度，在1-10之间打分，大多数人都打了10分，那么即使打10分的人数比打其他分的人数只多了1个，10也是众数。
5

利用具体数字撒谎。如果你的数据比较抽象，不是具体的名数（例如，顾客满意度），那么要想撒谎实在是太容易了。如果你要求人们在1-3之间打分，那么打3分的人的满意度并不一定是打1分人的3倍。这个技巧一般用在算术平均值上，但是也能用于中位数，甚至众数。

方法 2
利用数据集撒谎

1
使用小的数据集。任何一位好的统计学家都知道，只有收集了大量的数据，才能得出一个有效的平均值，并且预测出准确的趋势。如果你能收集到100个人的信息，那很好，10000个人就更好了。你的数据集里的数值越多，那么算出的平均值就越准确。如果你使用3-5个数值的数据集，你就能得到一个并不真实的结果。
- 例如，如果你发现最近有两个人被愚蠢的东西弄伤了——例如一个枕头——然后你把他们作为你的数据集，你就能说枕头对每个人都很危险。无论你要选择哪一种平均值，只要不被别人看出你的总体里只有2个样本，那么别人就无法辩驳你。
2
使用控制集。最准确的数据集不仅要很大，还要很广泛。如果一个地质学家要调查一个沙漠的地址类型，那么在沙漠的不同地点收集一些数据，要比在同一个地点收集1000个数据更准确。如果你限制数据集的规模，就可以显著地影响调查结果。
- 有时候，这一点很有效，很多人会故意这样做。例如，做人口资料统计的人想要找出男性更倾向于从事的某种职业，那么他们就只需要调查男性人群。只要你把它在数据里明确地标注出来，就没什么见不得人的。
- 那些比较小的学院在做研究项目时，经常会错误地把控制集的调查结果与普遍结果划等号。这可能是因为院校水平在做研究时，没有办法针对广泛、随机的城市人口进行调查，而是更多地面向大学生人群。同样地，只要把这种情况说明就可以了，但是一些新闻机构为了发表耸人听闻的报道，就会将细节模糊化，利用院校水平的调查结果来以偏概全。
3
使用不平衡的数据集。这个做法非常狡猾，可以在一面向大家提供很多细节，一面巧妙地撒谎。其中的小技巧就是把那些其实并不能相提并论的数据放在一起比较。例如，如果你把一座原有100000人口、10年内新增加10000人口的大城市，和一个原本有10个人、10年内增多了10个人的小城镇比较，那么就可以说小城镇人口增长更快。
- 有时候做市场调查的人会利用这个技巧来对销售数据做出误导。例如你要调查苹果和橘子的销售量，但是调查到一半，发现橘子由于存货不足卖光了。如果你继续比较接下来的销售数据，那么苹果的销量就会远远高于橘子，即使苹果并没有真的变得更流行。

方法 3
利用图表撒谎

1
让y轴保持空白。没有什么比条形图和饼图更能直观地表达数据了，但是即使是这些，也能通过一些小技巧来人为地操纵。这是因为人们习惯于观察图表的大小和形状，但是会忽略上面的具体数字。最简单的方式就是不在y轴上做标注。
- 如果你的x轴上有5个柱，但是没有数字标注出它们的相对高度，那人们就难以判断它们之间是否有显著的差异。
2

在y轴上使用很大或很小的数值。比如你的数据在1-50之间，你可以把y轴的高度增加到100来隐藏数值之间的差异；如果你要凸显差异，就把y轴上的单位扩大10倍。如果是用十分位来测量，那么3和10之间的差异就很明显（相差70个单位！），但是如果你的第一个单位就是100，那么3和10之间的差异几乎看不出来（比一个单位小太多了）。
3
从总范围的中间部分开始标注y轴。如果你的数据在11-51之间，你可以从10开始标注y轴，让最小的数值看起来更小，让最大的数值看起来更大。这样代表11的竖条就只是刚刚高过x轴一点点，看起来非常不显眼，除非是特别仔细的人才能看出你的y轴是从10而不是0开始的。
- 这样一来，代表51的竖条比代表11的竖条高了50倍，因为最矮的竖条只有1个单位那么高。如果图表是从0开始标注的，那么代表51的竖条比代表11的只高了不到5倍。
4
使用不合适的缩放比例。每次你看到那一行“不成比例”的小字时，就是这种情况了。这并不总是故意的，有时候数据之间差异太大，无法在同一页图表里表示出来。但是，你可以利用它来达到你的目的。
- 举个例子，人们视觉上对大小的判断会被高度所吸引，但是会忽略竖条的宽度，如果某个东西很高（例如建筑物），就会显得比实际更窄或更宽。
5
利用图表来略去某个数据。这在那种内容涉猎广泛、会按照某种方式将结果进行分类的调查中很常见，例如著名的全美各郡最受欢迎碳酸饮料品牌统计表。乍一看，你会觉得数据统计得很细致，但是随后你就会想到：样本量有多大？判断结果的临界值是多少？使用的是算术平均数、中位数、还是众数？
- 如果你只使用了你调查数据中的某一个区域的结果，而不考虑剩下的，那么你就能很轻易地隐瞒你在该区域调查的样本量其实很小的事实。同样地，由于缺乏具体信息，别人很难评价你结果的好坏。