数据分析统计学必知:如何用最通俗的话解释清
统计需要处理数据,数据从何而来?有时候数据很容易收集—— 例如参加一家健身俱乐部的人员的年龄,或一家游戏公司的销售数据。但有时候不太容易,这时候该怎么办呢? —— 当事件数量十分庞大时,很难决定该从何处着手收集数据。
今天我们将看看如何在实际工作中成功收集数据—— 有效地、正确地、省时省钱地收集数据。
这个先给大家举个例子:
曼帝糖果公司是一家糖果和巧克力主要供应商,曼帝糖果公司打算大做电视广告,吸引更多的消费者,广告包括这样一部分内容:宣传口香糖球的口味持续时间。
问题来了:他们该怎样得到相关数据?公司决定进行口味检验,也已经招聘了一批试吃者帮忙完成检验。
这时出现了两个问题:试吃者吃完了所有的糖球; 试吃者的牙齿健康问题让公司破费不少。
那么应该怎么解决这个问题呢?
曼帝糖果之所以碰到问题,是因为他们的试吃检验出现了''试吃每一粒糖球''这个环节,这个环节费时、费钱、伤牙齿,并且剩不下糖球卖给消费者。
那么,曼帝糖果该做些什么改变呢?让我们从总体和样本的差别讲起。
糖球总体目前,曼帝糖果对现有的每一粒糖球进行口味检验,若用统计术语表达,那么他们是在用总体进行检验。
统计学上的总体指的是准备对其进行测量、研究或分析的整个群体,可以是人、得分,也可以是糖果——关键在于总体指的是所有对象。
普查指的是对总体进行研究或调查。在曼帝糖果的实例中,他们对每一粒糖球进行品尝,因此,是对糖球总体进行普查。普查可以给出关于总体的准确信息。但并不是在任何情况下都切实可行。当总体数量很大,或者说无穷无尽时,就不可能对每一个对象进行研究了。
糖球样本
不需要尝遍所有糖球也能搞清楚糖球口味持续时间—— 你可以不检验总体,而检验样本。
一个统计样本就是从总体中选取的一部分对象。通过选取样本,使其恰当地代表总体,从而得到代表总体的一个子集。对于曼帝糖果来说,一个口香糖球样本就是所选取的一小部分糖球,而不是每一粒糖球。
仅对总体的—个样本进行的研究或调查称为样本调查,在多数情况下,进行样本调查比进行普查更切实可行,通常样本调查所费的时间和费用都较低,且不用考虑整个总体。由于不使用总体。对口香糖球进行样本调查则意味着调查完毕后还会剩下大量糖球。
抽样方法
建立一个好样本的关键是尽量选择最符合总体的样本,如果样本具有代表性,则表示样本具有与总体十分相似的特性,进而意味着可以通过样本预测出总体具有哪些特征。
假定你用一个具有代表性的口香糖样本检验每种口香糖的口味持续时间,检验结果的分布可能如下所示:
即使只是试吃了一个小样本的口香糖,你也能对分布形状得出印象。试吃数量越多,图形形状越清晰。例如,通过查看抽样分布的形状,可以对总体分布的中心位置得出初步印象。
让我们将这张图与实际总体进行比较:
这是总体分布图,看出总体分布于抽样分布有多么接近了吗?
比较这两个图形可以看出,尽管一个图形代表所有的口香糖,另一个图形仅代表其中一些糖球,但二者的大致形状十分相似。他们具有一些共同的特点——例如数据中心的位置相同,这意味着可以用样本数据预测总体数据。
当抽样有误时
但愿我们能保证每一个样本都与作为样本来源的总体相吻合—— 可惜,并非每一个样本都酷似其总体。这似乎不是什么大问题,但是,使用具有误导性的样本实际上会导致对总体做出错误的结论。
例如,设想你为了检验糖球口味典型持续时间而抽取一个口香糖球样本,但这个样本却仅包含红色糖球,这时,样本可能能够代表红球,却不能代表总体中各种其他颜色的糖球。如果用这个样本的结果推测有关口香糖球总体的信息,最终会对口香糖球的特性形成错误结论。
使用错误的样本会导致对总体参数(例如均值和标准差)得出错误的结论,你可能会对数据形成截然不同的观点,进而做出错误决策。