数据分析与知识发现
    主页 > 综合新闻 >

面向初学者的数据分析知识,让你快速了解数据

编辑导语:大数据是互联网发展到一定阶段的必然产物,身处于大数据时代的我们每天都会活在一连串的数据里。因此,为了高效并合理地运用这些数据,数据分析行业迅速崛起。到现在,越来越多的人看到了数据分析的未来和前景,本文作者总结了初学者应该掌握的数据分析知识,帮助你快速掌握数据分析技巧。

一、什么是数据分析?

数据或信息只是一串原始的数字或字符,数据量的增加会导致各种需求的增加。

比如我们需要对数据执行检查,进行数据清理,转换以及数据建模,通过这些方式来达到我们需要的目的,得出相应的结论,做出正确的决策——我们把这一系列过程称为数据分析。

在统计应用中,数据分析可以又分为探索性数据分析(EDA)和验证性数据分析(CDA)。这二者的区别在于——EDA着重于发现数据中的新特征,而CDA着重于确认或否定现有的假设。

探索性数据分析可以理解为一种用于找到数据间的模式相关性的分析。就像是“参考答案”的获取,这种“参考答案”有且不限于一个。

场景包括典型的“啤酒尿布”这类数据挖掘应用,工具包括SAS、SPSS这类数据挖掘软件以及R语言这类语言工具。

优点是有可能从一堆貌似杂乱无章的数据中找到一些相关性和模式来辅助决策;缺点是找到一些无意义的相关性,比如所有拥有结婚证的用户都结过婚。

验证性数据分析是当你知道了用什么分析模型和算法,目前需要对已有的数据计算出响应结果,更类似一种“准确答案“的获取。

应用场景就是基于多维数据仓库的OLAP分析应用。在企业应用最广泛的就是EPM(Enterprise Performance Management)包括全面预算,商业智能等应用。

在企业应用最广泛的就是EPM(Enterprise Performance Management)包括全面预算,商业智能等应用。

与"啤酒尿布”这种探索性数据挖掘应用相比,OLAP分析的结果只能是唯一的准确答案。

比如通过企业计算出的利润率只能是一个数字,任何一家企业都不可能得出“利润率有可能是13.2%”这样的答案,一旦确定了一个数字,那这个数字就必然只有对和错两种结果,不存在第三种的可能性。

这类系统包括Oracle Hyperion、IBM Cognos以及智达方通Intcube EPM,这些都是基于多维数据仓库的OLAP分析工具平台。

二、数据分析的大致步骤

1. 确立目标

无论何时发生任何需求,我们首先都需要确定业务目标,评估情况,确定数据挖掘目标,然后根据需求生成项目计划。在此阶段定义业务目标。

2. 寻找数据

对于进一步的过程,我们需要收集初始数据,描述和探索数据,最后验证数据质量以确保它包含我们所需的数据。从各种来源收集的数据将根据其应用和此阶段对项目的需求进行描述,这也称为数据浏览,对于验证所收集数据的质量是必要的。

3. 数据整理

从最后一步收集的数据中,我们需要根据需要选择数据,对其进行清理,构造以获取有用的信息,然后将其整合在一起。

最后,我们需要格式化数据以获取适当的数据。选择数据,清理数据并将其集成为最终确定的格式,以便在此阶段进行分析。

4. 数据建模

收集数据后,我们对其进行数据建模。为此,我们需要选择一种建模技术,生成测试设计,构建模型并评估构建的模型。建立数据模型以分析数据中各种选定对象之间的关系,建立测试用例以评估模型,并在此阶段对数据进行测试和实施。

5. 数据评估

在这里,我们评估最后一步的结果,检查错误范围,并确定接下来要执行的步骤。我们评估测试用例的结果,并回顾此阶段的错误范围。

6. 部署

我们需要计划部署,监视和维护,并生成最终报告并审查项目。在此阶段,我们将部署分析结果,这也称为审查项目。

三、数据分析的四种类型

1. 描述性分析

通过描述性分析这一手段,我们可以分析和描述数据的特征。这是一个处理信息汇总的好方法。描述性分析与视觉分析相结合,为我们提供了全面的数据结构。

在描述性分析中,我们处理过去的数据以得出结论,并以仪表板的形式展现出来。在企业中,描述性分析多用于确定关键绩效指标或KPI以评估企业绩效。

2. 预测分析

借助预测分析,我们可以确定未来的结果。基于对历史数据的分析,我们甚至可以预测未来。它利用描述性分析来生成有关未来的预测,借助技术进步和机器学习,能够获得有关未来的预测性见解。