数据分析与知识发现
    主页 > 综合新闻 >

数据挖掘及基于Excel DM插件的具体实例分析

一、数据挖掘(DM)的基本介绍

数据挖掘(Data Mining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。(百度百科)。

数据挖掘起源于从数据库中发现知识(Knowledge Discovery in Database,简称KDD)。KDD一词于1989年8月首次出现在美国底特律市举行的第11届国际联合人工智能学术会议上。KDD被定义为“从数据中发现隐含的、先前不知道的、潜在有用的信息的非平凡过程”,即从数据库中提取隐含的、感兴趣的、有用的知识和模式。在1996年出版的总结该领域进展的权威论文集《知识发现与数据挖掘研究进展》中,Fayyad等人重新给出了KDD和数据挖掘的定义,将二者加以区分:KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程;数据挖掘是KDD中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。换句话说,KDD是一个包括数据选择、数据预处理、数据变换、数据挖掘、模式评价等步骤,最终得到知识的全过程,而数据挖掘只是其中的一个关键步骤。

简而言之,许多人把数据挖掘视为KDD的同义词,而另一些人则把数据挖掘视为数据库中发现知识过程中的一个基本步骤,认为数据挖掘是知识发现过程中的一步,而且是最重要的一步。因此,数据挖掘的广义观点为:数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含的、未知的、潜在的、有用的知识的过程。为了统一认识,Fayyad et al.(1996)对KDD和数据挖掘进行了重新定义。KDD的新定义为:“从数据中辨别有效用的,新颖的,潜在有用的,最终可理解模式的过程”。Fayyad et al.(1996)认为:“数据挖掘是通过KDD过程中特定的算法处理,在可接受的计算效率下生成特定模式的一个步骤”。Klosgen和Zvtkow则认为:数据挖掘时一种透过低阶算法来揭露隐含于数据库中高层信息的应用。因此,再重新定义后的KDD是一个包含数据选择、预处理、交换、挖掘、评估等步骤,并最终得到知识的一个过程。而数据挖掘只是知识发现其中一个关键步骤。 尽管如此,人们还是经常将二者等同看待,即使是单独使用数据挖掘一词,其实也包含数据预处理和结果评估验证等内容。

二、数据预测分析的用途

数据预测是首先建立连续函数值模型,然后构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间的过程。而数据预测分析的用途便可从其定义中引申出来。简单来说,预测要运用各种知识和科学手段,分析研究历史资料和调研资料,对事物发展趋势或可能的结果进行事先的推测和估计。人们对未来进行预测是为了探索预测对象发展的客观规律,揭示其发展方向和趋势,分析其发展的途径和条件,为研究制定最佳方案提供依据。所以数据预测分析广泛的应用与多种场合。大到销售预测,备件需求的预测,经济趋势预测,小到合格品率的预测,长途客运客流量预测,贷款偿还预测等等。正如Forrester Research公司的分析师James Kobielus在Forrester博客的文章中指出的,这项技术是你面向服务架构战略的核心,你可以将预测逻辑深深嵌入到数据仓库、业务流程管理平台、CEP流和业务应用中。它会变得无处不在,指导所有的决策、交易和应用。该技术将上升到这一挑战,企业必须走向全面的先进的结合分析数据挖掘、内容分析和数据库内分析的战略。

三、数据预测分析的目前状况和发展趋势

截止到2010年底,相关资料表明数据挖掘、预测分析以及相关业务建模技术几乎完全是由高技能高工资的统计学家、数学家和定量分析师所使用。但随着数据挖掘的普及度越来远大,这一情况正在发生变化。而数据预测分析作为数据挖掘的一个重要环节,也越来越被人们关注。个人认为,其实数据挖掘和数据预测分析,在我们日常的学习和生活中无处不在,而我们也无处不用。只是,我们不知道我们所用到的方法被定义为“数据挖掘”或是“数据预测分析”。举个简单的例子来说,给出一组数:1,2,3,4,5,6,7,8······对于这组数大家很容易看出来,这是一个等差序列,而从我们分析这组数据到总结出这是一个等差序列的过程就是数据挖掘的过程。假设再让我们写出第九个数或是第n个数,这便是数据预测分析。再举个实际生活中的例子,超市中客户在购买A的同时,经常会购买B,即A => B(关联规则)。在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和