数据分析与知识发现
    主页 > 综合新闻 >

什么是大数据、数据分析和数据挖掘?它们之间

“大数据”、“数据分析” 和 “数据挖掘” 忽然变成了热门的流行词,不断形成与发展的新型的生产力和服务推动着人类经济社会项目的数据形式与规模向着更快、更准的方向发展,这无疑也预示着现代大数据时代正朝着我们推进。大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘,数da据分析就是进行做出针对性的分析和诊断,大数据需要分析的是趋势和发展,数据挖掘主要发现的是问题和诊断。

那么应当如何正确、合理地应用现代数据呢?应当如何分析、研究数据资源?这已经逐渐成为当代人较多关注的问题。所以应首先了解什么是“大数据”、“数据分析” 和 “数据挖掘”。

大数据(big data)指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)Veracity(真实性) 。

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广,数据分析是数学与计算机科学相结合的产物。

数据挖掘(英语:Datamining)又译为资料探勘、数据采矿,它是数据库知识发现(英语:Knowledge Discoveryin Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程,数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

美国的大数据挖掘分析公司Palantir成立于2004年,该平台把人工智能算法和强大的引擎(可以同时扫描多个数据库)整合,可以同时处理大量数据库,并允许用户通过多种方式快速浏览相关信息。其产品已被美国中情局(CIA)、联邦调查局(FBI)、海陆空三军、联邦检察官、私人调查机构及其他客户所使用。类似CIA和FBI这样的情报机构有成千上万个数据库,并记录着不同的数据,比如财务数据、DNA样本、语音资料、录像片段以及世界各地的地图。将这些数据建立联系需要数年的时间,即便统一在一起,也很难驾驭不同种类的数据,比如说如何关联销售数据和监控录像资料,而Palantir公司所做的就是开发软件使这一切变得更容易。

Palantir引发了计算机时代的一场革命,它梳理所有可以获得的数据库,对相关信息进行确认,并将他们整合起来。Palantir成立之初就获的CIA基金公司In-Q-Tel的投资,现在成为了美国情报机关在反恐战争不能缺少的工具。Palantir有效的解决了911后对情报工作提出的技术难题:如何从大量的数据中快速获取有价值的线索,可以说是CIA的反恐秘密武器。