数据分析与知识发现
    主页 > 期刊导读 >

大数据时代下数据分析理念的辨析

二十纪九十年代,各行各业的数据呈指数型增长,进入二十一世纪世界各国对数据的发展和应用给予了高度的重视,近年来,大数据系统的应用同时引起了我国自然科学界、人文科学界的关注;随着计算机技术的发展,人们对复杂性数据处理的能力也越来越强,从海量数据中搜索、收集相关信息的能力日益完善,毫无疑问,大数据不仅能为自然科学和人文科学带来相应的技术支持,更能为人们现实中的生活生产方式带去崭新的变化。

1 大数据时代的概述

20世纪80年代,“大数据”的概念由一位美国学者首次提出。大数据是指随着经济社会的发展,对大容量的数据需求日益增多,一定时间内无法用常规的软件工具对数据内容进行管理、分析处理,从而产生的一种有效处理信息数据的技术。

当前,大数据技术已经得到了各行各业的广泛应用,大到医疗、能源等行业,小到零售行业,体现在人类生活的方方面面。众所周知,大数据已经不是简简单的掌握数据大的事实了,而更重要的是要对大数据进行分析,获取更多智能的、深入的、更有价值的信息,从而运用于国民经济的各行各业,促进国民经济的健康快速发展[1]。

大数据具有四个基本课程:

(1)数据体量庞大,且呈现逐年增长的趋势;

(2)数据类型多种多样,且个性化数据占绝对多数;

(3)价值密度低,有用的数据仅仅只有一两秒;

(4)处理速度快。

2 大数据的特征

了解大数据及其时代属性,对于大数据,其特征表现在四个方面。一是大量性。大数据时代下的数据,其数量规模是巨大的,尤其是在当下高速发展的网络平台,各类承载数据资料的网络化工具、终端设备等的普及,数据资料来源的广泛性,使得各类数据资料呈现指数级增长。二是多样性。单就大数据的数据类型,其种类繁多。如文本类数据,表现为结构化特征;网络化日志、音视频、地理位置等半结构化、非结构化数据类型等。由于数据资料来源的广泛性,数据的多样性就必然存在。越来越多非结构化数据资料的增长,需要我们优化数据统计分析方法和技术,从中提取有价值的数据知识。三是价值性。大数据时代下的数据统计分析,其价值也是巨大的。大数据不仅反映了社会、商业、生产、生活等方面信息,同样这些有价值的信息可能会转瞬即逝。通常,价值密度与数据规模成反比。以视频数据为例,一小时的连续不间断视频,其有价值信息可能仅有一秒。由此,对于数据的接收、处理思想和方法,都需要转变,从而更好地从大数据中提纯有价值的数据信息。四是高速性。面对大数据,传统的数据统计方法或工具,显然是无法快速、高效处理大数据的,藉于大数据统计分析的时效性,需要我们能够转变统计分析理念,从海量数据统计分析中获得高效统计目标[2]。

3 大数据数据分析理念

3.1 统计学的引入

守旧的抽样分析实现不了大数据处理和知识发现。于是,非常有必要引进统计思维,脱离对小量数据样本的依附。运用统计工具对全部数据信息实行统计分析,有效地处理数据所展现有价值信息,简单数据的精准性与网络之间的准确因果关系不应该过度重申。我们在运用统计工具来分析数据变化的趋向,可为决策提供参考数据,数据处理对数据精准度要求并不高。

3.2 数据分析流程优化

大数据有着广大的渗透范围。不一样的时代、不一样的地区和不一样的行业都可能互相交叉。传统的线性数据收集和处置方法已经满足不了大数据的处理需要。它们已经产生了一种非传统和颠覆性的有计划形式。数据是由不一样基础信息里所产生的,这些信息被集成或分散,造成所需要的数据信息开始进行深入处理,所得到的信息直接使用于实质决策中。

3.3 数据的开发

传统数据的样本量较小,目的主要着眼于解决问题,数据的时效性较强,数据的使用价值会随时间流逝而降低。而大数据的流动性很强,随着时间的推移会越来越壮大,而且具有推陈出新、价值重塑的可能,因此,在大数据时代,数据是会不断增值的,开发大数据,是一项有重要意义的工作。

3.4 数据分析理念的应用

大数据时代下的数据分析是对大量数据进行归类、统计和归纳、总结的过程,它可以将具有价值的信息提炼出来,数据分析提供了将处理后的数据和未经处理的数据进行比较的机会。大数据是运用统计学思维进行统计分析,这和传统抽样分析挖掘出的信息和价值有着本质的区别。所以大数据在继承统计学思维的基础上摒弃了传统统计分析的逼单,其数据收集和处理的方式可以通过更为广泛的渠道开展。对于大部分大数据来说,数据分析是其蕴含的有效价值得以体现的重要环节。所以数据的积累和数据处理过程的细化是至关重要的。大数据下的数据具有较高的流动性,在时间的推移下积累的数据将会越来越多,数据的精简和再生也具有重要的意义,这样有价值的数据能够得到增值,具有高度关联的数据结合在一起,便于发现问题和解决问题[3]。