数据分析与知识发现
    主页 > 综合新闻 >

企业提高数据质量的方法

什么是质量?

质量有一个标准定义:一组固有特性满足规定的、通常暗示的或必要的需要或期望(要求)的程度。它包含两层意思,一是质量实际上是一组特性,二是质量需要满足需要或期望。因此,从数据分析的角度来看,数据质量就是看当前数据的特征是否能够满足我们对数据分析或挖掘的需求。

质量问题的来源

数据问题的来源可能是从数据来源到数据存储介质。在数据采集阶段,数据的真实性、准确性、完整性和及时性将影响数据质量。此外,数据处理和存储过程中可能涉及对原始数据的修改,这可能会导致数据质量问题。因此,技术、流程、管理等诸多因素都可能影响数据质量。

在企业中,随着企业业务的增长,数据也是一个增量积累的过程。随着数据类型、数据源的不断丰富和数据量的快速增长,企业在数据管理和数据处理方面面临越来越多的数据质量问题。而且,数据质量的管理并没有被企业重视,根本原因是ROI不那么明显。

数据质量管理相对昂贵。因为它涉及到企业数据标准的制定、规范的实施、生命周期管理等多个环节。在收入方面,数据质量带来的好处和结果并不是很明显,大多数公司不会将数据质量作为KPI。企业不同系统中,业务领域关键指标不一致,数据无法共享,造成数据孤岛,大量数据无法链接,存在数据冗余等明显问题,数据维护需要大量的人员、时间和时间。软件和硬件成本。因此,数据的质量管理往往被边缘化,甚至趋于不存在。

接下来,我们将盘点企业普遍遇到的数据质量问题:

数据真实性:数据必须真实准确地反映客观实体或真实业务的存在,并且是真实可靠 原始统计数据是企业统计工作的灵魂,是一切管理工作的基础,是经营者做出正确经营决策所必需的第一手资料。

数据准确性:准确性也称为可靠性。它用于分析和识别不准确或无效的数据。不可靠的数据可能会导致严重的问题并导致缺陷。方法和错误的决定。

数据唯一性:用于识别和衡量重复数据和冗余数据。重复数据是导致业务无法协同、流程无法追溯的重要因素。也是数据治理需要解决的最基本的数据问题。

数据完整性:数据完整性问题包括:不完整的模型设计,如:不完整的唯一性约束、不完整的引用;不完整的数据条目,例如:数据记录丢失或不可用;数据属性不完整,例如:数据属性为空值。不完整的数据可以借鉴的价值会大打折扣,也是最基本、最常见的数据质量问题类型。

数据一致性:多源数据的数据模型不一致,如:命名不一致、数据结构不一致、约束规则不一致。数据实体不一致,如:数据编码不一致、命名含义不一致、分类级别不一致、生命周期不一致……同一数据多副本情况下的数据不一致和数据内容冲突的问题。

数据相关性:数据相关性问题是指具有数据相关性的缺失或不正确的数据关系,例如:函数关系、相关系数、主外键关系、索引关系等数据相关性的存在问题将直接影响数据分析的结果,进而影响管理决策。

数据时效性:数据的时效性(In-time)是指数据在需要的时候是否可以获取。数据的及时性直接关系到企业数据处理的速度和效率。影响业务处理和管理效率的关键指标。

数据质量评价

那么我们如何评价一段数据的质量呢?这是一个很难回答的问题。因为数据质量本身就有几个问题。首先是数据质量的定义不一致。人们对数据质量的理解没有参考标准或标准定义。因此,人们所理解的数据质量,无论是数据评估系统还是数据质量控制系统,都会表现出多样性。不要专注于数据质量的明确定义。其次,没有权威的数据质量标准模型或参考模型。此外,目前还没有系统的数据质量评价指标,也没有形成数据质量评价指标的量化标准。因此,目前对数据质量的研究大多是针对特定领域或特定问题的,并不具有普遍性,也很难将其作为标准化的系统或模型进行推广。

提高数据质量的方法

真正解决数据质量问题,明确业务需求,从需求控制数据质量,建立数据质量管理机制。问题定义基于业务,工具自动及时发现问题,明确问题责任人,并通过邮件、短信等方式通知责任人,确保问题及时通知责任人及时。跟踪问题的改善情况,确保数据质量问题的全过程管理。

俗话说,工欲善其事,必先利其器。易信华晨睿智数据治理平台的数据质量管理模块以全面质量管理的PDCA循环管理方法为指导,充分结合国内数据质量管理工作特点,采用元数据管理、数据挖掘、数据分析、工作流、评分卡片、可视化等技术最终帮助企业和政府建立数据质量管理体系,全面提升数据的完整性、标准化、及时性、一致性和逻辑性,降低数据管理成本,减少不可靠数据导致的决策偏差和失利。