数据质量包括数据质量控制和数据治理。
数据是组织最具价值的资产之一。企业的数据质量与业务绩效之间存在着直接联系,高质量的数据可以使公司保持竞争力并在经济动荡时期立于不败之地。有了普遍深入的数据质量,企业在任何时候都可以信任满足所有需求的所有数据。
一个战略性和系统性的方法能帮助企业正确研究企业的数据质量项目,业务部门与 IT 部门的相关人员将各自具有明确角色和责任,配备正确的技术和工具,以应对数据质量控制的挑战。
扩展资料:
控制方法:
1、探查数据内容、结构和异常
第一步是探查数据以发现和评估数据的内容、结构和异常。通过探查,可以识别数据的优势和弱势,帮助企业确定项目计划。一个关键目标就是明确指出数据错误和问题,例如将会给业务流程带来威胁的不一致和冗余。
2、建立数据质量度量并明确目标
Informatica的数据质量解决方案为业务人员和IT人员提供了一个共同的平台建立和完善度量标准,用户可以在数据质量记分卡中跟踪度量标准的达标情况,并通过电子邮件发送URL来与相关人员随时进行共享。
3、设计和实施数据质量业务规则
明确企业的数据质量规则,即,可重复使用的业务逻辑,管理如何清洗数据和解析用于支持目标应用字段和数据。业务部门和IT部门通过使用基于角色的功能,一同设计、测试、完善和实施数据质量业务规则,以达成最好的结果。
4、将数据质量规则构建到数据集成过程中
Informatica Data Quality支持普遍深入的数据质量控制,使用户可以从扩展型企业中的任何位置跨任何数量的应用程序、在一个基于服务的架构中作为一项服务来执行业务规则。
数据质量服务由可集中管理、独立于应用程序并可重复使用的业务规则构成,可用来执行探查、清洗、标准化、名称与地址匹配以及监测。
5、检查异常并完善规则
在执行数据质量流程后,大多数记录将会被清洗和标准化,并达到企业所设定的数据质量目标。然而,无可避免,仍会存在一些没有被清洗的劣质数据,此时则需要完善控制数据质量的业务规则。Informatica Data Quality可捕获和突显数据质量异常和异常值,以便更进一步的探查和分析。
5、对照目标,监测数据质量
数据质量控制不应为一次性的“边设边忘”活动。相对目标和在整个业务应用中持续监测和管理数据质量对于保持和改进高水平的数据质量性能而言是至关重要的。
Informatica Data Quality包括一个记分卡工具,而仪表板和报告选项则具备更为广泛的功能,可进行动态报告以及以更具可视化的方式呈现。
参考资料来源:百度百科——数据质量
一 数据质量基本概念
数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高
数据质量管理不是一时的数据治理手段,而是循环的管理过程。其终极目标是通过可靠的数据,提升数据在使用中的价值,并最终为企业赢得经济效益
二 影响因素
数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真实性、准确性、完整性、时效性都会影响数据质量。除此之外,数据的加工、存储过程都有可能涉及对原始数据的修改,从而引发数据的质量问题。所以,技术、流程、管理等多方面的因素都有可能会影响到数据质量。
在企业中,随着企业业务的增长,数据也是一个增量积累的过程。随着数据类型、数据来源的不断丰富以及数据数量的快速增长,企业在数据管理工作和数据流程中面临越来越多的数据质量问题。而且数据质量的管理并没有被企业重视起来,其根本原因还是ROI并没有那么明显。
数据质量管理相对来说成本比较高。因为它涉及到企业数据标准的制定、规范的落地、生命周期的管理等多个环节。从收益上来说,数据质量的效益和结果并不是十分明显,大部分企业不会把数据质量作为KPI。在企业的不同系统中,业务领域的关键指标不一致,数据无法共享导致出现数据孤岛,大量数据无法关联,并且有明显的数据冗余等问题,还有数据的维护需要投入大量的人员、时间、软硬件成本。所以数据的质量管理往往被会边缘化甚至趋向于无。
在此附上数据的生命周期图,包括各环节的数据流转和数据处理。
三 评估维度
完整性
数据完整性问题包含数据条目不完整,数据属性不完整等
一致性多源数据的数据模型不一致,如命名不一致,数据编码不一致,含义不一致,生命周期不一致等
准确性准确性也叫可靠性,不可靠的数据可能会导致严重的问题,会造成有缺陷的方法和糟糕的决策
唯一性
用于识别和度量重复数据,冗余数据,重复数据是导致业务无法协同, 流程无法追溯的重要因素,也是数据治理需要解 决的最基本的数据问题
关联性数据关联性问题是指存在数据关联的数据关系缺失或错误,例如:函数关系、相关系数、主外键关系、索引关系等。存在数据关联性问题,会直接影响数据分析的结果,进而影响管理决策。
真实性
数据必须真实准确的反映客观的实体存在或真实的业务,真 实可靠的 原始统 计数据是企业统计工作的灵魂,是一切管理工作的基础,是经 营 者进行正确 经营决策必不可少的第一手 资料。
及时性数据的及时性(In-time)是指能否在需要的时候获到数据,数据的及时性与企业的数据处理速度及效率有直接的关系,是影响业务处理和管理效率的关键指标。
逻辑检查不同表字段之间可能会有逻辑关联,需要稽核
离群值检查部分数据可能会偏离其他数据,比如同一个商品金额大家都是100元,而有一条数据是1W
自定义规则由需求方自定义相关规则
波动稽核
与上周环比稽核波动情况
强弱规则
每个规则的权重应该是不一样的,需要配置优先级,这对后续的告警方 式是有帮助的
我们最终的目的是希望做到页面可配置
数据质量包括数据质量管理和数据治理两个大方向。数据质量管理是一种为了满足企业对于数据的需求,对各种业务活动产生的数据进行规范存储,然后通过ETL方法处理后把不同来源数据统一储存在数据仓库中的过程。
一、数据质量管理
数据质量管理不是短期内就能完成数据处理,提高数据质量的工具,也不是一种数据类的技术,更不是一个软件系统,而是一种长期循环持续的管理活动体系,是包含着方法论、业务和管理的数据类技术解决方案。
1.数据规划
企业管理人员必须先确定好数据质量管理体系的顶层设计,从思维的方向出发把企业文化变成数据驱动型文化,然后提前做好数据规范,将其融合到企业的KPI指标中,利用奖惩制度监督员工,把数据确立为企业的基石。
2.数据存储
部署商业智能BI,将企业原本拥有的业务信息系统以及其它不同来源的数据统一连接到数据仓库中,再经过ETL过程处理后,企业的数据质量就能飞速提高。
3、
数据分析人员可以通过派可数据BI中的可视化分析功能,从图表直连数据仓库取数,实现流程的自动化,避免出现其他干扰,然后通过联动、钻取等功能实现不同图表之间的互动,深化可视化分析报表展现的数据量和深度。
4.形成闭环
业务活动产生数据,分析人员利用数据判断出业务发展趋势,辅助管理人员对业务发展进行决策。在这么一个不断优化的闭环流程中,数据质量将会不断提高,逐渐将企业数据精细化到极致,进而产生变革。
二、数据治理
数据治理是一种提高数据质量的手段,最后还是要回到业务本身,实现落地,对于企业来说,能够对业务活动进行量化处理,并以数据的形式展现出来,是数字化时代现代企业的重要标志。
数据治理的目标其实就是不断提高业务数据的质量,增强数据的可信度,减少错漏。对于企业管理人员来说,数据就是他们了解企业整体发展状况最重要甚至是唯一的渠道。
数据治理的目标不仅是优化提效,更是涉及决策发展,关乎企业发展的关键。由此,我们可以初步确定数据治理的目标。
完整性:规范业务流程,完善数据库数据模型;
准确性:增加数据质量考核标准,建立奖惩制度;
及时性:优化数据存储调取时间,提升取数分析效率;
一致性:确定数据指标体系,确保数据和业务相对应;
唯一性:添加数据查询索引,避免数据库数据重复。