当前位置:数据中心技术专区 → 正文

数据中心优化是信息中心建设的重点

责任编辑:vivian |来源:企业网D1Net  2012-01-06 09:02:02 本文摘自:CENT

记者日前在采访Informatica中国区首席产品顾问但彬先生时,他告诉记者:“Informatica既可以在数据架构层面提供信息传递、B2B数据交换、企业数据集成等一系列的基础架构解决方案,同时也可为行业提供数据质量管理、主数据管理和复杂事件处理等方案,来支撑数据中心实现可信、交互、权威的信息资产管理,达成企业的业务目标,这也是信息中心建设的一个重点。”

六个角度考量数据质量

但彬表示,数据质量管理在数据中心建设中是一个完整的生态链。数据质量会受到供应商、生产员工、工艺流程以及内部客户和外部系统的影响,同时,从应用和软件角度方面讲,数据提供者、软件开发集成、质量管控手段等也都会影响到企业数据质量的整体状况。

从数据质量整体框架和方法论上讲,首先要确定目标,然后要清楚用什么人,通过怎样的流程,采用什么样的技术支撑来达成目标,人、流程、技术三方面缺一不可。而设定最终目标前最重要的一件事是要了解现状,找出企业最关注哪些数据质量,通过记分卡对现有数据进行评估,同时还要进行实时的监控,从流程、时间角度发现数据的变化。

数据质量理论上不是完全可控的,要实现数据质量提升,必须要做到指标的可量化,通过量化指标实现质量可控。从技术层面讲,要从以下六个角度去考量数据质量,也称为数据质量的矩阵。包括:完备性(信息是否填写全面)、符合性(数据是否按照标准格式进行填写)、一致性(是指内部冲突,同一系统中两个字段间相关推导和约束关系)、准确性(包括数据是否真实有效和数据是否及时更新)、唯一性(多条信息是否相同和一致)以及完整性(从约束性和参考性方面考虑,数据相互间的参照关系)。当然,企业是要根据自己的业务需求来确定考量数据质量的指标或体系,并不一定必须局限在这六个方面。

数据质量提升并非一蹴而就

一个完整的数据质量管理,是人、流程和技术的完美配合,这样才能达到企业数据质量管理的目标。那数据质量处理的流程是怎样的呢?但彬告诉记者,对于数据质量的处理,一般把它分成两大部分,一是面向数据质量的分析过程;二是针对分析结果进行增强的过程。

先要识别和量化数据质量,然后定义数据质量和目标,接下来就要交给相关部门设计质量提升的流程,其后就是实现质量提升的流程,把原有低质量数据变成高质量数据,并交付给业务人员使用。同时,在整个环境中,还需要有相关的一些监控和对比来评估是否达成了目标,决定是否需要进行新一轮的数据质量提升。这是一个周而复始、螺旋上升的过程,并不是一蹴而就,一次就可以解决全部问题。

Informatica四部分构建数据质量管理

通过Informatica构建数据质量管理主要分为四大部分。

首先是AnalyzeandPrfiling,通过对现有数据的详细分析、描绘,来确定怎样对他进行处理和标准化;第二是StandardiseCleanse,标准化和清洗更容易让计算机识别,比如数据可以通过什么样的格式进行限制和约束,进行怎样的交验就可以达到数据标准的要求,那些信息可以通过数据质点或者参考数据进行相关的标准化;第三是Match,标准化后要进行相关的数据匹配,解决数据重复性问题,并保证数据的唯一性;第四是Consolidate,将重复数据进行合并,最后运用到不同的系统当中。需要注意的是,在整个过程中我们都需要进行相关的监控。在我们日常数据中心的建设中,也可以对这几部分进行相关的延展或者精简来完善我们数据质量管理的过程。

但彬重点介绍了Informatica最具特色的模糊匹配技术。在数据匹配关联中,可以用到不同的匹配关联技术,比如在实现数据的精确快速匹配时,可以先对数据进行预览,查看两个数据的可匹配度是多少,再进行分析来确定这种匹配是否适用于此种数据的匹配过程。如没有精确匹配来保证匹配率,则可以采用模糊比对的方法。为此他举了这样一个例子(参见下图),在人名比对中,可能因为拼音简、繁体输入问题造成一个人的数据信息不一致,王门骞的“骞”,一个是简体,一个是繁体,这两个字在计算机编码中并不一致,所以他们的名称并不相等,这时就要对他的名字进行模糊匹配打分,通过结果来分辩数据的可信度。比如设定0.8以上的数据为可信,那第二条王门骞就是可信的同一个人,而第二条陈东壁被判定不是同一个人。

结束语

现在,很多企业的数据中心,不仅仅只是一个最单纯的面向数据仓库的数据存储中心,而是既能支持业务运营,又支持系统分析,还可进行系统间的整合。在数据中心建设中,数据质量需要从数据源端就开始进行治理,治理到业务交互的各个过程。包括PowerCenter、DataQuality、MDMHub、Informatica9在内的Informatica的数据质量工具,可以将所有的业务逻辑和规则变成相关的一些服务,由各个业务前端、各个业务处理过程中,对数据服务进行调用,进行相关的数据校验和数据清洗,这就是Informatica数据质量平台为企业数据中心建设所提供的支持和帮助。

关键字:优化数据清洗数据中心

本文摘自:CENT

x 数据中心优化是信息中心建设的重点 扫一扫
分享本文到朋友圈
当前位置:数据中心技术专区 → 正文

数据中心优化是信息中心建设的重点

责任编辑:vivian |来源:企业网D1Net  2012-01-06 09:02:02 本文摘自:CENT

记者日前在采访Informatica中国区首席产品顾问但彬先生时,他告诉记者:“Informatica既可以在数据架构层面提供信息传递、B2B数据交换、企业数据集成等一系列的基础架构解决方案,同时也可为行业提供数据质量管理、主数据管理和复杂事件处理等方案,来支撑数据中心实现可信、交互、权威的信息资产管理,达成企业的业务目标,这也是信息中心建设的一个重点。”

六个角度考量数据质量

但彬表示,数据质量管理在数据中心建设中是一个完整的生态链。数据质量会受到供应商、生产员工、工艺流程以及内部客户和外部系统的影响,同时,从应用和软件角度方面讲,数据提供者、软件开发集成、质量管控手段等也都会影响到企业数据质量的整体状况。

从数据质量整体框架和方法论上讲,首先要确定目标,然后要清楚用什么人,通过怎样的流程,采用什么样的技术支撑来达成目标,人、流程、技术三方面缺一不可。而设定最终目标前最重要的一件事是要了解现状,找出企业最关注哪些数据质量,通过记分卡对现有数据进行评估,同时还要进行实时的监控,从流程、时间角度发现数据的变化。

数据质量理论上不是完全可控的,要实现数据质量提升,必须要做到指标的可量化,通过量化指标实现质量可控。从技术层面讲,要从以下六个角度去考量数据质量,也称为数据质量的矩阵。包括:完备性(信息是否填写全面)、符合性(数据是否按照标准格式进行填写)、一致性(是指内部冲突,同一系统中两个字段间相关推导和约束关系)、准确性(包括数据是否真实有效和数据是否及时更新)、唯一性(多条信息是否相同和一致)以及完整性(从约束性和参考性方面考虑,数据相互间的参照关系)。当然,企业是要根据自己的业务需求来确定考量数据质量的指标或体系,并不一定必须局限在这六个方面。

数据质量提升并非一蹴而就

一个完整的数据质量管理,是人、流程和技术的完美配合,这样才能达到企业数据质量管理的目标。那数据质量处理的流程是怎样的呢?但彬告诉记者,对于数据质量的处理,一般把它分成两大部分,一是面向数据质量的分析过程;二是针对分析结果进行增强的过程。

先要识别和量化数据质量,然后定义数据质量和目标,接下来就要交给相关部门设计质量提升的流程,其后就是实现质量提升的流程,把原有低质量数据变成高质量数据,并交付给业务人员使用。同时,在整个环境中,还需要有相关的一些监控和对比来评估是否达成了目标,决定是否需要进行新一轮的数据质量提升。这是一个周而复始、螺旋上升的过程,并不是一蹴而就,一次就可以解决全部问题。

Informatica四部分构建数据质量管理

通过Informatica构建数据质量管理主要分为四大部分。

首先是AnalyzeandPrfiling,通过对现有数据的详细分析、描绘,来确定怎样对他进行处理和标准化;第二是StandardiseCleanse,标准化和清洗更容易让计算机识别,比如数据可以通过什么样的格式进行限制和约束,进行怎样的交验就可以达到数据标准的要求,那些信息可以通过数据质点或者参考数据进行相关的标准化;第三是Match,标准化后要进行相关的数据匹配,解决数据重复性问题,并保证数据的唯一性;第四是Consolidate,将重复数据进行合并,最后运用到不同的系统当中。需要注意的是,在整个过程中我们都需要进行相关的监控。在我们日常数据中心的建设中,也可以对这几部分进行相关的延展或者精简来完善我们数据质量管理的过程。

但彬重点介绍了Informatica最具特色的模糊匹配技术。在数据匹配关联中,可以用到不同的匹配关联技术,比如在实现数据的精确快速匹配时,可以先对数据进行预览,查看两个数据的可匹配度是多少,再进行分析来确定这种匹配是否适用于此种数据的匹配过程。如没有精确匹配来保证匹配率,则可以采用模糊比对的方法。为此他举了这样一个例子(参见下图),在人名比对中,可能因为拼音简、繁体输入问题造成一个人的数据信息不一致,王门骞的“骞”,一个是简体,一个是繁体,这两个字在计算机编码中并不一致,所以他们的名称并不相等,这时就要对他的名字进行模糊匹配打分,通过结果来分辩数据的可信度。比如设定0.8以上的数据为可信,那第二条王门骞就是可信的同一个人,而第二条陈东壁被判定不是同一个人。

结束语

现在,很多企业的数据中心,不仅仅只是一个最单纯的面向数据仓库的数据存储中心,而是既能支持业务运营,又支持系统分析,还可进行系统间的整合。在数据中心建设中,数据质量需要从数据源端就开始进行治理,治理到业务交互的各个过程。包括PowerCenter、DataQuality、MDMHub、Informatica9在内的Informatica的数据质量工具,可以将所有的业务逻辑和规则变成相关的一些服务,由各个业务前端、各个业务处理过程中,对数据服务进行调用,进行相关的数据校验和数据清洗,这就是Informatica数据质量平台为企业数据中心建设所提供的支持和帮助。

关键字:优化数据清洗数据中心

本文摘自:CENT

电子周刊
回到顶部

关于我们联系我们版权声明隐私条款广告服务友情链接投稿中心招贤纳士

企业网版权所有 ©2010-2024 京ICP备09108050号-6 京公网安备 11010502049343号

^