学习使用 IBM® WebSphere® Information Analyzer 来支持数据质量分析模式。本文是 “SOA 设计的信息透视图” 系列的第 8 篇文章。本文向架构师社区演示如何使用来自 IBM 的工具 —— 尤其是 IBM WebSphere Information Analyzer 和 IBM Information Server 的统一元数据管理 —— 实现 SOA 过程中的数据质量评估模式(Data Quality Assessment Patter)。文中描述了这些产品中支持本系列 第 6 部分 介绍的数据质量分析模式的关键特性。

简介

阅读本系列的所有文章
1. SOA 架构的信息透视图简介
2. 在 SOA 中应用业务术语表模式的价值
3. 在 SOA 设计中使用 IBM WebSphere Business Glossary
4. 在 SOA 中应用标准建模模式的价值
5. SOA 中 Rational Data Architect 的使用
6. 在 SOA 中应用数据质量分析模式的价值
7. SOA 中数据质量分析模式的执行方法
8. 在 SOA 设计中使用 IBM WebSphere Information Analyzer

WebSphere Information Analyzer 是可以发现已有数据存储的质量问题并对其进行概要分析的工具。它还可以帮助用户执行源系统与目标系统之间的差异分析。

WebSphere Information Analyzer 的主要优点有:

  • 更好地理解数据源结构、内容和质量
  • 在项目整个生命周期内进行评测并报告数据质量
  • 消除整个企业内出现坏数据的风险和不确定性

本系列之前的文章已经解释了在 SOA 服务设计期间分析数据质量的重要性,以及实现方法。其目的是评估服务实现在数据质量方面是否将满足要求的服务级别,以及是否需要附加的数据转换或数据清理操作。无论服务类型是什么,或选择什么样的实现,这种评估都是有必要的。考虑一个例子:一个服务聚合来自多个系统的信息。

无论选择什么集成方法 – SOA 还是数据集成 – 都需要理解被集成的数据。您是否具有可用于跨多个系统匹配数据的键或标识符?如果有,是否需要处理缺失或重复的记录?WebSphere Information Analyzer 可以确定有问题的数据集的特征,以便基于充分的信息最有效地做出决定,并有效地将它们集成起来,产生完整、准确的结果。

最常见的情况是,这些存储是关系数据库,不过 WebSphere Information Analyzer 也支持 XML、平面文件和其他结构化文件类型的分析。

WebSphere Information Analyzer 利用 IBM Information Server 的统一元数据储存库。由于这个储存库是在所有产品之间共享的,当使用 WebSphere Information Analyzer 进行数据概要分析时,表定义和概要分析信息(例如主键和外键实例、违反约束、标注等)可以为 DataStage and QualityStage Designer 中的 Information Server 用户所用,如图 1 所示。


图 1:对 WebSphere DataStage 中的分析细节的元数据访问

IBM Information Server 的统一元数据管理平台还提供很多用于性能和可伸缩性的服务,WebSphere Information Analyzer 可以利用这些服务。例如,WebSphere Information Analyzer 用户可以使用它提供的常见的调度服务来确定执行概要分析的时机。

注意:本文不会详细论述基本的产品使用,而是主要关注 WebSphere Information Analyzer 产生的支持 SOA 中数据质量分析模式的信息类型。用户手册和 IBM Redbook 中提供了关于产品使用的信息:IBM WebSphere Information Analyzer & Data Quality Assessment(参见 参考资料)。





回页首


数据质量分析的项目方法与 WebSphere Information Analyzer

第 6 部分 所述,数据质量分析本身必须看作更宽范围的 SOA 项目之内的一个项目。建立一个特定的分析范围,有助于将焦点放在那些对于项目成功至关重要的数据源上(例如,用于具有法律或金融风险的服务或错误恢复的代价较高的服务的数据)。使用像 WebSphere Information Analyzer 这样的工具并不会消除对有效处理(包括适当的目标构造)的需求。用于执行数据质量分析的资源和时间是有限的,而最终目标是交付拥有支持 SOA 功能的数据的 SOA 服务。

WebSphere Information Analyzer 和底层的统一元数据架构为在一个更大的上下文中组织工作和保存获得的知识提供了框架。

  • 共享的元数据:WebSphere Information Analyzer 合并并共享 Information Server 的元数据储存库中关于数据源的信息,包括连接、模式、表和列定义。这提供了一个容易理解的元数据位置。图 2 显示了储存库中可用的丰富的元数据。这可能包含数千个模式和表,以及数百万个来自不同数据库和文件的列。

    图 2. IBM Information Server 中的共享元数据



本文转自IBM Developerworks中国

      请点击此处查看全文


 
Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐