首页 >> 解决方案 >> 数据剖析促进数据迁移

通过自动数据剖析促进数据迁移

企业发现,通过在项目初期使用先进的数据剖析工具,它们能够简化数据迁移、节省大量时间与开销。

数据迁移的困境

企业通常认为数据迁移是为新的企业应用程序构建合适环境过程中不可避免而又单调乏味的一环。但这些项目通常要比企业所预期的复杂、昂贵得多,带来额外的问题,且花费远超最初预算。主要包含以下原因:

  • 数据用途不同,对数据质量的要求也不同。企业常常以为数据已经足够完善的原因其实也简单易懂:数据在原先的源系统中运行效果良好。因此,就以为数据在目标系统中运行效果一样。然而,数据在源系统中可能只服务于一个特定用途,而迁移过去的数据则可能需要服务于另一种或者多种用途,在这些情况下,自然对数据质量的要求也不一样。因此,评估待迁移数据是否符合其目标用途非常重要。
  • 数据修复程序在迁移中缺失。源系统本身通常包含修正其数据的专用程序。这些程序已经编写了一段时间,用来解决特定应用程序中的特定数据异常,但在迁移过程中难免缺失。结果,数据就可能没有正确加载,加剧了不准确性、超时超支等问题;严重时,甚至导致后期项目取消。因此,充分了解源数据中的数据,包括所有不一致和异常情况,是任何集成项目中的重要一环。
  • 迁移涉及多个系统,数据质量问题相互交错。另一方面,数据迁移项目往往会涉及合并多个系统的数据。在单一系统中运行效果不错的数据记录,在与其他有同样质量问题的记录集合并时,会因用途不同而产生严重不一致、不连贯的结果,并最终产生不同的数据结构、定义和内容集合。

传统ETL工具还不能满足数据迁移对数据质量的要求

ETL 工具可提供较强大的连接功能来连接不同应用程序,还可轻松将信息从一个系统映射到另一个系统并处理元数据,但在检验数据连续性、剖析信息完整性以及识别数据字段缺失、异常与其他不一致情况等许多任务中,它们又存在不足。研究机构指出,这类分析和智能变换至关重要,但往往被忽视,这主要是因为企业以为源数据无需修复。

现今,许多项目经理和系统集成商已从过去的错误中吸取了教训。他们明白在开始迁移项目前了解数据的重要性。数据剖析处理是准确规划数据集成与迁移项目并排除数据质量问题风险的最佳方式。与人工方法相比,该过程降低成本并提高效率达 90% 之多。

不同于查看代码和编写 SQL 脚本,多个用户能够轻松检查所有数据,使商业用户成为数据挖掘阶段的一部分。数据剖析是一个自动、全面识别潜在例外和异常的过程,而不是让数据迁移管理器根据它们怀疑存在的异常情况编写脚本。数据剖析会找出缺失和重复的数据、拼错的数据、违规数据、无效的数据结构、错误内容和不相容数据。

数据迁移的数据剖析要点

自动快速数据剖析

出色的数据剖析工具不对数据进行假设,而应全面、自动地分析待迁移的完整数据集,并能让用户方便理解数据集内与数据集间各数据字段之间的相互联系。

智能报告和分析

当重点关注不一致和出现异常情况时,再多的抽样提供的信息也不比全面分析数据集提供的信息更为精确和详细。数据剖析通常提供完整报告,包括统计、频率、范围、数据值和内容,具体包括识别冗余和缺失的数据值、重复数据、拼错数据以及错误的数据格式。先进的数据剖析工具可以提供一些额外的信息,比如数据符合数据标准与业务规则的程度如何等等。这些工具将向用户提供自定义报告选项,而且所提供的结果能够让用户注意到潜在问题。

所有数据集中存储

出色的数据剖析软件在不影响操作系统性能的情况下为全面数据分析创造了集中式环境。环境中应包括所有数据、元数据、统计和文档。其他类型的需要对在运行系统进行直接查询的剖析系统会降低其性能或需要独立的系统副本。在集中式环境下,用户拥有一个可服务于多个用户的快速、可伸缩架构,同时将数据与任何变化隔离开。

Biz-Insight数据剖析的相关图示

用户定义的业务规则和数据标准

熟悉数据和业务意义的业务用户应该能够轻松编写行业规则和检查数据是否为可接受范围内的值。这些宝贵工具使用户能够验证值并设定用于监控、合规和数据治理的关键指标。为数据和业务规则创建标准定义的能力是数据剖析和分析过程中的重要功能。

深入探究和图形化显示

为充分理解不一致的含义,用户必须能够有效地深入探究数据本身,并在必要时检查原始背景中的特定内容。最佳数据剖析工具提供了简单而直观的图形用户界面,使用户能够快速瞄准问题、研究多种异常情况、界定新的数据标准,然后快速返回汇总报告。揭示不同数据集中数据字段之间关系的额外图形工具应当包括维恩图和关系(依存)映射。

加强沟通

在分析数据时,用户需要通过灵活的方式沟通他们的数据质量疑虑,具体包括在工作环境中直接注释特定数据、书本批注问题供他人查看、复制数据作进一步分析以及创建 HTML 报告,电邮给团队成员,提醒其注意数据质量问题等功能。保存特定数据、报告子集和专门的数据视图的功能使团队成员能够与他人分享数据挖掘,并有效合作解决问题。


通过将数据剖析作为数据迁移方案的其中一环,企业可第一时间顺利完成数据迁移项目,消除大量的设计返工和后期项目取消问题。良好的数据剖析与数据质量方法有助于评估项目的整个范围,甚至在项目的业务目标得不到数据支持时警告信息技术管理。如果运作得当,数据剖析和数据质量就能够大大降低项目风险,使宝贵的资源重定向到其他更富有成效的项目。