内容简介
本书是数据集成领域的经典著作,由具有数十年从业经验的数据集成专家撰写,数据管理专家作序!它为大数据时代的大中型企业管理企业内部大量的、复杂的应用系统之间的数据提供了解决方案,全面而深入地讲解数据集成的工具、方法、技巧、解决方案以及实践。
本书分为四部分,共22章,高屋建瓴地阐述了在大型组织环境中,不同计算机系统之间传输数据,以及将异构数据进行集成所用到的技巧、技术和实践,内容涵盖数据集成导论、批处理数据集成、实时数据集成和大数据集成等。
本书虽然介绍了各种数据集成问题的多种不同类型的技术解决方案,但读者无需具备广阔的技术背景就能理解,适合数据处理相关的项目经理、数据分析师、数据模型设计师、数据库工作者以及数据集成程序员等相关技术人员及数据管理专业学生阅读。
目录
译者序
序言
前言
第一部分 数据集成导论
第1章 数据集成的重要性 / 2
1.1 数据接口的天然复杂性 / 2
1.2 购买供应商应用包的数量日益增加 / 3
1.3 大数据和虚拟化的催化剂 / 3
第2章 什么是数据集成 / 5
2.1 运动中的数据 / 5
2.2 集成为通用格式—数据转换 / 5
2.3 数据从一个系统迁移到另一个系统 / 6
2.4 在组织内部移动数据 / 6
2.5 从非结构化数据中抽取信息 / 8
2.6 将处理移动到数据端 / 9
第3章 数据集成的类型和复杂性 / 10
3.1 管理运动中的数据和持久化数据的异同点 / 10
3.2 批处理数据集成 / 10
3.3 实时数据集成 / 11
3.4 大数据集成 / 11
3.5 数据虚拟化 / 12
第4章 数据集成开发过程 / 13
4.1 数据集成开发生命周期 / 13
4.2 包含业务知识和专家经验 / 14
第二部分 批处理数据集成
第5章 批处理数据集成简介 / 18
5.1 什么是批处理数据集成 / 18
5.2 批处理数据集成生命周期 / 19
第6章 抽取、转换和加载 / 20
6.1 什么是ETL / 20
6.2 概要分析 / 20
6.3 抽取 / 21
6.4 暂存 / 22
6.5 访问层次 / 22
6.6 转换 / 23
6.6.1 简单映射 / 23
6.6.2 查找表 / 24
6.6.3 聚合和规范化 / 24
6.6.4 计算 / 24
6.7 加载 / 24
第7章 数据仓库 / 26
7.1 什么是数据仓库 / 26
7.2 企业数据仓库架构中的层次 / 26
7.2.1 操作型应用层 / 26
7.2.2 外部数据 / 27
7.2.3 数据仓库中的数据暂存区 / 27
7.2.4 数据仓库数据结构 / 28
7.2.5 从数据仓库到数据集市或者商务智能层的暂存 / 28
7.2.6 商务智能层 / 28
7.3 加载到数据仓库中的数据类型 / 29
7.3.1 数据仓库中的主数据 / 29
7.3.2 数据仓库中的余额和快照数据 / 30
7.3.3 数据仓库中的事务型数据 / 31
7.3.4 事件 / 31
7.3.5 调整 / 31
第8章 数据转换 / 39
8.1 什么是数据转换 / 39
8.2 数据转换生命周期 / 39
8.3 数据转换分析 / 39
8.4 数据加载实践 / 40
8.5 提高源数据质量 / 40
8.6 映射到目标系统 / 41
8.7 配置数据 / 41
8.8 测试和依赖 / 42
8.9 私有数据 / 42
8.10 校对 / 43
8.11 环境 / 43
第9章 数据归档 / 47
9.1 什么是数据归档 / 47
9.2 归档数据选择 / 47
9.3 已归档数据可以恢复吗 / 48
9.4 归档环境下数据结构的确认 / 48
9.5 灵活的数据结构 / 49
第10章 批处理数据集成架构和元数据 / 54
10.1 什么是批处理数据集成架构 / 54
10.2 概要分析工具 / 55
10.3 建模工具 / 55
10.4 元数据存储库 / 55
10.5 数据移动 / 56
10.6 转换 / 56
10.7 调度 / 57
第三部分 实时数据集成
第11章 实时数据集成简介 / 64
11.1 为什么需要实时数据集成 / 64
11.2 为什么需要两组技术 / 64
第12章 数据集成模式 / 66
12.1 交互模式 / 66
12.2 松耦合 / 66
12.3 中心和节点模式 / 66
12.4 同步交互和异步交互 / 69
12.5 请求和应答 / 70
12.6 发布和订阅 / 70
12.7 两阶段提交 / 70
12.8 集成交互类型 / 71
第13章 核心实时数据集成技术 / 72
13.1 令人困惑的术语 / 72
13.2 企业服务总线 / 72
13.3 面向服务架构 / 75
13.4 可扩展标记语言 / 77
13.5 数据复制和变化数据捕获 / 81
13.6 企业应用集成 / 82
13.7 企业信息集成 / 82
第14章 数据集成建模 / 84
14.1 规范化
摘要与插图
第一部分数据集成导论
第1章 数据集成的重要性
第2章 什么是数据集成
第3章 数据集成的类型和复杂性
第4章 数据集成开发过程
第1章 数据集成的重要性
1.1 数据接口的天然复杂性
一般企业计算环境总是由上百甚至上千离散并且不断变化的计算机系统组成的,这些系统或自行构建,或购买,或通过其他方式获得。这些系统的数据需要集成到一起,用于做报表或者分析,需要共享以进行商务处理;当旧系统被设立的新系统取代时,需要从旧系统格式转换为另外一种格式。对于所有的信息技术组织来说,如何有效地管理系统之间的数据传输是需要面对的主要挑战之一。
绝大多数数据管理都集中在存储于数据结构中的数据,如数据库和文件系统。只有极少数关注不同的数据结构存储之间流动的数据。然而,组织内部的数据接口管理正快速成为业务和信息技术管理要的关注点。随着越来越多的系统加入组织的应用系统组合中,系统之间接口的数量和复杂度也随之迅速膨胀,接口之间的管理也让人不堪重负。
传统的接口开发方式很快导致复杂度变得难以管理。应用和系统之间接口的数量随着系统数量的增加呈指数级增加。实际工作中,并不是每个系统都需要和其他系统交互,但是为了满足不同的需求或者数据交换的需要,在系统之间却会存在多个接口。因此,对于一个拥有100个应用的组织来说,可能有大致5000个接口。对于一个拥有1000个应用的应用组合来说,可能会有近50万个接口需要管理。
如图1-1所示,传统的“点对点”的集成方案正是产生这种挑战的原因。而借助一些数据管理实践的技巧,则可以让组织的数据接口管理更为合理。如果组织在开发接口的时候没有一个企业级的数据集成策略,那么很快就会发现接踵而至的管理大量接口的麻烦。