内容简介
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》主要介绍如何使用开源ETL工具来完成数据整合工作。
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》介绍的PDI(Kettle)是一种开源的 ETL 解决方案,书中介绍了如何使用PDI来实现数据的剖析、清洗、校验、抽取、转换、加载等各类常见的ETL类工作。
除了ODS/DW类比较大型的应用外,Kettle 实际还可以为中小企业提供灵活的数据抽取和数据处理的功能。Kettle除了支持各种关系型数据库、Hbase、MongoDB这样的NoSQL数据源外,它还支持Excel、Access这类小型的数据源。并且通过插件扩展,Kettle 可以支持各类数据源。本书详细介绍了Kettle可以处理的数据源,而且详细介绍了如何使用Kettle抽取增量数据。
Kettle 的数据处理功能也很强大,除了选择、过滤、分组、连接、排序这些常用的功能外,Kettle 里的Java表达式、正则表达式、Java脚本、Java类等功能都灵活而强大,都适合于各种数据处理功能。本书也使用了一些篇幅介绍Kettle这些灵活的数据处理功能。
《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》后面章节介绍了如何在 Kettle 上开发插件,如何使用Kettle处理实时数据流,以及如何在Amazon AWS上运行Kettle 等一些主题。
除了介绍PDI(Kettle)工具的使用和功能,本书还结合Kimball博士的数据仓库和ETL子系统的理论,从实践的角度介绍数据仓库的模型设计、数据仓库的构建方法,以及如何使用 PDI实现Kimball博士提出的34种ETL子系统。
目录
媒体评论报表管理是销售管理的一项重要工作,面对 70多个国家合作伙伴的不同种类型的销售报表,如何通过自动化手段进行格式统一、计算和分发,是我 2009年在新兴市场集团工作时的“痛点”——是我想实现的,而这套方案必须要基于开源的方案来控制开发及未来维护的成本。
Jason给我开源的 ETL工具 Kettle来完成这个工作,他使用 Kettle加上开源的报表工具 Jasper,用了两个月的时间就把这套系统实现并上线了:
它可以自动从各个数据源获取数据、自动生成 Excel 报表,并自动投送到相关业务人员的邮箱里,这节省了我三个做报表的人力!而且数据更及时、准确!了不起!!
赵海生客户数据与市场秩序总监联想集团
从2011年就听到 Jason要翻译本书的计划,很高兴能看到这一目标现,这是 Jason本人的一个里程碑,也是让更多的人受益于 Kettle工具的一次契机,祝 Jason和Kettle的路都越走越宽。
郑伟征业务总监北京中能兴业投资咨询有限公司
报表管理是销售管理的一项重要工作,面对 70多个国家合作伙伴的不同种类型的销售报表,如何通过自动化手段进行格式统一、计算和分发,是我 2009年在新兴市场集团工作时的“痛点”——是我想实现的,而这套方案必须要基于开源的方案来控制开发及未来维护的成本。
??? Jason给我开源的 ETL工具 Kettle来完成这个工作,他使用 Kettle加上开源的报表工具 Jasper,用了两个月的时间就把这套系统实现并上线了:
它可以自动从各个数据源获取数据、自动生成 Excel 报表,并自动投送到相关业务人员的邮箱里,这节省了我三个做报表的人力!而且数据更及时、准确!了不起!!
赵海生客户数据与市场秩序总监联想集团
??? 数据是投资的重要基础,但由于数据量大且指标较多,从各种不同格式的报告中摘取我们希望的数据一直是让我们头疼的事情。这一事情的改观发生在 2011年Jason为我们带来 Kettle工具之后,经过几个月的开发和测试,我们的指标自动抓取系统正式上线并一直沿用至今,它能从各种格式的报告中摘取重要的数据,这些数据形成我们分析的基础。实际上,这只是使用了 Kettle工具的一小部分功能而已,相信在数据抓取和处理领域,我们还将有更多的合作机会。
??? 从2011年就听到 Jason要翻译本书的计划,很高兴能看到这一目标现,这是 Jason本人的一个里程碑,也是让更多的人受益于 Kettle工具的一次契机,祝 Jason和Kettle的路都越走越宽。
郑伟征业务总监北京中能兴业投资咨询有限公司
??? 从企业架构的角度来看,和传统的编写代码相比, ETL工具在开发实施效率(包括代码复用)、可靠性、低出错率、可维护性上*都是巨大的进步。我个人相信在企业 ETL领域,编程语言的工作未来可能会减少到总任务量的 10%,剩下 90%均需要借助 ETL工具来实现。
??? 本书和市面上林林总总的介绍 ETL工具的书籍不同。书籍的原作者 Matt是Kettle的核心设计与开发者( Kettle的灵魂所在),而且 Jason带领的团队对 Kettle的源代码有深入的了解,并有丰富的实践经验,他们对本书所涉及的主题有切身的体会,这样可以*限度地避免出现很多计算机译本图书出现的读者“不知所云”的情况。本书亦可以看作是 Jason在国内不遗余力推广 Kettle ETL解决方案的又一个里程碑。
徐洋葛兰素史克(中国)投资有限公司 Enterp