Hadoop指南(第3版) (全面深度解读Hadoop的指南 驰骋于云计算和大数据领域的通俗读本 )

价格 99.00对比
发货 广东东莞市
销量 暂无
评价 已有 0 条评价
人气 已有 2 人关注
数量
+-
库存100
 
联系方式
加关注0

新图书资料发布

VIP   VIP会员第1年
资料未认证
保证金未缴纳

内容简介

准备好释放数据的强大潜能了吗?借助于这本《Hadoop指南》,你将学习如何使用Apache Hadoop构建和维护稳定性高、伸缩性强的分布式系统。本书是为程序员写的,可帮助他们分析任何大小的数据集。本书同时也是为管理员写的,帮助他们了解如何设置和运行Hadoop集群。
 
本书通过丰富的案例学习来解释Hadoop的幕后机理,阐述了Hadoop如何解决现实生活中的具体问题。第3版覆盖Hadoop的动态,包括新增的MapReduce API,以及MapReduce
2及其灵活性更强的执行模型(YARN)。
 

目录

 TOC \o "1-3" \h \z \u 第1章  初识Hadoop.. 1
1.1  数据!数据!... 1
1.2  数据的存储与分析... 3
1.3  相较于其他系统的优势... 4
1.3.1  关系型数据库管理系统... 5
1.3.2  网格计算... 7
1.3.3  志愿计算... 9
1.4  Hadoop发展简史... 10
1.5 
Apache Hadoop和Hadoop生态系统.... 14
1.6  Hadoop的发行版本............................................................................................................. 15
1.6.1  本书包含的内容... 16
1.6.2  兼容性... 17
第2章  关于MapReduce.. 19
2.1  气象数据集... 19
2.2  使用Unix工具来分析数据... 21
2.3  使用Hadoop来分析数据... 23
2.3.1  map和reduce. 23
2.3.2  Java MapReduce. 24
2.4  横向扩展... 33
2.4.1  数据流... 34
2.4.2 
combiner函数... 37
2.4.3  运行分布式的MapReduce作业... 39
2.5  Hadoop Streaming. 40
2.5.1 
Ruby版本... 40
2.5.2 
Python版本... 43
2.6  Hadoop Pipes. 44
第3章  Hadoop分布式文件系统.... 49
3.1  HDFS的设计... 49
3.2  HDFS的概念... 51
3.2.1  数据块... 51
3.2.2  namenode和datanode. 52
3.2.3  联邦HDFS. 53
3.2.4  HDFS的高可用性... 54
3.3  命令行接口... 56
3.4  Hadoop文件系统... 58
3.5  Java接口... 62
3.5.1  从Hadoop URL读取数据... 63
3.5.2  通过FileSystem API读取数据... 64
3.5.3  写入数据... 68
3.5.4  目录... 70
3.5.5  查询文件系统... 70
3.5.6  删除数据... 75
3.6  数据流... 75
3.6.1  剖析文件读取... 75
3.6.2  剖析文件写入... 78
3.6.3  一致模型... 81
3.7  通过Flume和Sqoop导入数据... 83
3.8  通过distcp并行复制... 84
3.9  Hadoop存档... 86
3.9.1  使用Hadoop存档工具... 86
3.9.2  不足... 88
第4章  Hadoop的I/O操作.... 89
4.1  数据完整性... 89
4.1.1  HDFS的数据完整性... 89
4.1.2  LocalFileSystem.. 91
4.1.3  ChecksumFileSystem.. 91
4.2  压缩... 92
4.2.1  codec. 93
4.2.2  压缩和输入分片... 98
4.2.3  在MapReduce中使用压缩... 99
4.3  序列化... 102
4.3.1  Writable接口... 103
4.3.2  Writable类... 105
4.3.3  实现定制的Writable集合... 114
4.3  序列化框架... 118
4.4  Avro. 121
4.4.1  Avro数据类型和模式... 122
4.4.2  内存中的序列化和反序列化... 126
4.4.3  Avro数据文件... 129
4.4.4  互操作性... 130
4.4.5  模式的解析... 133
4.4.6  排列顺序... 135
4.4.7  关于Avro
MapReduce. 137
4.4.8  使用Avro
MapReduce进行排序... 141
4.4.9  其他语言的Avro MapReduce. 143
4.5  基于文件的数据结构... 143
4.5.1  关于SequenceFile. 143
4.5.2  关于MapFile. 151
第5章  MapReduce应用开发

摘要与插图

初识Hadoop
 
 
 
在古时候,人们用牛来拉重物。当一头牛拉不动一根圆木时,人们从来没有考虑过要培育更强壮的牛。同理,我们也不该想方设法打造计算机,而应该千方百计综合利用更多计算机来解决问题。^
——格蕾斯·霍珀(Grace Hopper)
1.1  数据!数据!^
我们生活在这个数据大爆炸的时代,很难估算电子设备中存储的数据总共有多少。数据公司(IDC)曾经发布报告称,2006年数字世界(digital universe)项目统计得出数据总量为0.18 ZB并预测在2011年将达到1.8 ZB。[1]1 ZB等于1021字节,等于1000 EB(exabytes),1 000 000 PB (petabytes),等于大家更熟悉的10亿TB(terrabytes)!这相当于全世界每人一个硬盘中保存的数据总量!^
数据“洪流”有很多来源。以下面列出的为例:[2]^
l  纽约证交所每天产生的交易数据多达1 TB^
l  脸谱网(Facebook)存储的照片约100 亿张,存储容量约为 1 PB^
l  家谱网站Ancestry.com存储的数据约为2.5 PB^
l  互联网档案馆(The Internet Archive)存储的数据约为2 PB,并以每月至少20 TB的速度持续增长^
l  瑞士日内瓦附近的大型强子对撞机每年产生的数据约为15 PB^
 
还有其他大量的数据。但是你可能会想它对自己又有哪些影响呢?地球人都知道,大部分数据都严密锁存在一些大型互联网公司(如搜索引擎公司)或科学机构与金融机构中。难道所谓的“大数据”只影响小机构和个人?^
我个人是这样认为的。以照片为例,我妻子的爷爷是一个骨灰级的摄影爱好者。在成年之后,他一直都在拍照。他的整个相册,包括普通胶片、幻灯片、35mm胶片,在扫描成高分辨率的图片之后,大约有10 GB。相比之下,在2008年,我家用数码相机拍摄的照片总共有5 GB。对照爷爷的照片生成速度,我家是他老人家的35倍!并且,而且这个速度还在不断增长中,因为现在拍照片真的是越来越容易了。^
有一种情况更普遍,个人产生的数据正在快速增长。微软研究院的MyLifeBits 项目[3](http://research.microsoft.com/enus/projects/mylifebits/
default.aspx)显示,在不久的将来,个人信息档案将日益普及。MyLifeBits的一个实验是获取和保存个人的对外联系情况(包括电话、邮件和文件),供日后存取。收集的数据中包括每分钟拍摄的照片等,数据量每月约为1 GB。当存储成本急剧下降以至于可以存储音频和视频时,MyLifeBits项目在未来的存储的数据量将是现在的很多倍。^
保存个人成长过程中产生的所有数据似乎逐渐成为主流,但更重要的是,计算机产生的数据可能远远超过我们个人所产生的。机器日志、RFID检测仪、传感器网络、车载GPS 和交易数据等——所有这些都将产生巨量的数据。^
在网上公开发布的数据也在逐年增加。组织或企业,要想在未来取得成功,不仅需要管理好自己的数据,更需要从其他组织或企业的数据中获取有价值的信息。^
这方面的先锋有Amazon Web Services(http://aws.amazon.com/publicdatasets)、Infochimps.org(http://infochimps.org/)和theinfo.org(http://theinfo.org),它们所发布的共享数据集,正在促进信息共享(information
commons),供所有人自由下载和分析 (或者只需要支付合理的价格通过AWS 平台来共享)。不同来源的信息在经过混搭和处理之后,会带来意外的效果和我们今天难以想象的应用。^
以Astrometry.net(http://astrometry.net)为例,主要查看和分析Flickr网站上星空机器人小组所拍摄的星
举报收藏 0
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2021111040号