Hadoop 大数据处理

价格 59.00对比
发货 广东东莞市
销量 暂无
评价 已有 0 条评价
人气 已有 11 人关注
数量
+-
库存100
 
联系方式
加关注0

新书科技

VIP   VIP会员第1年
资料未认证
保证金未缴纳

内容简介

《Hadoop大数据处理》以大数据处理系统的三大关键要素——“存储”、“计算”与“容错”为起点,深入浅出地介绍了如何使用Hadoop这一高性能分布式技术完成大数据处理任务。本书不仅包含了使用Hadoop进行大数据处理的实践性知识和示例,还以图文并茂的形式系统性地揭示了Hadoop技术族中关键组件的运行原理和优化手段,为读者进一步提升Hadoop使用技巧和运行效率提供了颇具价值的参考。
  《Hadoop大数据处理》共10章,涉及的主题包括大数据处理概论、基于Hadoop的大数据处理框架、MapReduce计算模式、使用HDFS存储大数据、Hbase大数据库、大数据的分析处理、Hadoop环境下的数据整合、Hadoop集群的管理与维护、基于MapReduce的数据挖掘实践及面向未来的大数据处理技术。附有一个在Windows环境下搭建Hadoop开发及调试环境的参考手册。
  《Hadoop大数据处理》适合需要使用Hadoop处理大数据的程序员、架构师和产品经理作为技术参考和培训资料,也可作为高校研究生和本科生教材。

目录

目 录

第1章 大数据处理概论 1
1.1 什么是大数据 2
1.2 数据处理平台的基础架构 5
1.3 大数据处理的存储 7
1.3.1 提升容量 7
1.3.2 提升吞吐量 11
1.4 大数据处理的计算模式 17
1.4.1 多处理技术 17
1.4.2 并行计算 20
1.5 大数据处理系统的容错性 26
1.5.1 数据存储容错 27
1.5.2 计算任务容错 28
1.6 大数据处理的云计算变革 30
本章参考文献 32
第2章 基于Hadoop的大数据处理架构 35
2.1 Google核心云计算技术 35
2.1.1 并行计算编程模型MapReduce 36
2.1.2 分布式文件系统GFS 38
2.1.3 分布式结构化数据存储BigTable 39
2.2 Hadoop云计算技术及发展 41
2.2.1 Hadoop的由来 41
2.2.2 Hadoop原理与运行机制 42
2.2.3 Hadoop相关技术及简介 45
2.2.4 Hadoop技术的发展与演进 47
2.3 基于云计算的大数据处理架构 48
2.4 基于云计算的大数据处理技术的应用 51
2.4.1 百度 51
2.4.2 阿里巴巴 56
2.4.3 腾讯 58
2.4.4 华为 60
2.4.5 中国移动 62
2.5 Hadoop运行实践 63
本章参考文献 64
第3章 MapReduce计算模式 66
3.1 MapReduce原理 66
3.2 MapReduce工作机制 69
3.2.1 MapReduce运行框架的组件 70
3.2.2 MapReduce作业的运行流程 70
3.2.3 作业调度 72
3.2.4 异常处理 73
3.3 MapReduce应用开发 74
3.3.1 MapReduce应用开发流程 74
3.3.2 通过Web界面分析MapReduce应用 76
3.3.3 MapReduce任务执行的单步跟踪 78
3.3.4 多个MapReduce过程的组合模式 79
3.3.5 使用其他语言编写MapReduce程序 81
3.3.6 不同数据源的数据联结(Join) 82
3.4 MapReduce设计模式 87
3.4.1 计数(Counting) 88
3.4.2 分类(Classfication) 88
3.4.3 过滤处理(Filtering) 89
3.4.4 排序(Sorting) 89
3.4.5 去重计数(Distinct Counting) 90
3.4.6 相关计数(Cross-Correlation) 91
3.5 MapReduce算法实践 92
3.5.1 路径算法 92
3.5.2 反向索引算法 94
3.5.3 PageRank算法 95
3.6 MapReduce性能调优 97
3.6.1 MapReduce参数配置优化 97
3.6.2 使用Cominber减少数据传输 99
3.6.3 启用数据压缩 100
3.6.4 使用预测执行功能 101
3.6.5 重用JVM 101
本章参考文献 102
第4章 使用HDFS存储大数据 103
4.1 大数据的云存储需求 103
4.2 HDFS架构与流程 104
4.2.1 系统框架 104
4.2.2 数据读取过程 105
4.2.3 数据写入过程 106
4.3 文件访问与控制 108
4.3.1 基于命令行的文件管理 108
4.3.2 通过API操作文件 110
4.4 HDFS性能优化 114
4.4.1 调整数据块尺寸 114
4.4.2 规划网络与节点 114
4.4.3 调整服务队列数量 116
4.4.4 预留磁盘空间 116
4.4.5 存储平衡 117
4.4.6 根据节点功能优化磁盘配置 117
4.4.7 其他参数 119
4.5 HDFS的小文件存储问题 119
4.5.1 Hadoop Archive工具 120
4.5.2 CombineFileInputFormat 121
4.5.3 SequenceFile格式 121
4.5.4 相关研究 122
4.6 HDFS的高可用性问题 123
4.6.1 基于配置的元数据备份 123
4.6.2 基于DRBD的元数据备份 124
4.6.3 Secondary NameNode/CheckpointNode 125
4.6.4 Backup Node 125
4.6.5 NameNode热备份 126
4.6.6 HDFS的HA方案总结 126

举报收藏 0
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2021111040号