Hadoop实战手册

价格 59.00对比
发货 广东东莞市
销量 暂无
评价 已有 0 条评价
人气 已有 3 人关注
数量
+-
库存100
 
联系方式
加关注0

新图书资料发布

VIP   VIP会员第1年
资料未认证
保证金未缴纳

内容简介

这是一本Hadoop实用手册,主要针对实际问题给出相应的解决方案。《Hadoop实战手册》是以实践结合理论分析,手把手教读者如何操作,并且对每个操作都做详细的解释,对一些重要的知识点也做了必要的拓展。全书共包括3个部分,第一部分为基础篇,主要介绍Hadoop数据导入导出、HDFS的概述、Pig与Hive的使用、ETL和简单的数据处理,还介绍了MapReduce的调试方式;第二部分为数据分析篇,主要介绍聚合、大数据分析等技巧;第三部分为系统管理篇,主要介绍Hadoop的部署的各种模式、添加新节点、退役节点、快速恢复、MapReduce调优等。
  《Hadoop实战手册》适合各个层次的Hadoop技术人员阅读。通过阅读《Hadoop实战手册》,Hadoop初学者可以使用Hadoop来进行数据处理,Hadoop工程师或者数据挖掘工程师可以解决复杂的业务分析,Hadoop系统管理员可以更好地进行日常运维。《Hadoop实战手册》也可作为一本Hadoop技术手册,针对要解决的相关问题,在工作中随时查阅。

目录

第1章 Hadoop分布式文件系统——导入和导出数据 
1.1 介绍 
1.2 使用Hadoop shell命令导入和导出数据到HDFS 
1.3 使用distcp实现集群间数据复制 
1.4 使用Sqoop从MySQL数据库导入数据到HDFS 
1.5 使用Sqoop从HDFS导出数据到MySQL 
1.6 配置Sqoop以支持SQL Server 
1.7 从HDFS导出数据到MongoDB 
1.8 从MongoDB导入数据到HDFS 
1.9 使用Pig从HDFS导出数据到MongoDB 
1.10 在Greenplum外部表中使用HDFS 
1.11 利用Flume加载数据到HDFS中 
第2章 HDFS 
2.1 介绍 
2.2 读写HDFS数据 
2.3 使用LZO压缩数据 
2.4 读写序列化文件数据 
2.5 使用Avro序列化数据 
2.6 使用Thrift序列化数据 
2.7 使用Protocol Buffers序列化数据 
2.8 设置HDFS备份因子 
2.9 设置HDFS块大小 
第3章 抽取和转换数据 
3.1 介绍 
3.2 使用MapReduce将Apache日志转换为TSV格式 
3.3 使用Apache Pig过滤网络服务器日志中的爬虫访问量 
3.4 使用Apache Pig根据时间戳对网络服务器日志数据排序 
3.5 使用Apache Pig对网络服务器日志进行会话分析 
3.6 通过Python扩展Apache Pig的功能 
3.7 使用MapReduce及二次排序计算页面访问量 
3.8 使用Hive和Python清洗、转换地理事件数据 
3.9 使用Python和Hadoop Streaming执行时间序列分析 
3.10 在MapReduce中利用MultipleOutputs输出多个文件 
3.11 创建用户自定义的Hadoop Writable及InputFormat读取地理事件数据 
第4章 使用Hive、Pig和MapReduce处理常见的任务 
4.1 介绍 
4.2 使用Hive将HDFS中的网络日志数据映射为外部表 
4.3 使用Hive动态地为网络日志查询结果创建Hive表 
4.4 利用Hive字符串UDF拼接网络日志数据的各个字段 
4.5 使用Hive截取网络日志的IP字段并确定其对应的国家 
4.6 使用MapReduce对新闻档案数据生成n-gram 
4.7 通过MapReduce使用分布式缓存查找新闻档案数据中包含关键词的行 
4.8 使用Pig加载一个表并执行包含GROUP BY的SELECT操作 
第5章 连接操作 
5.1 介绍 
5.2 使用MapReduce对数据进行连接 
5.3 使用Apache Pig对数据进行复制连接 
5.4 使用Apache Pig对有序数据进行归并连接 
5.5 使用Apache Pig对倾斜数据进行倾斜连接 
5.6 在Apache Hive中通过map端连接对地理事件进行分析 
5.7 在Apache Hive通过优化的全外连接分析地理事件数据 
5.8 使用外部键值存储(Redis)连接数据 
第6章 大数据分析 
6.1 介绍 
6.2 使用MapReduce和Combiner统计网络日志数据集中的独立IP数 
6.3 运用Hive日期UDF对地理事件数据集中的时间日期进行转换与排序 
6.4 使用Hive创建基于地理事件数据的每月死亡报告 
6.5 实现Hive用户自定义UDF用于确认地理事件数据的来源可靠性 
6.6 使用Hive的map/reduce操作以及Python标记的无暴力发生的时间区间 
6.7 使用Pig计算Audioscrobbler数据集中艺术家之间的余弦相似度 
6.8 使用Pig以及datafu剔除Audioscrobbler数据集中的离群值 
第7章 大数据分析 
7.1 介绍 
7.2 使用Apache Giraph计算PageRank 
7.3 使用Apache Giraph计算单源路径 
7.4 使用Apache Giraph执行分布式宽度优先搜索 
7.5 使用Apache Mahout计算协同过滤 
7.6 使用Apache Mahout进行聚类 
7.7 使用Apache Mahout进行情感分类 
第8章 调试 
8.1 介绍 

举报收藏 0
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2021111040号