内容简介
本书从理论知识入手,结合数据仓库的概念帮助读者更好的理解Hive,在掌握Hive相关理论知识的基础之上,逐步带深入的学ve。俗话说的好“工欲善其事,必先利其器”,建虚拟机并安装Linux操作系统开始逐步完成Hive的部署,然后在部署完成的Hive环境基础上,学ve数据定义语言、Hive数据操作语言和Hive数据查询语言的相关操作,在学述Hive三种语言之后,接下来,深入学ve的其能括Hive内置函数、Hive自定义函数、Hive的新特事务以及Hive的相关优化,从而帮助读者掌握Hive的强能和特。后,本书通过一个综合项目——教育大数据分台,使读者对Hive数据仓库在实际应用中涉及的相关知识内容具有更深入的理解,在此项目中不仅会涉及到使用Hive实现数据仓库分层、数据转换和数据分析的相关操作,而且还涉及使用Sqoop将数据仓库中数行导出和导入,以及使用FineBI工具实现数据可视能。 本书附有配套、源代码、教学设计、教学课件等资源。同时,为了帮助初学者更好地学的内容,还提供了在线答疑,欢迎读者关注。 本书可作为高等院校本、专科计算机相关专业,信息管理等相关专业的大数据课程教材,也可供相关技术人员参考,是一本适合广大计算机编程爱好者的读物。
目录
第1章 Hive简介 1.1 认识数据仓库 1.1.1 数据仓库简介 1.1.2 数据仓库分层 1.1.3 数据仓库的数据模型 1.2 Hive概述 1.3 Hive架构 1.4 Hive工作原理 1.5 Hive数据类型 1.6 本章小结 1.7 课后br/>第2章 Hive部署 2.1 Linux环境的搭建 2.1.1 创建虚拟机 2.1.2 启动虚拟机并安装Linux操作系统 2.1.3 克隆虚拟机 2.1.4 配置Linux系统网络及主机名 2.1.5 配置SSH服务 2.2 K的部署 2.3 Zookeeper的部署 2.3.1 Zookeeper集群的安装与配置 2.3.2 Zookeeper集群的启动与关闭 2.4 Hadoop的部署 2.4.1 Hadoop高可用集群的规划 2.4.2 安装Hadoop 2.4.3 配置Hadoop高可用集群 2.4.4 启动Hadoop高可用集群 2.5 Hive的部署 2.5.1 Hive部署之嵌入模式 2.5.2 Hive部署之本地模式 2.5.3 Hive部署之远程模式 2.6 本章小结 2.7 课后br/>第3章 Hive的数据定义语言 3.1 数据库的基本r/> 3.1.1 创建数据库 3.1.2 查询数据库 3.1.3 查看数据库信息 3.1.4 切换数据库 3.1.5 修改数据库 3.1.6 删除数据库 3.2 数据表的基本r/> 3.2.1 CREATE TABLE句式分析 3.2.2 数据表简介 3.2.3 创建数据表 3.2.4 查看数据表 3.2.5 修改数据表 3.2.6 删除数据表 3.3 分区表 3.3.1 创建分区表 3.3.2 查询分区表 3.3.3 添加分区 3.3.4 重命名分区 3.3.5 移动分区 3.3.6 删除分区 3.4 分桶表 3.4.1 创建分桶表 3.4.2 查看分桶表信息 3.5 临时表 3.6 视图 3.6.1 创建视图 3.6.2 查询视图信息 3.6.3 查看视图 3.6.4 修改视图 3.6.5 删除视图 3.7 索引 3.7.1 Hive中的索引 3.7.2 创建索引 3.7.3 查看索引表 3.7.4 查看索引 3.7.5 重建索引 3.7.6 删除索引 3.8 本章小结 3.9 课后br/>第4章 Hive的数据操作语言 4.1 加载文件 4.1.1 加载文件的语法格式 4.1.2 向分区表加载文件 4.2 基本查询 4.3 插入数据 4.3.1 基本r/> 4.3.2 查询r/> 4.3.3 向分区表插入数据 4.4 import和EXPORT 4.5 本章小结 4.6 课后br/>第5章 Hive数据查询语言 5.1 SELECT句式分析 5.2 Hive运算符 5.2.1 关系运算符 5.2.2 算术运算符 5.2.3 逻辑运算符 5.2.4 复杂运算符 5.3 公用表表达式 5.4 分组r/> 5.5 排序r/> 5.6 UNION语句 5.7 JOIN语句 5.8 抽样查询 5.8.1 抽样 5.8.2 分桶抽样 5.8.3 数据块抽样 5.9 本章小结 5.10 课后br/>第6章 Hive函数 6.1 Hive内置函数 6.1.1 聚合函数 6.1.2 数学函数 6.1.3 集合函数 6.1.4 类型转换函数 6.1.5 日期函数 6.1.6 条件函数 6.1.7 字符串函数 6.1.8 表生成函数 6.2 Hive自定义函数 6.2.1 UDF 6.2.2 UDTF 6.2.3 UDAF 6.3 本章小结 6.4 课后br/>第7章 Hive事务 7.1 事务特 7.2 Hive事务的设计与实现 7.3 开启Hive事务 7.4 更新r/> 7.5 删除r/> 7.6 本章小结 7.7 课后br/>第8章 Hive优化 8.1 Hive存储优化 8.2 Hive参数优化 8.2.1 配置MapReduce压缩 8.2.2 配置Map个数 8.2.3 配置Reduce个数 8.2.4 配置合并文件 8.2.5 配置并行执行 8.2.6 配置本地模式 8.2.7 配置分组 8.3 HiveQL语句优化技巧 8.4 本章小结 8.5 课后br/>第9章 综合项目——教育大数据分台 9.1 项目概述 9.1.1 项目背景介绍 9.1.2 需求分析 9.1.3 原始数据结构 9.1.4 数据仓库分层设计 9.1.5 项目架构 9.2 部署Sqoop 9.3 实现数据仓库分层 9.4 数据采集 9.5 数据转换 9.6 数据分析 9.6.1 实现地区访问用户量统计 9.6.2 实现会话页面排行榜 9.6.3 实现访问用户量统计 9.6.4 实现来源渠道访问用户量统计 9.6.5 实现咨询率统计 9.7 数据可视化 9.7.1 导出数据 9.7.2 安装、启动与配置FineBI 9.7.3 实现数据可视化 9.8 本章小结