内容简介
大数据是当前信息科技领域炙手可热的话题之一。《写给大家看的大数据》简单而系统地介绍了大数据体系涉及的各方面知识,涵盖大数据的基本概念、大数据的技术基础、大数据管理、大数据分析、大数据在现实工作中如何实现和实施等关键内容,涉及大数据基础架构、大数据使用的数据库和分布式技术、对大数据进行基础分析和分析的特点及异同,以及企业如何应用大数据转变其商业运作模式等内容,能够对想要了解大数据全貌,或是想要使用大数据的企业和个人提供全面的知识内容和学习借鉴。
《写给大家看的大数据》语言生动,内容覆盖面广,理论结合实例,适合对大数据感兴趣的广大读者。对于从事与大数据相关工作的人员,本书也有很高的参考价值。
目录
目 录
第一部分 大数据入门 1
第1章 大数据基础 3
数据管理的演化过程 4
理解数据管理的几个关键 5
关键1:创建可管理的数据结构 5
关键2:Web和内容管理 7
关键3:管理大数据 7
大数据的定义 9
构建成功的大数据管理架构 10
捕捉、组织、集成分析与模拟 10
建立架构基础 11
性能问题 13
传统与分析 15
大数据之旅 16
第2章 研究大数据类型 17
定义结构化的数据 18
探索大结构化数据源 18
理解关系型数据库在大数据中的角色 19
定义非结构化数据 21
探索非结构化数据源 21
理解CMS在大数据管理中的角色 23
理解实时需求和非实时需求 23
聚合大数据 25
管理不同类型的数据 25
将不同类型的数据整合到大数据环境中 25
第3章 当老古董遇上新生代:分布式计算 27
分布式计算简史 27
感谢DARPA 27
可持续模型的价值 28
了解分布式计算基础 29
为什么大数据需要分布式计算 29
计算经济的改变 30
时延带来的问题 30
当需求遇上解决方案 31
获取所需的性能 31
第二部分 大数据的技术基础 33
第4章 深入大数据技术组件 35
探索大数据栈 36
第0层:带冗余的物理基础架构 37
物理冗余网络 38
管理硬件:存储与服务器 39
基础架构操作 39
第1层:安全框架 39
进/出应用程序和互联网的界面与接口 40
第2层:可操作数据库 42
第3层:组织数据服务与工具 43
第4层:可分析的数据仓库 44
大数据分析 45
大数据应用程序 46
第5章 虚拟化及其如何支持分布式计算 47
理解虚拟化的基本知识 47
在大数据中使用虚拟化的重要性 48
服务器虚拟化 50
应用程序虚拟化 50
网络虚拟化 51
处理器和内存虚拟化 51
数据和存储虚拟化 52
使用Hypervisor管理虚拟化 53
抽象化与虚拟化 54
实现在大数据中的虚拟化 54
第6章 云和大数据 56
大数据领域中的云 56
理解云部署和分发模型 57
云部署模型 57
云分发模型 59
大数据需要云 60
在大数据中使用云 61
大数据云市场的服务提供商 62
亚马逊公共弹性计算云(EC2) 63
谷歌的大数据服务 64
微软Azure 64
OpenStack 65
在使用云服务时需要注意什么 65
第三部分 大数据管理 67
第7章 操作型数据库 69
RDBMS在大数据领域的重要性 71
非关系型数据库 72
Key-Value型数据库 73
文档数据库 75
MongoDB 76
CouchDB 77
纵列数据库 78
图形数据库 79
空间数据库 81
混合持久化 83
第8章 MapReduce基础 85
MapReduce溯源 85
理解Map函数 86
添加Reduce函数 88
结合Map和Reduce 89
优化MapReduce 91
硬件/网络拓扑 92
同步 92
文件系统 92
第9章 探索Hadoop的世界 94
谈谈Hadoop 94
理解Hadoop分布式文件系统(HDFS) 95
Name节点 95
数据节点 96
理解HDFS 97
Hadoop的MapReduce 99
准备数据 100
开始Mapping 101
Reduce和融合 101
第10章 Hadoop基础和生态 103
使用Hadoop生态系统构建大数据基础 103<