内容简介
运行大规模服务所需的计算平台已经不再是十多年前的那种比萨饼盒大小的服务器或者冰箱大小的高端多处理器系统了。这样一个平台的硬件是由成千上万的独立计算节点和与之对应的网络和存储子系统、配电、空调设备和巨大的制冷系统组成。这些系统所在的建筑也已经成为系统的一部分,和一个大型仓库没有什么区别。
《数据中心设计与运营实战》的中心思想很简单:这一计算平台不能简单地看作一堆放在一起的机器。数据中心的软硬件资源必须协同工作,以提供高水平的互联网服务,而高水平的互联网服务只能通过整体的设计和部署来实现。换句话说,我们必须把数据中心本身看作是一台庞大的计算机。
计算正在移动到云端,进入仓储式数据中心(WSC,Warehoase-Scale Computer),软件和硬件架构师必须了解端到端的整个系统才能设计良好的解决方案。我们不再设计单独的“比萨饼盒”,或单服务器应用程序,我们也不能忽视装满服务器的一个大仓库背后的物理和经济机制。但事实上,建立一个具有成本效益且可靠的巨型规模的计算平台,并使其满足下一代云计算工作负载的可编程性要求是困难的。《数据中心设计与运营实战》将帮助读者去了解新的领域,在未来攻克更多难题。
目录
目 录
第1章 介绍 1
1.1 仓储式数据中心 2
1.2 规模成本效率 4
1.3 不只是服务器的集合 4
1.4 单个数据中心VS. 多个数据中心 5
1.5 为什么WSC对你至关重要? 6
1.6 WSC的架构概述 7
1.6.1 存储 8
1.6.2 网络结构 9
1.6.3 存储架构 10
1.6.4 定量延迟、带宽和容量 11
1.6.5 电力使用 13
1.6.6 故障处理 14
第2章 工作负载和软件基础架构 15
2.1 数据中心VS. 台式机 16
2.2 性能和可用工具箱 18
2.3 平台级软件 20
2.4 集群级基础架构软件 20
2.4.1 资源管理 21
2.4.2 硬件抽象和其他基础服务 21
2.4.3 部署和维护 21
2.4.4 编程框架 22
2.5 应用层软件 22
2.5.1 工作负载示例 23
2.5.2 在线应用:Web搜索 23
2.5.3 离线应用:学术文章相似度 26
2.6 监控基础设施 28
2.6.1 服务级仪表盘 28
2.6.2 性能调试工具 29
2.6.3 平台层监控 30
2.7 购买还是自建 30
2.8 长尾容忍 31
2.9 扩展阅读 33
第3章 硬件构件 34
3.1 服务器硬件成本效益 34
3.1.1 大型SMP通信效率的影响 35
3.1.2 高性能服务器VS. 低性能服务器 37
3.1.3 平衡的设计 40
3.2 WSC存储 41
3.2.1 非结构化WSC存储 41
3.2.2 结构化WSC存储 42
3.2.3 存储网络技术的相互关联 43
3.3 WSC网络 44
3.4 扩展阅读 48
第4章 数据中心基础 49
4.1 数据中心TIER等级分类和定义 49
4.2 数据中心电源系统 51
4.2.1 UPS系统 51
4.2.2 配电单元 53
4.2.3 备选项:直流配电 53
4.3 数据中心冷却系统 56
4.3.1 机房空调、冷却机、冷却塔 58
4.3.2 机房空调 59
4.3.3 冷水机组 59
4.3.4 冷却塔 60
4.3.5 自然冷却 61
4.3.6 气流控制注意事项 62
4.3.7 机架内冷却、行级冷却、冷板散热 64
4.3.8 案例分析:Google的行级冷却 65
4.3.9 基于集装箱的数据中心 67
4.4 总结 69
第5章 能源和功率效率 70
5.1 数据中心能源效率 70
5.1.1 PUE指标 71
5.1.2 PUE指标的一些问题 72
5.1.3 数据中心能源效率损失 74
5.1.4 改善数据中心能源效率 75
5.1.5 超越设施 76
5.2 计算能效 77
5.2.1 能源效率测量方法 78
5.2.2 服务器能效 78
5.2.3 WSC的能源利用率 80
5.3 可变能效的计算系统 81
5.3.1 较差能效的成因 83
5.3.2 改善能效 84
5.3.3 CPU之外其他部分的能效 85
5.4 低功耗模式下的相对效率 87
5.5 软件在能效控制中的作用 88
5.6 数据中心电力供应规划 89
5.6.1 部署适量的设备 89
5.6.2 数据中心功率过载 90
5.7 服务器能源利用趋势 92
5.7.1 使用能源储存用于功率管理 93
5.8 总结 94
扩展阅读 96
第6章 构造成本 97
6.1 资本成本 98
6.2 运营成本 100
6.3 案例研究 100
6.3.1 实际数据中心成本 103
6.3.2 建模部分使用的数据中心 104
6.3.3 公共云成本 105
第7章 处理故障和维修 107
7.1 基于软件容错所涉及的内容 108
7.2 故障分类 110
7.2.1 故障严重性 111
7.2.2 导致服务故障的原因 113
7.3 设备级故障 114
7.3.1 导致机器崩溃的原因 118
7.3.2 预测故障 119
7.4 修复 120
7.5 容错 122
第8章 结束语 124
8.1 硬件 125
8.2