内容简介
《大型分布式网站架构设计与实践》主要介绍了大型分布式网站架构所涉及的一些技术细节,包括SOA架构的实现、互联网安全架构、构建分布式网站所依赖的基础设施、系统稳定性保障和海量数据分析等内容;深入地讲述了大型分布式网站架构设计的核心原理,并通过一些架构设计的典型案例,帮助读者了解大型分布式网站设计的一些常见场景及遇到的问题。
作者结合自己在阿里巴巴及淘宝网的实际工作经历展开论述。《大型分布式网站架构设计与实践》既可供初学者学习,帮助读者了解大型分布式网站的架构,以及解决问题的思路和方法,也可供业界同行参考,给日常工作带来启发。
目录
第1章 面向服务的体系架构(SOA) 1
本章主要介绍和解决以下问题,这些也是全书的基础:
HTTP协议的工作方式与HTTP网络协议栈的结构。
如何实现基于HTTP协议和TCP协议的RPC调用,它们之间有何差别,分别适应何种场景。
如何实现服务的动态注册和路由,以及软负载均衡的实现。
1.1 基于TCP协议的RPC 3
1.1.1 RPC名词解释 3
1.1.2 对象的序列化 4
1.1.3 基于TCP协议实现RPC 6
1.2 基于HTTP协议的RPC 9
1.2.1 HTTP协议栈 9
1.2.2 HTTP请求与响应 15
1.2.3 通过HttpClient发送HTTP请求 16
1.2.4 使用HTTP协议的优势 17
1.2.5 JSON和XML 18
1.2.6 RESTful和RPC 20
1.2.7 基于HTTP协议的RPC的实现 22
1.3 服务的路由和负载均衡 30
1.3.1 服务化的演变 30
1.3.2 负载均衡算法 33
1.3.3 动态配置规则 39
1.3.4 ZooKeeper介绍与环境搭建 40
1.3.5 ZooKeeper API使用简介 43
1.3.6 zkClient的使用 47
1.3.7 路由和负载均衡的实现 50
1.4 HTTP服务网关 54
第2章 分布式系统基础设施 58
本章主要介绍和解决如下问题:
分布式缓存memcache的使用及分布式策略,包括Hash算法的选择。
常见的分布式系统存储解决方案,包括MySQL的分布式扩展、Hbase的API及使用场景、Redis的使用等。
如何使用分布式消息系统ActiveMQ来降低系统之间的耦合度,以及进行应用间的通信。
垂直化的搜索引擎在分布式系统中的使用,包括搜索引擎的基本原理、Lucene详细的使用介绍,以及基于Lucene的开源搜索引擎工具Solr的使用。
2.1 分布式缓存 60
2.1.1 memcache简介及安装 60
2.1.2 memcache API与分布式 64
2.1.3 分布式session 69
2.2 持久化存储 71
2.2.1 MySQL扩展 72
2.2.2 Hbase 80
2.2.3 Redis 91
2.3 消息系统 95
2.3.1 ActiveMQ & JMS 96
2.4 垂直化搜索引擎 104
2.4.1 Lucene简介 105
2.4.2 Lucene的使用 108
2.4.3 Solr 119
2.5 其他基础设施 125
第3章 互联网安全架构 126
本章主要介绍和解决如下问题:
常见的Web攻击手段和防御方法,如XSS、CRSF、SQL注入等。
常见的一些安全算法,如数字摘要、对称加密、非对称加密、数字签名、数字证书等。
如何采用摘要认证方式防止信息篡改、通过数字签名验证通信双方的合法性,以及通过HTTPS协议保障通信过程中数据不被第三方监听和截获。
在开放平台体系下,OAuth协议如何保障ISV对数据的访问是经过授权的合法行为。
3.1 常见的Web攻击手段 128
3.1.1 XSS攻击 128
3.1.2 CRSF攻击 130
3.1.3 SQL注入攻击 133
3.1.4 文件上传漏洞 139
3.1.5 DDoS攻击 146
3.1.6 其他攻击手段 149
3.2 常用的安全算法 149
3.2.1 数字摘要 149
3.2.2 对称加密算法 155
3.2.3 非对称加密算法 158
3.2.4 数字签名 162
3.2.5 数字证书 166
3.3 摘要认证 185
3.3.1 为什么需要认证 185
3.3.2 摘要认证的原理 187
3.3.3 摘要认证的实现 188
3.4 签名认证 192
3.4.1 签名认证的原理 192
3.4.2 签名认证的实现 193
3.5 HTTPS协议 200
3.5.1 HTTPS协议原理 200
3.5.2 SSL/TLS 201
3.5.3 部署HTTPS Web 208
3.6 OAuth协议 215
3.6.1 OAuth的介绍 215
3.6.2 OAuth授权过程 216
第4章 系统稳定性 218
本章主要介绍和解决如下问题:
常用的在线日志分析命令的使用和日志分析脚本的编写,如cat、grep、wc、less等命令的使用,以及awk、shell脚本的编写。<
摘要与插图
2.1.3 分布式session传统的应用服务器,如tomcat、jboss等,其自身所实现的session管理大部分都是基于单机的。对于大型分布式网站来说,支撑其业务的远远不止一台服务器,而是一个分布式集群,请求在不同服务器之间跳转。那么,如何保持服务器之间的session同步呢?传统网站一般通过将一部分数据存储在cookie中,来规避分布式环境下session的操作。这样做的弊端很多,一方面cookie的安全性一直广为诟病,另一方面cookie存储数据的大小是有限制的。随着移动互联网的发展,很多情况下还得兼顾移动端的session需求,使得采用cookie来进行session同步的方式的弊端更为凸显。分布式session正是在这种情况下应运而生的。
对于系统可靠性要求较高的用户,可以将session持久化到DB中,这样可以保证宕机时会话不易丢失,但缺点也是显而易见的,系统的整体吞吐将受到很大的影响。另一种解决方案便是将session统一存储在缓存集群上,如memcache,这样可以保证较高的读、写性能,这一点对于并发量大的系统来说重要;并且从安全性考虑,session毕竟是有有效期的,使用缓存存储,也便于利用缓存的失效机制。使用缓存的缺点是,一旦缓存重启,里面保存的会话也就丢失了,需要用户重新建立会话。
如图2-4所示,前端用户请求经过随机分发之后,可能会命中后端任意的Web Server,并且Web Server也可能会因为各种不确定的原因宕机。在这种情况下,session是很难在集群间同步的,而通过将session以sessionid作为key,保存到后端的缓存集群中,使得不管请求如何分配,即便是Web Server宕机,也不会影响其他Web Server通过sessionid从Cache Server中获得session,这样既实现了集群间的session同步,又提高了Web Server的容错性。
图2-4 基于缓存的分布式session架构
这里以Tomcat作为Web Server来举例,通过一个简单的工具memcached-session-manager,实现基于memcache的分布式session。
memcached-session-manager是一个开源的高可用的Tomcat session共享解决方案,它支持Sticky模式和Non-Sticky模式。Sticky模式表示每次请求都会被映射到同一台后端Web Server,直到该Web Server宕机,这样session可先存放在服务器本地,等到请求处理完成再同步到后端memcache服务器;而当Web Server宕机时,请求被映射到其他Web Server,这时候,其他Web Server可以从后端memcache中恢复session。对于Non-Sticky模式来说,请求每次映射的后端Web Server是不确定的,当请求到来时,从memcache中加载session;当请求处理完成时,将session再写回到memcache。
以Non-Sticky模式为例,它需要给Tomcat的$CATALINA_HOME/conf/context.xml文件配置SessionManager,具体配置如下:
sticky="false"
sessionBackupAsync="false"
lockingMode="auto"
requestUriIgnorePattern=".*\.(ico|png|gif|jpg|css|js)$"
transcoderFactoryClass="de.javakaffee.web.msm.serializer.kryo.KryoTranscoderFactory"
/>
其中:memcachedNodes指定了memcache的节点;sticky表示是否采用Sticky模式;sessionBackupAsync表示是否采用异步方式备份session;lockingMode表示session的锁定模式;auto表示对于只读请求,session将不会被锁定,如果包含写入请求,则session会被锁定;requestUriIgnorePattern表示忽略的url;transcoderFactoryClass用来指定序列化的方式,这里采用的是Kryo序列化,也是memcached-session-manag