内容简介
《海量运维、运营规划之道》作者具有腾讯、百度等中国一线互联网公司多年从业经历,书中依托工作实践,以互联网海量产品质量、效率、成本为核心,从规划、速度、监控、告警、安全、管理、流程、预案、考核、设备、带宽等方面,结合大量案例与读者分享了作者对互联网海量运维、运营规划的体会。
《海量运维、运营规划之道》全面介绍大型互联网公司运维工作所涉及的各个方面,是每个互联网运维工程师、架构师、管理人员不可或缺的宝贵参考书。
目录
第1部分 质量
第1章 规划
1.1 架构规划
1.1.1 新趋势、新机遇、新挑战
1.1.2 产品、架构、成本的生命周期
1.1.3 质量、速度、成本
1.1.4 专业化、平台化、持续化
1.1.5 可伸缩、可调度、可扩展
1.1.6 Set模型,集装箱改变世界
1.1.7 调度,速度与容灾并进
1.1.8 海量导致架构取向,适用是王道
1.1.9 大系统简单做、小做
1.2 IDC规划
1.2.1 杂的基础网络
1.2.2 IDC属性、瓶颈分析及建议
1.2.3 IDC策略,分布制胜、速度第一
1.3 CDN规划
1.3.1 CDN发展现状与趋势分析
1.3.2 CDN厂商分析及外包细节
1.3.3 CDN节点分布及解析策略
1.3.4 CDN外包质量和风险控制
1.4 预算规划
1.4.1 预算的作用及预算推导
1.4.2 服务器定制,切合应用与性价比
1.4.3 服务器需求,用数据说话
第2章 速度
2.1 网站速度优化介绍
2.1.1 什么是网站速度优化
2.1.2 网站速度优化的价值
2.1.3 网站速度关键指标
2.1.4 影响网站速度的因素
2.2 网站速度监测实践
2.2.1 网站速度监测概述
2.2.2 网站速度主动监测
2.2.3 网站速度被动监测
2.3 网站速度分析实践
2.3.1 网站速度分析概述
2.3.2 网站速度分析工具
2.3.3 网站速度分析案例
2.4 网站速度优化实践
2.4.1 网站速度优化概述
2.4.2 网络速度优化及案例
2.4.3 系统速度优化及案例
2.4.4 前端速度优化及案例
2.5 防止网站速度退化
2.5.1 通过规范防止速度退化
2.5.2 通过工具防止速度退化
第3章 监控
3.1 监控概述
3.1.1 监控定义和价值
3.1.2 监控体系和实现途径
3.2 用户监控实践
3.2.1 访问监控,获取用户访问速度
3.2.2 URL监控,服务实时访问状态
3.2.3 劫持监控,了解全国劫持状态
3.2.4 内容监控,掌握网页元素变化
3.3 机器监控实践
3.4 网络监控实践
3.4.1 网络监控,时刻掌控广域网变化
3.4.2 响应监控,IDC内服务响应监控
3.4.3 域名监控,做精准的DNS解析
3.5 应用监控实践
3.5.1 模块监控,动态应用模块监控
3.5.2 数据库监控,数据库运行可视化
第4章 告警
4.1 告警概述
4.1.1 告警定义和途径
4.1.2 告警问题和规避方法
4.2 告警模型
4.2.1 告警分类,将告警分类区分对待
4.2.2 告警模型,如何建立告警模型
4.3 告警优化
4.3.1 告警收敛,规避被告警淹没
4.3.2 告警关联,让告警更具价值
4.3.3 告警分析,用数据说话
第5章 安全
5.1 Web漏洞扫描
5.2 域名劫持扫描
5.3 DDoS攻击扫描
5.4 敏感信息扫描
5.5 网页篡改扫描
第2部分 效率
第6章 管理
6.1 配置管理,标识所有的资源并记录在册
6.2 事件管理,记录、分类、诊断、解决问题
6.3 问题管理,消除引起问题的根本原因
6.4 变更管理,串联变更原因、过程、结果
6.5 容量管理,对运营指标未来的量化、预测
第7章 流程
7.1 业务运维管理规范
7.2 系统用户管理规范
7.3 设备使用管理规范
7.4 应用安全管理
摘要与插图
为什么要写这本书我在腾讯、百度工作多年,参与过多个海量产品的研发和维护,也见证这些产品从无到有,从小到大,并且历经数年持续迭代和稳定运行的整个生命周期。在整个生命周期中都离不开产品、研发、测试、运维等角色的全程参与和配合。而运维在上线前架构、系统、网络、硬件资源规划及上线后质量、效率、成本管理方面都发挥了不可替代的作用。的架构师、团队管理者、研发工程师、测试工程师等角色都需要了解这些才能进一步做好互联网产品,本书的初衷是把运维这个角色的价值和作用介绍给所有互联网从业人员,是入行不久的运维朋友。
书中的内容是从2010年4月陆续记录在个人blog(http://itkoala.com)上的,根据Google Analytics统计,至今浏览量有14万,访问次数为4.9万次,身份访问者有2.4万人,很多热心的朋友单独联系我,给我很多支持和鼓励,这些也是我决定写这本书的动力。近3年整理的内容将作为第一版先行出版,第二版已经在梳理,时机成熟会再次出版。
本书的名字叫《海量运维、运营规划之道》,海量运维是指支撑大规模产品的架构、网络、系统、应用的维护,运营规划是指产品运行的质量、效率、成本的管理,道在这里的意思是方向、方法,所以本书是表达如何做好大规模互联网产品维护管理的方法论。关于海量运维、运营规划,我想业界都没有准确的定义,假如说互联网的架构师用能否设计多高的摩天大楼来衡量架构能力,那么运维、运营更多的是在关注互联网服务的稳定、质量、效率、成本、故障、瓶颈及用户的忍耐、抱怨等问题。在本书中,将以质量、效率、成本为核心,从运营规划、管理、流程/规范、系统/平台、监控、告警、安全、优化、考核等几个维度结合案例来与大家分享自己的体会,内容大致如下。
痛并快乐着!
从未有过这样的充实,没有停留,离开深圳,来到上海,跟之前一样的感觉,长沙-北京,北京-深圳,深圳-上海,9年工作生涯,随风飘过。
可能,人生,在经历着无数的痛苦和快乐后,慢慢的老去,有希望达成的,也有变梦想的,结局都归属黄土。正因如此,决定留下些什么,于是有了itkoala.com这个站点,希望在这里回忆过去,在这里记录和分享自己的所感、所悟。
关于互联网运维、运营
关于互联网运维、运营,相信大家对运维比较熟悉,但对于运营,可能会有歧义。运维、运营这两个名词在腾讯会被强调和区分。说说我对这个岗位的理解,先看看腾讯(百度类似)有哪些岗位及分类。
综上所述,这里对运维、运营的理解又综合、抽象了技术支持类工程师的属性,比如应用运维、运营服务管理、系统管理等,甚至是研发工程师,可以理解为一种综合素养和协调能力。具体的工作大致如下:
读者对象
本书适合以下读者阅读:
● 互联网行业运维工程师、测试工程师、前端研发工程师、后端研发工程师
● 互联网行业技术经理、项目经理、产品经理、CTO
● 致力于从全局把握运维和优化网站及互联网产品的所有互联网从业人员
勘误和支持
由于编写的时间仓促,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正,书中的内容会不断更新在我的blog上,也欢迎您将错误和建议发送邮件至我的邮箱11599096@qq.com,期待能够听到读者的真挚反馈。
致谢
感谢原腾讯同事王辉和电子工业出版社张月萍老师花费大量的时间、精力来阅读我的书稿,指出许多文字和格式上的错误。感谢原腾讯同事丁吉亮、熊卫协助校稿和提供素材。