内容简介
ODPS(Open Data Processing Service)是阿里巴巴自主研发的海量数据处理和分析的服务平台,主要应用于数据分析、海量数据统计、数据挖掘、机器学习和商业智能等领域。目前,ODPS不仅在阿里内部得到广泛应用,享有很好的口碑,正逐步走向第三方开放市场。
本书是学习和掌握ODPS的指南,作者来自阿里ODPS团队。全书共13章,主要内容包括:ODPS入门、整体架构、数据通道、MapReduce编程、SQL查询分析、安全,以及基于真实数据的各种场景分析实战。本书基于很多范例解析,通过在各种应用场景下的示例来说明如何通过ODPS完成各种需求,以期引导读者从零开始轻松掌握和使用ODPS。同时,本书不局限于示例分析,也致力于提供更多关于大数据处理的编程思想和经验分享。书中所有示例代码都可以在作者提供的网站上免费下载。
本书适合想要了解和使用ODPS的读者阅读学习,对于从事大数据存储和应用以及分布式计算的专业人士来说,也是很好的参考资料。
目录
前言 7
第1章 ODPS概述 9
1.1 引言 9
1.2 初识ODPS 9
1.2.1 背景和挑战 9
1.2.2 为什么做ODPS 10
1.2.3 ODPS是什么 10
1.2.4 ODPS做什么 11
1.3 基本概念 11
1.3.1 账号(Account) 12
1.3.2 项目空间(Project) 13
1.3.3 表(Table) 13
1.3.4 分区(Partition) 14
1.3.5 任务(Task)、作业(Job)和作业实例(Instance) 14
1.3.6 资源(Resource) 14
1.4 应用开发模式 15
1.4.1 RESTful API 15
1.4.2 ODPS SDK 18
1.4.3 ODPS CLT 18
1.4.4 管理控制台 18
1.4.5 IDE 18
1.5 一些典型场景 19
1.5.1 阿里金融数据仓库 19
1.5.2 CNZZ数据仓库 19
1.5.3 支付宝账号影响力圈 19
1.5.4 阿里金融水文衍生算法 19
1.5.5 阿里妈妈广告CTR预估 20
1.6 现状和前景 20
1.7 小结 21
第2章 ODPS入门 22
2.1 准备工作 22
2.1.1 创建云账号 22
2.1.2 开通ODPS服务 24
2.2 使用管理控制台 24
2.3 配置ODPS客户端 26
2.3.1 下载和配置CLT 26
2.3.2 准备dual表 28
2.3.3 CLT运行模式 30
2.3.4 下载和配置dship 30
2.3.5 通过dship上传下载数据 31
2.4 网站日志分析实例 32
2.4.1 场景和数据说明 32
2.4.2 需求分析 33
2.4.3 数据准备 33
2.4.4 创建表并添加分区 34
2.4.5 数据解析和导入 35
2.4.6 数据加工 39
2.4.7 数据分析 43
2.4.8 自动化运行 47
2.4.9 应用数据集市 49
2.4.10 结果导出 51
2.4.11 结果展现 51
2.4.12 删除数据 53
2.5 小结 53
第3章 收集海量数据 54
3.1 DSHIP工具 54
3.2 收集WEB日志 56
3.2.1 场景和需求说明 56
3.2.2 问题分析和设计 56
3.2.3 实现说明 57
3.2.4 进一步探讨 59
3.2.5 为什么这么难 61
3.3 MYSQL数据同步到ODPS 61
3.3.1 场景和需求说明 61
3.3.2 问题分析和实现 61
3.3.3 进一步探讨 63
3.4 下载结果表 63
3.5 小结 63
第4章 使用SQL处理海量数据 64
4.1 ODPS SQL是什么 64
4.2 入门示例 64
4.2.1 场景说明 64
4.2.2 简单的DDL操作 64
4.2.3 生成数据 68
4.2.4 单表查询 69
4.2.5 多表连接JOIN 71
4.2.6 查询 79
4.2.7 多表关联UNION ALL 87
4.2.8 多路输出(MULTI-INSERT) 88
4.3 网站日志分析 88
4.3.1 准备数据和表 89
4.3.2 维度表 89
4.3.3 访问路径分析 96
4.3.4 TopK查询 97
4.3.5 IP黑名单 98
4.4 天猫品牌预测 103
4.4.1 主题说明和前期准备 103
4.4.2 理解数据 104
4.4.3 两个简单的实践 106
4.4.4 问题分析和算法设计 108
4.4.5 生成特征 109
4.4.6 抽取正负样本 111
4.4.7 生成模型 114
4.4.8 验证模型 115
4.4.9 预测结果 118
4.4.10 进一步探讨 118
4.5 小结 118
第5章 SQL进阶 120
5.1 UDF是什么 120
5.2 入门示例 120
5.3 实际应用案例 122
5.3.1 URL解码 122
5.3.2 简单的LBS应用 123
5.3.3 网站访问日志UserAgent解析 125
5.4 SQL实现原理 129
5.4.1 词法分析 130
5.4.2 语法分析 130
5.4.3 逻辑分析 130
5.4.4 物理分析 136
5.5 SQL调优 137
5.5.1 数据倾斜 137
5.5.2 一些优化建议 140
5.5.3 一些注意事项 141
5.6 小结 141
第6章 通过TUNNEL迁移数据 142
6.1 ODPS TUNNEL 是什么 142
6.2 入门示例 142
6.2.1 下载