重构大数据统计

价格 79.00对比
发货 广东东莞市
销量 暂无
评价 已有 0 条评价
人气 已有 2 人关注
数量
+-
库存100
 
联系方式
加关注0

新图书资料发布

VIP   VIP会员第1年
资料未认证
保证金未缴纳

内容简介

大数据的统计计算是进行数据探索和分析挖掘的基础,在实际应用中会遇到两个问题:一个是需要使用多少资源;另一个是计算时间,它关系到数据探索分析的效率和效果。人们都希望花更少的钱,并且希望计算时间更短,但对于某个确定的计算过程,它们是成反比的。《重构大数据统计》作者就是从统计计算的算法入手,重构其计算过程,从而同时降低资源使用量和计算时间。《重构大数据统计》提出了一套完整的关于大数据统计的计算理论,包括常用的各种统计量和统计方法。基于《重构大数据统计》内容开发的数据分析工具已经在阿里巴巴集团内部的多个部门使用,并取得显著效果。另外,《重构大数据统计》还提供大量的示例程序代码帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。
《重构大数据统计》适合对大数据分析感兴趣的读者阅读,《重构大数据统计》前面章节比较容易理解,包含了常用统计量的计算;后面的各章节需要读者具备一些基础知识。建议读者根据自己的兴趣和工作需要,选择相应的内容进行参考。

目录

第1 章 基本概念 ............................................................. 1
1.1 数据类型 ......................................................................................... 1
1.2 总体和样本 ........................................................................ 2
1.3 参数和统计量 ................................................................................... 2
1.4 分布式计算 ...................................................................... 3
第2 章 单变量基本统计量 .......................................................... 5
2.1 数量统计量 ........................................................................... 5
2.1.1 样本方差为何除以n-1 ......................................................................................... 7
2.1.2 数据分布与标准差的关系 ................................................................................. 10
2.1.3 新的计算公式 ..................................................................................................... 11
2.1.4 代码实现 ............................................................................................................. 16
2.2 频数统计量 ..................................................................... 18
2.3 次序统计量 ......................................................................... 23
2.3.1 通过排序方法计算次序统计量 ......................................................................... 25
2.3.2 不需排序就可计算的次序统计量 ..................................................................... 29
2.3.3 基于频数信息计算次序统计量 ......................................................................... 31
2.3.4 中位数、众数和均值的关系 ............................................................................. 34
第3 章 单变量数据的分布 ................................................ 36
3.1 直方图 ........................................................................... 36
3.1.1 直方图的计算 ..................................................................................................... 39
3.1.2 算法实现 ............................................................................................................. 42
3.1.3 已知数据频数的情况下求直方图 ..................................................................... 49
3.1.4 日期类型直方图 ................................................................................................. 49
3.2 经验分布 ............................................................................... 57
3.3 近似分位数和近似百分位数 .................................................................. 61
3.4 PP、QQ 概率图 ........................................................................ 65
3.5 单变量的基本统计信息 ............................................................ 69
第4 章 多变量的数据特征 ............................................................ 77
4.1

摘要与插图

大数据的统计计算是进行数据探索和分析挖掘的基础。在实际应用中,随着数据规模的快速增长,数据会分布式存储在多台计算机上,即使单的求和操作都需要多台计算机协同完成,并且需要分钟级别的计算时间,这样我们将面对如下两个问题:
需要使用多少资源,即所要付出的成本。
计算需要多少时间,它关系到数据探索分析的效率和效果。
人们都希望花更少的钱,并且希望计算时间更短,但对于某个确定的计算过程,它们是成反比的。这就是我在大数据统计实践中经常遇到的情况,当研究了一个又一个计算性能问题之后,我惊奇地发现,这些不同的算法间是有共性的,这就吸引我去深入研究,形成了一套完整的理论,包括常用的各种统计量和统计方法。基于本书内容开发的数据分析工具已经在阿里巴巴集团内部的多个部门使用,并取得了显著效果。
先举一个例子,使大家有一个直观的印象:对于10TB 的数据,大约有1.25 万亿个数据,以求和计算为例,使用很多人熟悉的分布式SQL 进行计算:
SELECT SUM(COL1) AS COL1_SUM, COUNT(COL2) AS COL2_CNT, … FROM DATA_TABLE;
共运行了4 分44.062 秒,在该SQL 语句中,每列只算了一个统计量。
然后使用本书的计算方法,计算更多的统计量,包括:总个数、总和、均值、方差、标准差、标准误、变异系数、立方和、四次方和、二阶原点矩、三阶原点矩、四阶原点矩、二阶中心矩、三阶中心矩、四阶中心矩、偏度、峰度;值、值、极差、的100 个值、的100 个值;数据分布直方图、经验分布函数、近似百分位值。如果不同数值的个数小于10000个,会将其频数信息计算出来,并有百分位值、中值、众数;协方差矩阵、相关系数矩阵。
得到所有的这些统计量使用的计算节点数目与用SQL 语句获得的基本相同,花费的计算时间为:4 分53.673 秒。计算这么多内容才多花约10 秒,说明本书介绍的算法够吧!但这还只是一个开头。
接下来,做一个更有挑战的实验,除了上面这些统计量,我们再加入一些的统计计算,区间估计、参数检验、非参数检验、线性回归、共线性分析、方差分析、主成分分析,完成这些需要多久呢?答案是4 分53.766 秒。多么神奇的事情!对这些大数据进行统计计算只多用了不到0.1 秒。这种计算效率的提高够显著了吧,我们无须再为资源和时间发愁了。
本书通过文字描述、数学表达式和程序代码,将整个统计计算过程清晰地展现在读者眼前。全书揭示了各种统计概念和方法,以及它们内在的关联,并根据其特点,对各自的计算公式进行恒等变换,找到更适合大数据的计算方式。书中提供的示例程序代码可以帮助读者进一步了解算法细节,便于将书中的方法运用于实际计算。
本书适合对大数据分析感兴趣的读者阅读,本书前面的章节比较容易理解,包含了常用统计量的计算;后面的各章节需要读者具备一些基础知识,建议读者根据自己的兴趣和工作需要,选择相应的内容进行参考。
在本书编写过程中,感谢初敏、陈一宁、张东晖的支持和帮助,感谢蔡宁、高志涵在算法方面的讨论和交流,感谢邓钟强、蔡宁、高志涵、蒋耘、罗毅、谭望达、代斌、周俊、王少萌、姜晓燕、王乐珩、曹传宇等同事,一同将此理论应用于实际。
因作者水平有限,书中难免有不妥或疏漏之处,敬请广大专家和读者批评、指正! 我的电子邮件地址为:yangxu@alibaba-inc.com。
杨旭
2014 年7 月
举报收藏 0
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2021111040号