内容简介
大数据时代已经来临,这将引起深刻的行业变革。但是,大数据的真意在于数据分析,即从繁多的数据中找出洞见,并将其应用于实际决策中,以产生更明智的决策。这是一个看起来简单、做起来较难的事情。
《发现数据之美:数据分析原理与实践》从一个自底向上的角度,全面地阐述了数据分析所涉及的知识和技术,对于经典算法和工具的介绍也不止于泛泛而谈,而是加入了作者的经验和理解。所谓自底向上的角度,即从数据分析实践开始时所需要的数据准备、数据探查、数据再处理等,到经典的统计分析和数据挖掘算法及应用,还讲述了模型的部署,优化技术的引入,到决策自动化。
《发现数据之美:数据分析原理与实践》对企业管理者、数据分析从业者及高校的学生都有参考意义。管理者能看到一个较全面的数据分析的阐述,明确自身的需求;从业者能看到经验的总结及经典工具的使用;高校学生能看到数据分析所涉及的知识,对数据分析有一个全面的认识。
目录
第1 章 业务分析是一个蓬勃发展的方向 ................................. 1
1.1 业务分析是什么 .............................................. 2
1.2 业务分析的应用现状 ..................................... 3
1.3 如何应用业务分析 .......................................... 5
1.4 大数据与业务分析 .................................. 8
1.5 我们还在等什么 .............................. 9
第2 章 开始我们的旅程——从数据谈起 .................................... 10
2.1 我们讨论的数据结构 ..................................... 11
2.1.1 行(Row)是什么 .................................................................................................. 12
2.1.2 列(Column)是什么 ............................................................................................. 13
2.1.3 多少行数据才合适 ................................................................................................. 15
2.1.4 我们需要什么样的列 ............................................................................................. 16
2.2 Statistics 和Modeler 的基本知识 ................................................ 18
2.3 数据导入(Loading Data) ....................................................... 24
2.4 数据探查(Data Exploring) ............................. 27
2.4.1 正态分布(Normal Distribution) ......................................................................... 28
2.4.2 数据探查的常见统计量 ......................................................................................... 30
2.4.3 数据可视化 ............................................................................................................. 35
2.5 本章小结 ............................................................... 47
第3 章 在分析之前,还需要数据预处理 ............................................ 48
3.1 数据的问题 ............................................. 49
3.2 数据校验 .......................................................... 50
3.2.1 验证规则 ................................................................................................................. 50
3.2.2 验证数据 ................................................................................................................. 53
3.2.3 数据审计(Data Audit) ........................................................................................ 57
3.2.4 识别异常数据 ......................................................................................................... 60
3.3 数据集成(Data Integration) ............................................ 65
3.3.1 在Statistics 中进行数据集成 ................................................................................. 66
3.3.2 在Modeler 中进行数据集成 .................................................................................. 68
3.4 数据转换(Data Transformation) ..................................................... 73
3.4.1 分箱(Binnin
摘要与插图
这个世界每天都在发生各种奇妙的事情,是当很多人每天坐在屏幕前,不断敲击键盘的时候,各种新奇的事物以的速度不断涌现。多年以前人们可能不会想到,手机会以智能的方式出现,但当乔布斯说“Today,we are-invent the phone”时,手机智能化便成为现实。人与计算机之间的语言交流,在无数科幻电影中被反复演绎,当IBM 的Watson 再次战胜人类的时候,这似乎就在眼前。
仔细想想,这真是一件有意思的事情。人们将各种电子元器件集成起来,并将各种计算包含其中,然后定义出各种用于人类与计算机进行交流的计算机编程语言,这便成了一个放大、成就人们各种奇思妙想的利器。
计算机的广泛应用自不必细说,人们已经得到了其诸多的便利。在商业应用领域,计算机能帮人们做很多事情,比如将各种数据存放起来,自动化地处理各种业务,生成各种报表以供人们参考,等等。可以说,人们已经离不开计算机技术的帮助。然而,这一切的重要基础是数据。
我们已经进入了大数据时代
早在二十年前,尼葛洛庞蒂就在《数字化生存》中描述和预言了当今的生活——人们已经离不开数字,人们的生活已经与数字息息相关。数字代表了一定的数据信息,是各种定性指标的表达,人们与数字已经紧密地捆绑在了一起。
数字化是计算机用来表述事物的方式,或至微至细,或宏观概括。就像人类的语言,可以表达很多复杂事物。如今,数字化已经不是一个技术问题,而是一个意愿问题。大量的事物本来就存在,且都能用数字的方式来表达,问题是人们是否愿意来数字化它们。如今一个显而易见的趋势是人们对数据的渴望似乎是无止境的,即使数据是巨量的,人们似乎也愿意存储和处理。
海量数据的产生一方面是积累而来,另一方面是人们开始愿意并且能够收集、存储和处理它们。在过去的几十年间,不论是企业、机构还是国家,都在努力地收集和存储数据。从企业层面来讲,数据的收集和积累大多来自于信息化系统的应用,如各种业务系统等。维克托?迈尔?舍恩伯格和肯尼思?库克耶合著的《大数据时代》中宣称:世界的本质就是数据;并且基于了解世界的渴望,人们不断地扩大数据的收集规模。数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。事实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。
很多看起来很酷的应用都必须有一定数量的数据基础。这也暗合于计算机世界的形态:计算机的绝大多数组件都在处理各种数据而不是在产生各种数据,字节进入计算单元,然后流出另外一组经过计算的字节。计算单元就是消费数据的组件,而数据则是需要收集和积累的。如果没有足够的数据,有再多的计算单元也只是个摆设。
很久以前就有这样的观点:数据将成为比自然资源更重要的资源。这个观点强调了数据中包含着具有巨大价值的信息、知识,这些信息和知识的应用会带来可观的价值。
一个简单的例子就能说明数据的重要性。例如,有两家不同的公司,一家从一开始就不断收集和积累各种数据,并且愿意不断扩大数据收集的规模,那么它就有可能从数据中找到一些知识:什么样的用户会喜欢什么样的产品,他们可能对哪些营销活动感兴趣,等等;另外一家公司则不注重数据的积累和收集,显然它不大可能从残缺的、低质量的数据中找到有用的洞见。这洞见具有巨大的使用价值,比其拥有的其他资源更重要。
数据分析的意义所在
数据分析是拥有数据之后要做的意义的事情。数据分析是个比较广泛的概念,数据挖掘、统计分析、商业智能(Business Intelligence)、业务分析等都属于数据分