内容简介
数据挖掘是当前数据分析领域中跃、沿的地带。本书以数据挖掘的实践过程为主线,通过生动的应用案例,从数据挖掘实施角度,系统介绍了经典的数据挖掘方法和利用SPSS Modeler实现数据挖掘的全部过程,讲解方法从易到难,说明问题从浅至深。本书力求以俗的方式阐述数据挖掘方法的核心思想与基本原理,同时配合SPSS Modeler软件操作的说明,希望读者能够直观了解方法本质,尽快掌握SPSS Modeler软件使用,并应用到数据挖掘实践中。书中所有数据和案例与华信教育资源网上数据资料内容一致。
目录
第1章 数据挖掘和Clementine概述 1
1.1 数据挖掘的产生背景 1
1.1.1 海量数据的分析需求催生数据挖掘 1
1.1.2 应用对理论的挑战催生数据挖掘 3
1.2 什么是数据挖掘 6
1.2.1 数据挖掘的概念 6
1.2.2 数据挖掘能做什么 8
1.2.3 数据挖掘得到的知识形式 9
1.2.4 数据挖掘的算法分类 11
1.3 Clementine软件概述 14
1.3.1 Clementine的窗口 14
1.3.2 数据流的基本管理和执行 17
1.3.3 数据流的其他管理 19
1.3.4 从一个示例看Clementine的使用 21
第2章 Clementine数据的读入 30
2.1 变量的类型 30
2.1.1 从数据挖掘角度看变量类型 30
2.1.2 从数据存储角度看变量类型 31
2.2 读入数据 31
2.2.1 读自由格式的文本文件 32
2.2.2 读Excel电子表格数据 36
2.2.3 读SPSS格式文件 37
2.2.4 读数据库文件 38
2.3 生成实验方案数据 40
2.4 合并数据 42
2.4.1 数据的纵向合并 42
2.4.2 数据的横向合并 44
第3章 Clementine变量的管理 47
3.1 变量说明 47
3.1.1 取值范围和缺失值的说明 48
3.1.2 变量取值有效性检查和修正 49
3.1.3 变量角色的说明 50
3.2 变量值的重新计算 51
3.2.1 CLEM表达式 52
3.2.2 变量值重新计算示例 55
3.3 变量类别值的调整 57
3.4 生成新变量 58
3.5 变量值的离散化处理 62
3.5.1 常用的分箱方法 62
3.5.2 变量值的离散化处理示例 66
3.6 生成样本集分割变量 69
3.6.1 样本集分割的意义和常见方法 69
3.6.2 生成样本集分割变量的示例 71
第4章 Clementine样本的管理 73
4.1 样本的排序 73
4.2 样本的条件筛选 74
4.3 样本的随机抽样 75
4.4 样本的浓缩处理 76
4.5 样本的分类汇总 77
4.6 样本的平衡处理 78
4.7 样本的其他管理 79
4.7.1 数据转置 79
4.7.2 数据的重新组织 81
第5章 Clementine数据的基本分析 83
5.1 数据质量的探索 84
5.1.1 数据的基本描述与质量探索 84
5.1.2 离群点和值的修正 87
5.1.3 缺失值的替补 88
5.1.4 数据质量管理的其他功能 89
5.2 基本描述分析 90
5.2.1 计算基本描述统计量 91
5.2.2 绘制散点图 93
5.3 变量分布的探索 94
5.4 两分类变量相关性的研究 97
5.4.1 两分类变量相关性的图形分析 97
5.4.2 两分类变量相关性的数值分析 100
5.5 两总体的均值比较 105
5.5.1 两总体均值比较的图形分析 105
5.5.2 独立样本的均值检验 107
5.5.3 配对样本的均值检验 111
5.6 变量重要性的分析 113
5.6.1 变量重要性分析的一般方法 113
5.6.2 变量重要性分析的应用示例 116
第6章 分类预测:Clementine的决策树 119
6.1 决策树算法概述 119
6.1.1 什么是决策树 119
6.1.2 决策树的几何理解 121
6.1.3 决策树的核心问题 121
6.2 Clementine的C5.0算法及应用 124
6.2.1 信息熵和信息增益 124
6.2.2 C5.0的决策树生长算法 126
6.2.3 C5.0的剪枝算法 130
6.2.4 C5.0的推理规则集 132
6.2.5 C5.0的基本应用示例 136
6.2.6 C5.0的损失矩阵和Boosting技术 140
6.2.7 C5.0的模型评价 145
6.2.8 C5.0的其他话题:推理规则、交叉验证和未剪枝的决策树 147
6.3 Clementine的分类回归树及应用 148
6.3.1 分类回归树的生长过程 149
6.3.2 分类回归树的剪枝过程 151
6.3.3 损失矩阵对分类树的影响 154
6.3.4 分类回归树的基本应用示例 155
6.3.5 分类
摘要与插图
前 言数据挖掘是当前数据分析领域中跃沿的地带。
任何事物都有定性和定量两个方面,定量则产生数据。从数据分析入手是我们认识事物本质的基本手段。任何事物都是互相关联着的,从数据分析入手是我们把握事物之间联系的基本方法。任何事物都在永恒地变化发展着,从数据分析入手是我们探索事物发展规律的基本思路。所以我们进行数据分析,既是一种世界观,也是一种方法论。我们在研究着丰富多彩的客观世界的同时,也体现着分析者主观的智慧和自身的价值。
随着中国社会经济的蓬勃发展,在错综复杂的宏观、中观和微观的共同作用下,战略决策和战术选择都显得敏感而关键,越来越多的人们加入到数据分析的行列中来。这是一个富有挑战性的工作,不但有意思而且有意义。
IBM公司于2009年1月公布了其“智慧地球”战略。该战略的主要思想是,将传感设备或智能仪表嵌入到建筑、电力、交通、管道等各种物体中,进行数据自动采集,之后基于互联网形成物物相联的物联网,然后通过计算机和云计算将数据整合,进行智能化分析和建模,从而实现社会与物理世界的融合。这是一个未来理想化的信息世界图景。
在这个智慧系统中,其核心是数据处理。为此,IBM公司于2009年7月斥资12亿美元收购了的SPSS 统计分析软件公司,将其应用广泛的SPSS统计分析软件和Clementine数据挖掘软件纳入麾下。同时对软件产品进行了整合,将Clementine更新命名为PASW(Predictive Analytics SoftWare)Modeler,并快速推向市场。
目前,SPSS Clementine软件已经连续若干年蝉联数据挖掘应用的,而业界对于PASW Modeler的认知则刚刚开始。所以本书继续沿用为广大读者所熟悉的Clementine这个名字。
Clementine软件不但将计算机科学中许多机器学习的算法带入到数据分析中来,同时也综合了一些行之有效的数据挖掘方法,成为内容全面、功能强大的数据挖掘产品。
Clementine软件充分利用计算机系统的运算处理能力和图形展现能力,将方法、应用与工具有机地融合为一体,是解决数据挖掘问题的想工具。
Clementine软件继续保持了SPSS产品的一贯风格:界面友好且容易使用。复杂的数学算法和冗余的输出结果被软件隐藏在程序系统内部。Clementine软件始终把自己的应用对象锁定在实际部门的业务分析人员,而不是一个数据分析专家。这种“傻瓜型”软件经常遭到一些精英学者的指摘,但是这恰恰成为Clementine成功开拓自己应用疆域的效利器。
本书作者常年从事计算机数据分析的教学与科研工作,并长期跟踪研究SPSS公司数据分析产品,具有计算机应用与统计分析的双重学历背景。我们深知,对于数据挖掘这样一款综合方法性的软件工具来说,一个基层的读者应该从哪些方面入手,就能很快地掌握和使用Clementine开始数据挖掘工作,并从中受益。
本书默认读者具有以下特征:具有基础的计算机操作能力;不甚了解数据挖掘的原理和方法;有自己应用领域积累的数据,渴望使用数据挖掘方法解决实际问题。
所以,针对上述读者群,本书的特点是:
1.以数据挖掘过程为线索介绍Clementine软件
目前,具备基本的计算机操作能力已经不是读者的障碍,数据挖掘的过程与方法才是读者关心的主题和应用的难点。各领域众多的读者所面临的问题是:自己拥有的一批数据不知道如何使用Clementine进行组织,不知道如何利用Clementine对它们进行基本加工和整理;其次,不知道选择Clementine中的哪些方法对数据进行分析,不知道如何解释分析结果。
因此,本书以数据挖掘的实践过程为主线,从Clementine数据管理入手,说明问题从浅至深,讲解方法从易到难。这样,能使