数据挖掘-实用机器学习工具与技术-(原书第3版)

价格 79.00对比
发货 广东东莞市
销量 暂无
评价 已有 0 条评价
人气 已有 5 人关注
数量
+-
库存100
 
联系方式
加关注0

新图书资料发布

VIP   VIP会员第1年
资料未认证
保证金未缴纳

内容简介

本书是机器学习和数据挖掘领域的经典教材,被众多国外名校选为教材。书中详细介绍用于数据挖掘领域的机器学习技术和工具以及实践方法,并且提供了一个公开的数据挖掘工作平台Weka。本书主要内容包括:数据输入/输出、知识表示、数据挖掘技术(决策树、关联规则、基于实例的学习、线性模型、聚类、多实例学习等)以及在实践中的运用。本版对上一版内容进行了全面更新,以反映自第2版出版以来数据挖掘领域的技术变革和新方法,包括数据转换、集成学习、大规模数据集、多实例学习等,以及新版的Weka机器学习软件。

目录

出版者的话
译者序
前言
致谢
第一部分 数据挖掘简介
第1章 绪论
 1.1 数据挖掘和机器学习
  1.1.1 描述结构模式
  1.1.2 机器学习
  1.1.3 数据挖掘
 1.2 简单的例子:天气问题和其他问题
  1.2.1 天气问题
  1.2.2 隐形眼镜:一个理想化的问题
  1.2.3 鸢尾花:一个经典的数值型数据集
  1.2.4 CPU性能:介绍数值预测
  1.2.5 劳资协商:一个更真实的例子
  1.2.6 大豆分类:一个经典的机器学习的成功例子
 1.3 应用领域
  1.3.1 Web挖掘
  1.3.2 包含评判的决策
  1.3.3 图像筛选
  1.3.4 负载预测
  1.3.5 诊断
  1.3.6 市场和销售
  1.3.7 其他应用
 1.4 机器学习和统计学
 1.5 将泛化看做搜索
  1.5.1 枚举概念空间
  1.5.2 偏差
 1.6 数据挖掘和道德
  1.6.1 再识别
  1.6.2 使用个人信息
  1.6.3 其他问题
 1.7 补充读物
第2章 输入:概念、实例和属性
 2.1 概念
 2.2 样本
  2.2.1 关系
  2.2.2 其他实例类型
 2.3 属性
 2.4 输入准备
  2.4.1 数据收集
  2.4.2 ARFF格式
  2.4.3 稀疏数据
  2.4.4 属性类型
  2.4.5 缺失值
  2.4.6 不正确的值
  2.4.7 了解数据
 2.5 补充读物
第3章 输出:知识表达
 3.1 表
 3.2 线性模型
 3.3 树
 3.4 规则
  3.4.1 分类规则
  3.4.2 关联规则
  3.4.3 包含例外的规则
  3.4.4 表达能力更强的规则
 3.5 基于实例的表达
 3.6 聚类
 3.7 补充读物
第4章 算法:基本方法
 4.1 推断基本规则
  4.1.1 缺失值和数值属性
  4.1.2 讨论
 4.2 统计建模
  4.2.1 缺失值和数值属性
  4.2.2 用于文档分类的朴素贝叶斯
  4.2.3 讨论
 4.3 分治法:建立决策树
  4.3.1 计算信息量
  4.3.2 高度分支属性
  4.3.3 讨论
 4.4 覆盖算法:建立规则
  4.4.1 规则与树
  4.4.2 一个简单的覆盖算法
  4.4.3 规则与决策列表
 4.5 挖掘关联规则
  4.5.1 项集
  4.5.2 关联规则
  4.5.3 有效地生成规则
  4.5.4 讨论
 4.6 线性模型
  4.6.1 数值预测:线性回归
  4.6.2 线性分类:Logistic回归
  4.6.3 使用感知机的线性分类
  4.6.4 使用Winnow的线性分类
 4.7 基于实例的学习
  4.7.1 距离函数
  4.7.2 有效寻找邻
  4.7.3 讨论
 4.8 聚类
  4.8.1 基于距离的迭代聚类
  4.8.2 快速距离计算
  4.8.3 讨论
 4.9 多实例学习
  4.9.1 聚集输入
  4.9.2 聚集输出
  4.9.3 讨论
 4.10 补充读物
 4.11 Weka实现
第5章 可信度:评估学习结果
 5.1 训练和测试
 5.2 预测性能
 5.3 交叉验证
 5.4 其他评估方法
  5.4.1 留一交叉验证
  5.4.2 自助法
 5.5 数据挖掘方法比较
 5.6 预测概率
  5.6.1 二次损失函数
  5.6.2 信息损失函数
  5.6.3 讨论
 5.7 计算成本
  5.7.1 成本敏感分类
  5.7.2 成本敏感学习
  5.7.3 提升图
  5.7.4 ROC曲线
  5.7.5 召回率-率曲线
  5.7.6 讨论
  5.7.7 成本曲线
 5.8 评估数值预测
 5.9 描述

摘要与插图

第一部分 数据挖掘简介
  第1章 绪论
  人工受精的过程是从妇女的卵巢中收集卵子,再与丈夫或捐赠人的精液结合后产生胚胎,然后从中选择几个胚胎移植到妇女的子宫里。关键是要选出那些存活可能性的胚胎。选择根据60个左右的胚胎特征记录做出,这些特征包括它们的形态、卵母细胞、滤泡和精液样品。特征属性的数量大,胚胎学家很难同时对所有属性进行评估,并结合历史数据得出结论:这个胚胎是否能够产生一个活的婴儿。在英格兰的一个研究项目中,研究者探索运用机器学习技术,使用历史记录和它们的输出作为训练数据。
  每年,新西兰奶牛场主都要面临艰难的商业决策:哪些牛应该留在牧场,哪些牛需要卖到屠宰场。随着饲料储备的减少,每年牧场在接近挤奶季节末期时只留下1/5的奶牛。每头牛的生育和牛奶产量的历史数据都会影响这个决定。除此以外还要考虑的因素有:年龄(每头牛都将在8岁后接近生育期的终结)、健康问题、难产的历史数据、不良的性情特征(如尥蹶子、跳栅栏)、在下一个季节里不产牛犊。在过去的几年中,几百万头牛中的每一头牛都用700多个属性记录下来。机器学习正是用来考察成功的农场主在做决定的时候需要考虑哪些因素,不是为了使决策自动化,而是向其他人推广这些农场主的技术和经验。
  机器学习是从数据中挖掘知识。它是一个正在萌芽的新技术,范围涉及生与死、从欧洲到两极、家庭和事业,正逐渐引起人们的重视。
  1.1 数据挖掘和机器学习
  我们正在被数据所淹没。存在于这个世界和我们生活中的数据总量似乎在不断地增长,而且没有停止的迹象。个人计算机的普及将那些以前会丢弃的数据保存起来。便宜的硬盘和网络硬盘,3使得很容易以后再决定用这些数据做什么,因为我们可以买更多的硬盘来保存数据。无处不在的电子器件记录了我们的决策,如超市里的商品选择、个人的理财习惯,以及收入和消费。我们以自己的方式生活在这个世界上,而每一个行为又成为一条数据库里的记录保存下来。如今互联网用信息将我们淹没,我们在网上所做的每一个选择都被记录下来。所有的这些信息记录了个人的选择,而在商业和企业领域存在着数不清的相似案例。我们都知道我们对数据的掌握永远无法赶上数据升级的速度。而且在数据量增加的同时,无情地伴随着人们对它理解的降低。隐藏在这些数据后的是信息,具有潜在用处的信息,而这些信息却很少被显现出来或者被开发利用。
  本书介绍如何在数据中寻找模式。这并不稀奇,人们从一开始,就试图在数据中寻找模式。猎人在动物迁徙的行为中寻找模式;农夫在庄稼的生长中寻找模式;政客在选民的意见上寻找模式;恋人在对方的反应中寻找模式。科学家的工作(像一个婴儿)是理解数据,从数据中找出模式,并用它们来指导在真实世界中如何运作,然后把它们概括成理论,这些理论能够预测出在新的情况下会发生什么。企业家的工作是要辨别出机会,就是那些可以转变成有利可图的生意的行为中的一些模式,并且利用这些机会。
  在数据挖掘(data mining)中,计算机以电子化的形式存储数据,并且能自动地查询数据,或至少扩增数据。这仍算不得新鲜事。经济学家、统计学家、预测家和信息工程师长久以来相信,存在于数据中的模式能够被自动地找到、识别、确认并能用于预测。该理论的发展使得由数据中找出模式的机遇剧增。在几年,数据库急剧膨胀,如每天记录顾客选择商品行为的数据库,正把数据挖掘带到新的商业应用技术的前沿。据估计,存储在全世界数据库里的数据量正以每20个月翻一倍的速度增长。尽管很难从量的意义上真正验证这个数字,但是我们可以从质上把握这个增长
举报收藏 0
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2021111040号