内容简介
贾科梅利编著的这本《Mahout实践指南》是软件开发专家数十年行业经验的结晶,深入浅出地论述如何使用Mahout进行数据分类、聚类和预测,涉及Mahout开发环境、序列文件使用方式、整合Mahout和外部资源、实现朴素贝叶斯分类器、股市预测、顶棚聚类、频谱预测、K-均值聚类等。《Mahout实践指南》是面向编程的,不涉及深奥的理论,简单、易学,可以帮助读者快速掌握Mahout的基本用法,实用性强。
全书共分10章。第1章介绍如何在单台机器上创建完整的Mahout开发环境。第2章重点介绍序列文件的使用方式。第3章详细介绍如何使用命令行工具和代码从RDBMS中读写数据。第4章详细讨论朴素贝叶斯分类器和互补朴素贝叶斯分类器的使用方法。第5章介绍如何使用logistic回归和随机森林预测股市。第6章描述Mahout框架中用的算法,包括大数据的聚类分析和分类。第7章描述频谱聚类的使用方式。
第8章描述使用K-均值(包括序列方式和MapReduce方式)对主题中的文本文档进行分类。第9章介绍频繁模式挖掘算法的使用方式。第10章描述使用遗传算法解决旅行商问题和提取规则。
目录
译者序
前言
关于评阅者
致谢
第1章 Mahout入门
秘笈1 安装Java和Hadoop
秘笈2 设置Maven和NetBeans开发环境
秘笈3 编写一个基本的系统
第2章 使用序列文件——什么时候和为什么
秘笈4 从命令行创建序列文件
秘笈5 编写代码创建序列文件
秘笈6 编码实现读取序列文件
第3章 将Mahout和外部资源整合
秘笈7 导入外部资源HDFS
秘笈8 将数据从HDFS导入到RDBMS
秘笈9 创建一个Sqoop作业来处理RDBMS
秘笈10 使用Sqoop API导入数据
第4章 实现朴素贝叶斯分类器
秘笈11 使用Mahout文本分类器演示基本的使用样例
秘笈12 编码实现朴素贝叶斯分类器
秘笈13 通过命令行使用互补朴素贝叶斯
秘笈14 编码使用互补朴素贝叶斯分类器
第5章 股市预测
秘笈15 为logistic回归准备数据
秘笈16 使用logistic预测GOOG股票动态
秘笈17 通过Java编码使用自适应的logistic回归
秘笈18 在大规模的数据集上使用logistic回归
秘笈19 使用随机森林预测市场动态
第6章 顶棚聚类
秘笈20 基于命令行的顶棚聚类
秘笈21 基于带参数命令行的顶棚聚类
秘笈22 通过Java代码使用顶棚聚类
秘笈23 编写你自己的距离估计
第7章 频谱聚类
秘笈24 通过命令行使用EigenCuts
秘笈25 在Java代码中使用EigenCuts
秘笈26 从原始数据创建相似度矩阵
秘笈27 使用频谱聚类进行图像分割
第8章 K-均值聚类
秘笈28 在Java代码中使用K-均值聚类
秘笈29 使用K-均值聚类对交通事故进行聚类
秘笈30 使用MapReduce进行K-均值聚类
秘笈31 命令行方式使用K-均值聚类
第9章 软计算
秘笈32 使用Mahout进行频繁模式挖掘
秘笈33 为频繁模式挖掘创建评价准则
秘笈34 在Java代码中使用频繁模式挖掘
秘笈35 使用LDA创建主题
第10章 实现遗传算法
秘笈36 设置Mahout以便使用遗传算法
秘笈37 在图上使用遗传算法
秘笈38 在Java代码中使用遗传算法