内容简介
本书共14章,主要内容包括:第1章探讨数据分析的基本原理和数据分析步骤。第2章解释如何清洗并准备好数据并介绍了数据清洗工具OpenRefine。第3章展示在Javascript可视化框架下应用D3.js语言来实现各类数据的可视化方法。第4章介绍如何应用朴素贝叶斯算法来区分垃圾邮件。第5章介绍了一个应用动态时间规整方法来寻找图像间相似性的项目。第6章解释如何使用随机游走算法和可视化的D3.js动画技术来模拟股票价格。第7章介绍核岭回归(KRR)的原理以及如何使用此方法和时间序列数据来预测黄金价格。第8章描述如何使用支持向量机的方法进行分类分析。第9章应用细胞自动机的方法对传染病进行建模。第10章解释如何应用Gephi从Facebook获取你的社会化媒体图谱并使之实现可视化。第11章介绍如何应用Twitter数据进行情感分析。第12章介绍使用MongoDB进行数据处理和聚合。第13章详细介绍了如何在MongoDB数据库中应用MapReduce编程模型。第14章介绍如何应用IPython和Wakari开展线上数据分析。
目录
译者序
序
前言
评审者简介
致谢
第1章 开始
1.1 计算机科学
1.2 人工智能
1.3 机器学习
1.4 统计学
1.5 数学
1.6 专业领域知识
1.7 数据、信息和知识
1.8 数据的本质
1.9 数据分析过程
1.9.1 问题
1.9.2 数据准备
1.9.3 数据探索
1.9.4 预测建模
1.9.5 结果可视化
1.10 定量与定性数据分析
1.11 数据可视化的重要性
1.12 大数据
1.12.1 传感器和摄像头
1.12.2 社会化网络分析
1.12.3 本书的工具和练习
1.12.4 为什么使用python
1.12.5 为什么使用mlpy
1.12.6 为什么使用d3.js
1.12.7 为什么使用mongodb
1.13 小结
第2章 数据准备与处理
2.1 数据源
2.1.1 开源数据
2.1.2 文本文件
2.1.3 excel文件
2.1.4 sql数据库
2.1.5 nosql数据库
2.1.6 多媒体
2.1.7 网页检索
2.2 数据清洗
2.2.1 统计方法
2.2.2 文本解析
2.2.3 数据转化
2.3 数据格式
2.3.1 csv
2.3.2 json
2.3.3 xml
2.3.4 yaml
2.4 开始使用openrefine工具
2.4.1 text facet
2.4.2 聚类
2.4.3 文件过滤器
2.4.4 numeric facet
2.4.5 数据转化
2.4.6 数据输出
2.4.7 处理历史
2.5 小结
第3章 数据可视化
3.1 数据导向文件
3.1.1 html
3.1.2 dom
3.1.3 css
3.1.4 javascript
3.1.5 svg
3.2 开始使用d3.js
3.2.1 柱状图
3.2.2 饼图
3.2.3 散点图
3.2.4 单线图
3.2.5 多线图
3.3 交互与动画
3.4 小结
第4章 文本分类
4.1 学习和分类
4.2 贝叶斯分类
4.3 e-mail主题测试器
4.4 数据
4.5 算法
4.6 分类器的准确性
4.7 小结
第5章 基于相似性的图像检索
5.1 图像相似性搜索
5.2 动态时间规整
5.3 处理图像数据集
5.4 执行dtw
5.5 结果分析
5.6 小结
第6章 模拟股票价格
6.1