内容简介
本书主要讲述R语言在数据分析与数据挖掘方面的应用,内容结构编排合理,由浅到深循序渐进地引导读者快速入门,并逐步提高使用R语言编程实现数据分析和文本数据挖掘的能力。本书内容简明易懂,适合新手快速入门。每个例题都配有数据和源代码,旨在引导读者学会从具体问题入手分析和使用R语言编写可以编译实现的代码,感受R语言的魅力,让数据产生价值。这种学习和实践相结合的方式适合初学者。 本书的目标读者是从事数据分析与数据挖掘领域的学生、老师和科研工作者,以及从事不同行业的数据分析师、数据挖掘工程师等。
目录
目录第1章R基础知识简介1.1为什么要学习R语言1.2如何下载、安装R和RStudio软件1.3R软件使用入门1.4R的工作原理1.5R启动项文件的配置1.5.1PATH环境变量1.5.2R的启动顺序1.5.3.Rprofile文件配置1.6R语言的工作空间1.6.1数据的导入1.6.2数据的存储 1.6.3R语言的批量读取和写入1.6.4R的内置数据集1.6.5批处理文件1.6.6R的在线帮助1.7R数的安装和加载1.7.1R数据分析与数据挖掘相1.7.2R文本挖掘wordcloud的使用1.7.3R语言中的机器学1.8R语言编程过程中的常见错误1.8.1安装失败的原因分析1.8.2R语言调试查错1.8.3R程序的运行时间与效率1.9控制流1.9.1分支结构的流程控制1.9.2中止语句与空语句的流程控制1.9.3重复和循环语句的流程控制1.10R语言编程常用的函数1.10.1用户自定义函数1.10.2常用的数学函数1.10.3常用的基础统计函数1.10.4常用的数据挖掘函数1.11R的趣味应用本章小结思考与练习第2章数据分析和挖掘的初步认识: R的数据结构2.1R的对象与属2.2向量对象2.2.1向量的索引方式2.2.2向量的排序和排名2.2.3向量的运算2.3数组与矩阵对象2.3.1矩阵的建立2.3.2矩阵元素值的修改2.3.3数组的建立2.3.4矩阵和数组的索引方式2.4数据框对象2.5因子对象2.6列表对象2.7时间序列对象2.8R语言中对象间的相互转换本章小结思考与练习第3章参数估计3.1统计量的分布3.1.体与样本3.1.2统计量的分布3.2参数估计的基本原理3.2.1估计量与估计值3.2.2点估计与区间估计3.体的区间估计3.3.1用R进体均值的区间估计3.3.体方差的区间估计3.3.体比例的区间估计3.3.4两体均值之差的区间估计3.3.5两体比例之差的区间估计3.4估体均值时样本量的确定3.5R语言中的ShapiroWilk检验本章小结思考与练习第4章假设检验4.1假设检验的基本问题4.1.1原假设与备择假设4.1.2两类错误4.1.3假设检验的步骤4.1.4区间估计与假设检验4.1.5利用P值进行决策4.2一体参数的检验4.2.体均值的假设检验4.2.2正体比例的假设检验4.2.3正体方差的假设检验4.2.4正态检验4.2.5W检验4.2.6EppsPulley检验4.3两体参数的假设检验4.3.1两体均值之差的假设检验4.3.2两体方差之比的区间估计4.3.3两体比例之差的检验4.3.体比率或百分比的检验4.4本章要点本章小结思考与练习第5章R的基本数据分析与绘图5.1数据的直观印象 5.1.1R的绘图设备和文件5.1.2R的图形组成、参数和边界5.2单变量分布特征的直观印象5.2.1直方图5.2.2条形图5.2.3风向风速玫瑰图5.2.4饼图5.2.5茎叶图5.2.6箱线图5.2.7核密度图 5.2.8小提琴图 5.2.9棒棒糖图5.2.10克利夫兰点图 5.3多变量联合分布的直观印象5.3.1等高线图5.3.2雷达图 5.4变量间相关的直观印象5.4.1马赛克图 5.4.2散点图 5.4.3相关系数图 5.5以鸢尾花数据集为例进行数据挖掘本章小结思考与练习第6章R的空间数据可视化6.1基于百度地图的可视化REma6.1.1remap()函数6.1.2remapB()函数6.2baidumap地的使用6.3热力图6.4leaflet地的使用6.5ggmap地的使用6.5.1ggmap的工作原理6.5.2get_map函数本章小结思考与练习第7章R语言的文本数据挖掘应用7.1文本挖掘的概述7.2文本挖掘与数据挖掘的关系7.3文本挖掘的首要步骤——分词7.4jiebaR分及Rwordseg分的安装和使用7.5文本挖掘t的安装和使用——以《哈利·波特与密室》为例7.5.1数据输入——语料库的构建7.5.2使用tm_map()函数对语料库进行预处理7.5.3元数据查看与管理7.5.4创建词条文档关系矩阵7.5.5文档距离的计算7.6R的文本分类分析方法7.6.1文本特征提取——词袋模型7.6.2文本特征选择7.6.3文本特征向量7.6.4基于统计的特征提取方法(构造评估函数)7.7LDA主题模型7.7.1LDA模型涉及的先验知识7.7.2LDA模型的文档生成过程7.7.3小说《红楼梦》的文本挖掘7.8R的文本聚类分析方法7.8.1层次聚类法7.8.2kmeans聚类法7.8.3K中心点聚类算法7.8.4K邻分类算法7.8.5支持向量机SVM算法7.8.6基于R的文本聚类的应用——以《红楼梦》为例进行说明7.9用做词频统计图(词云图)7.9.1常见词云图绘制7.9.22018年工作报告的词云图7.9.3小说《都挺好》词云图绘制7.9.4新华社新年献词的词云图绘制7.10小说《琅琊榜》文本的数据挖掘分析7.11用R和Python实现关键词共现矩阵的构建本章小结思考与练习参考文献