Python中文自然语言处理基础与实战

价格 59.80对比
发货 全国
销量 暂无
评价 已有 0 条评价
人气 已有 21 人关注
数量
+-
库存100
 
联系方式
加关注0

DESTOON网站管理系统

管理员第1年
资料未认证
保证金未缴纳
  • 上次登录 今天 10:16
  • 姓名 (先生)  

内容简介

本书以Python自然语言处理的常用技术与真实案例相结合的方式,深入浅出地介绍Python自然语言处理的重要内容。全书共12章,内括绪论、语料库、正则表达式、中文分词技术、词标注与命名实体识别、关键词提取、文本向量化、文本分类与文本聚类、文本情感分析、NLP中的深度学、智能问答系统,以及基于TipDM大数据挖掘建台实现垃圾短信分类。本含实训和课后帮助读者通过练作实践,巩固所学内容。
本书可作为“1+X”证书制度试点工作中“大数据应用开发(Python)”职业技能等级证书的教学和培训用书,也可以作为高校数据科学或人工智能相关专业的教材,还可作为机器学者的自学用书。

目录

第 1章 绪论 1
1.1 自然语言处理概述 1
1.1.1 NLP的发展历程 2
1.1.2 NLP研究内容 3
1.1.3 NLP的几个应用场景 4
1.1.4 NLP与人工智能技术 5
1.1.5 学P的难点 6
1.2 NLP基本流程 6
1.2.1 语料获取 6
1.2.2 语料预处理 7
1.2.3 文本向量化 7
1.2.4 模型构建 7
1.2.5 模型训练 7
1.2.6 模型评价 8
1.3 NLP的开发环境 8
1.3.1 Anaconda安装 8
1.3.2 Anaconda应用介绍 9
小结 14
课后14
第 2章 语料库 16
2.1 语料库概述 16
2.1.1 语料库简介 16
2.1.2 语料库的用途 17
2.2 语料库的种类与构建原则 17
2.2.1 语料库的种类 17
2.2.2 语料库的构建原则 18
2.3 NLTK 19
2.3.1 NLTK简介 19
2.3.2 安装步骤 19
2.3.3 NLTK中函数的使用 21
2.4 语料库的获取 23
2.4.1 获取NLTK语料库 23
2.4.2 获取网络在线语料库 30
2.5 任务:语料库的构建与应用 32
2.5.1 构建作品集语料库 32
2.5.2 武侠小说语料库分析 33
小结 35
实训 35
实训1 构建语料库 35
实训2 《七剑下天山》语料库分析 36
课后36
第3章 正则表达式 38
3.1 正则表达式的概念 38
3.1.1 正则表达式函数 38
3.1.2 正则表达式的元字符 40
3.2 任务:正则表达式的应用 43
3.2.1 《西游记》字符过滤 43
3.2.2 自动提取人名与 44
3.2.3 提取网页标签信息 45
小结 46
实训 46
实训1 过滤《三国志》中的字符 46
实训2 提取地名与邮编 46
实训3 提取网页标签中的文本 46
课后47
第4章 中文分词技术 48
4.1 中文分词简介 48
4.2 基于规则分词 48
4.2.1 正向大匹配法 49
4.2.2 逆向大匹配法 49
4.2.3 双向大匹配法 50
4.3 基于统计分词 51
4.3.1 n元语法模型 51
4.3.2 隐马尔可夫模型相关概念 55
4.4 中文分词工具jieba 62
4.4.1 基本步骤 63
4.4.2 分词模式 63
4.5 任务:中文分词的应用 64
4.5.1 HMM中文分词 64
4.5.2 提取新闻文本中的高频词 68
小结 69
实训 70
实训1 使用HM行中文分词 70
实训2 提取文本中的高频词 70
课后70
第5章 词标注与命名实体识别 72
5.1 词标注 72
5.1.1 词标注简介 72
5.1.2 词标注规范 73
5.1.3 jieba词标注 74
5.2 命名实体识别 77
5.2.1 命名实体识别简介 77
5.2.2 CRF模型 78
5.3 任务:中文命名实体识别 82
5.3.klearn-crfsuite库简介 83
5.3.2 命名实体识别流程 83
小结 90
实训 中文命名实体识别 90
课后91
第6章 关键词提取 92
6.1 关键词提取技术简介 92
6.2 关键词提取算法 93
6.2.1 TF-IDF算法 93
6.2.2 TextRank算法 94
6.2.3 LSA与LDA算法 96
6.3 任务:自动提取文本关键词 103
小结 109
实训 109
实训1 文本预处理 109
实训2 使用TF-IDF算法提取关键词 109
实训3 使用TextRank算法提取关键词 110
实训4 使用LSA算法提取关键词 110
课后110
第7章 文本向量化 112
7.1 文本向量化简介 112
7.2 文本离散表示 113
7.2.1 独热表示 113
7.2.2 BOW模型 113
7.2.3 TF-IDF表示 114
7.3 文本分布式表示 114
7.3.1 Word2Vec模型 114
7.3.2 Doc2Vec模型 118
7.4 任务:文本相似度计算 120
7.4.1 Word2Vec词向量的训练 121
7.4.2 Doc2Vec段落向量的训练 122
7.4.3 计算文本的相似度 124
小结 128
实训 128
实训1 实现基于Word2Vec模型的新闻语料词向量训练 128
实训2 实现基于Doc2Vec模型的新闻语料段落向量训练 128
实训3 使用Word2Vec模型和Doc2Vec模型计算新闻文本的相似度 129
课后129
第8章 文本分类与文本聚类 131
8.1 文本挖掘简介 131
8.2 文本分类常用算法 132
8.3 文本聚类常用算法 133
8.4 文本分类与文本聚类的步骤 135
8.5 任务:垃圾短信分类 136
8.6 任务:新闻文本聚类 141
小结 144
实训 144
实训1 基于朴素贝叶斯的新闻分类 144
实训2 食品种类问题聚类分析 145
课后145
第9章 文本情感分析 147
9.1 文本情感分析简介 147
9.1.1 文本情感分析的主要内容 147
9.1.2 文本情感分析的常见应用 148
9.2 情感分析的常用方法 149
9.2.1 基于情感词典的方法 149
9.2.2 基于文本分类的方法 150
9.2.3 基于LDA主题模型的方法 151
9.3 任务:基于情感词典的情感分析 151
9.4 任务:基于文本分类的情感分析 154
9.4.1 基于朴素贝叶斯分类的情感分析 154
9.4.2 基于SnowNLP库的情感分析 156
9.5 任务:基于LDA主题模型的情感分析 157
9.5.1 数据处理 157
9.5.2 模型训练 158
9.5.3 结果分析 159
小结 160
实训 160
实训1 基于词典的豆瓣评论文本情感分析 160
实训2 基于朴素贝叶斯算法的豆瓣评论文本情感分析 160
实训3 基于SnowNLP的豆瓣评论文本情感分析 161
实训4 基于LDA主题模型的豆瓣评论文本情感分析 161
课后161
第 10章 NLP中的深度学 163
10.1 循环神经网络概述 163
10.2 RNN结构 164
10.2.1 多对一结构 164
10.2.2 等长的多对多结构 164
10.2.3 非等长结构(Seq2Seq模型) 169
10.3 深度学 171
10.3.1 TensorFlow简介 171
10.3.2 基于TensorFlow的深度学eras 172
10.4 任务:基于LSTM的文本分类与情感分析 172
10.4.1 文本分类 172
10.4.2 情感分析 181
10.5 任务:基于Seq2Seq的机器翻译 185
10.5.1 语料预处理 185
10.5.2 构建模型 188
10.5.3 定义优化器和损失函数 191
10.5.4 训练模型 191
10.5.5 翻译 194
小结 195
实训 195
实训1 实现基于LSTM模型的新闻分类 195
实训2 实现基于LSTM模型的携程网评论情感分析 196
实训3 实现基于Seq2Seq和GPU的机器翻译 196
课后197
第 11章 智能问答系统 198
11.1 智能问答系统简介 198
11.2 智能问答系统的主要组成部分 198
11.2.1 问题理解 199
11.2.2 知识检索 199
11.2.3 答案生成 200
11.3 任务:基于Seq2Seq模型的聊天机器人 201
11.3.1 读取语料库 201
11.3.2 文本预处理 202
11.3.3 模型构建 206
11.3.4 模型训练 211
11.3.5 模型评价 218
小结 218
实训 基于Seq2Seq模型的聊天机器人 218
课后219
第 12章 基于TipDM大数据挖掘建台实现垃圾短信分类 220
12.1台简介 220
12.1.1 实训库 221
12.1.2 数据连接 222
12.1.3 实训数据 222
12.1.4 我的实训 223
12.1.5 系统算法 223
12.1.6 个人算法 225
12.2 实现垃圾短信分类 226
12.2.1 数据源配置 227
12.2.2 文本预处理 229
12.2.3 朴素贝叶斯分类模型 234
小结 235
实训 实现基于朴素贝叶斯的新闻分类 235
课后236

举报收藏 0
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2021111040号