内容简介
《管理海量数据——压缩、索引和查询(第2版)》是斯坦福大学信息检索和挖掘课程的选教材之一,并已成为主要大学信息检索的主要教材。《管理海量数据——压缩、索引和查询(第2版)》理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其的在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
《管理海量数据——压缩、索引和查询(第2版)》作为斯坦福大学信息检索课程的教材之一,具有一定的阅读难度,主要面向信息检索专业本科生和研究生、搜索引擎业界的专业技术人员和从事海量数据处理相关专业的技术人员。
目录
第1章 概览 1
1.1 文档数据库(document databases) 7
1.2 压缩(compression) 10
1.3 索引(indexes) 12
1.4 文档索引 16
1.5 MG海量文档管理系统 20
第2章 文本压缩 23
2.1 模型 26
2.2 自适应模型 29
2.3 哈夫曼编码 32
范式哈夫曼编码 38
计算哈夫曼编码长度 44
总结 52
2.4 算术编码 52
算术编码是如何工作的 53
实现算术编码 57
保存累积计数 60
2.5 符号模型 61
部分匹配预测 62
块排序压缩 65
动态马尔科夫压缩 69
基于单字的压缩 72
2.6 字典模型 73
自适应字典编码器的LZ77系列 75
LZ77的Gzip变体 78
自适应字典编码器的LZ78系列 80
LZ78的LZW变体 82
2.7 同步 84
创造同步点 85
自同步编码 87
2.8 性能比较 90
压缩性能 92
压缩速度 95
其他性能方面的考虑 98
第3章 索引 99
3.1 样本文档集合 103
3.2 倒排文件索引 107
3.3 压缩倒排文件 112
无参模型(Nonparameterized models) 114
全局贝努里模型 117
全局观测频率模型(Global observed frequency model) 120
局部贝努里模型(Local Bernoulli model) 121
有偏贝努里模型(Skewed Bernoulli model) 122
局部双曲模型(Local hyperbolic model) 124
局部观测频率模型(Local observed frequency model) 125
上下文相关压缩(Context-sensitive compression) 127
3.4 索引压缩方法的效果 129
3.5 签名文件和位图 131
签名文件 132
位片签名文件(Bitsliced signature files) 136
签名文件分析 141
位图 144
签名文件和位图的压缩 145
3.6 索引方法的比较 148
3.7 大小写折叠、词根化和停用词 150
大小写折叠 151
词根化 151
影响索引长度的因素 152
停用词(stop word) 153
第4章 查询 157
4.1 访问字典的方法 161
访问数据结构 162
前端编码(Front coding) 165
哈希函数 168
哈希函数的设计 171
基于磁盘的字典存储 176
4.2 部分指定的查询术语 177
字符串暴力匹配(Brute-force string matching) 177
用n-gram索引 178
循环字典(Rotated lexicon) 180
4.3 布尔查询(BOOLEAN QUERY) 182
合取查询(conjunctive query) 182
术语处理顺序 183
随机访问和快速查找 185
分块倒排索引 187
非合取查询(Nonconjunctive Query) 190
4.4 信息检索和排名 191
坐标匹配(Coordinate matching) 191
内积相似度 192
向量空间模型 197
4.5 检索效果评价 200
召回率和率 200
召回率——率曲线 203
TREC项目 204
万维网搜索(World Wide Web Searching) 208
其他有效性评价方法 211
4.6 余弦法实现 212
文档内频率 212
余弦值的计算方法 216
文档权重所需的内存 217
累加器内存 222
快速查询处理 224
按频率排序的索引 225
排序 228
4.7 交互式检索 232
相关性反馈 232
概率模型 235
4.8 分布式检索 237
第5章 索引构造 243
计算模型 246
索引构造方法概览 247
5.1 基于内存的倒排 248
5.2 基于排序的倒排 251
5.3 索引压缩 255
压缩临时文件 256
多路归并 259
原地多路归并 260
5.4 压缩的内存内倒排 266
大内存倒排 266
基于字典的切分(Lexicon-based partitioning) 271
基于文本的切分 273
5.5 倒排方法的比较 276
5.6 构造签名文件和位图 277
5.7 动态文档集合
摘要与插图
大多数的外部压缩方法可以归纳为两类,即符号方法(symbolwise method)和字典方法(dictionary method)。符号方法就是通过估计符号(常常是字符)的概率值来压缩文本,它在同一时间只对一个符号编码,如摩斯码,对能出现的符号使用较短的码字。字典方法通过使用“字典”中词条的索引替换单字或文本片段来实现压缩。既然采用特殊的编码表示所有的词汇,因此Braille盲文编码也是一种字典方法。符号方法通常基于哈夫曼编码或算术编码,主要的不同之处在于如何估计符号的概率。符号概率值估计得越准,压缩效果就越好。为了获得更好的压缩效果,概率估计常常要根据符号出现的上下文来进行。概率估计的工作叫做“建模”(modeling),而建立一个好的模型对于实现好的压缩效果是至关重要的。把概率转换为比特流(bit stream)以供传输的过程叫做“摩斯码”,编码这个概念很好理解,可用哈夫曼或算术编码的方法有效地实现。模型的建立是一种艺术,不会只有的“”方法。