普通高等教育“十一五”规划教材,计算机科学与技术系列教材·信息技术方向:激光原理

价格 23.00对比
发货 广东东莞市
销量 暂无
评价 已有 0 条评价
人气 已有 2 人关注
数量
+-
库存100
 
联系方式
加关注0

新图书资料发布

VIP   VIP会员第1年
资料未认证
保证金未缴纳

内容简介

《搜索引擎技术基础》从教学的角度出发,对搜索引擎的原理及开发技术进行了全面的介绍,内容包括搜索引擎的基本原理、网页抓取技术、信息预处理技术、信息索引技术、信息查询技术和多媒体信息检索技术。另外,《搜索引擎技术基础》还对搜索引擎开发技术进行了详细的讨论。  《搜索引擎技术基础》适合高等院校计算机科学与技术专业及相关专业的学生和研究生阅读参考,也适合相关领域的工程技术人员参阅。

目录

第1章 搜索引擎概述1
1.1 搜索引擎的概念、原理及历史与发展1
1.1.1 搜索引擎的概念1
1.1.2 搜索引擎的原理2
1.2 搜索引擎的历史与发展趋势2
1.2.1 搜索引擎的发展史3
1.2.2 搜索引擎的发展趋势7
1.3 搜索引擎的分类9
1.3.1 全文搜索引擎10
1.3.2 目录索引搜索引擎10
1.3.3 元搜索引擎11
1.3.4 分布式搜索引擎12
1.4 搜索引擎的关键技术12
1.4.1 信息收集和存储技术12
1.4.2 信息预处理技术12
1.4.3 信息索引技术13
1.5 主要搜索引擎介绍14
1.5.1 谷歌搜索14
1.5.2 雅虎搜索17
1.5.3 百度搜索19
1.5.4 北大天网搜索22
1.6 小结24
思考题26

第2章 搜索引擎基础27
2.1 搜索引擎的体系结构27
2.1.1 搜索器27
2.1.2 索引器29
2.1.3 检索器30
2.1.4 用户接口30
2.2 搜索引擎的工作原理31
2.2.1 网页搜集31
2.2.2 网页处理32
2.2.3 查询服务34
2.3 搜索引擎的数据结构35
2.3.1 存储结构35
2.3.2 信息库37
2.3.3 文本索引37
2.3.4 词典38
2.3.5 采样表38
2.3.6 前向索引38
2.3.7 后向索引39
2.4 元搜索引擎39
2.4.1 元搜索引擎的基本构成40
2.4.2 元搜索引擎的分类41
2.4.3 常用元搜索引擎介绍42
2.4.4 元搜索引擎的特点45
2.4.5 主要技术指标46
2.5 个性化搜索引擎47
2.5.1 系统模块及其功能48
2.5.2 个性化搜索引擎的关键技术49
2.6 智能搜索引擎50
2.6.1 智能搜索引擎特征50
2.6.2 智能搜索引擎主要技术51
2.7 小结52
思考题54

第3章 网页抓取技术55
3.1 搜索引擎爬虫55
3.1.1 网络爬虫工作原理55
3.1.2 开源网络爬虫简介56
3.1.3 网页信息的抓取58
3.2 搜索引擎爬虫的关键技术60
3.2.1 网页抓取优先策略60
3.2.2 深度优先策略61
3.2.3 广度优先策略62
3.2.4 优先策略63
3.2.5 不重复抓取策略64
3.2.6 网页重访策略67
3.2.7 网页抓取提速策略68
3.2.8 Robots协议69
3.3 小结71
思考题72

第4章 网页信息预处理技术73
4.1 网页信息结构化73
4.1.1 网页结构化的目标73
4.1.2 建立DOM树74
4.1.3 网页内容的获取76
4.2 文本处理77
4.2.1 词法分析77
4.2.2 中文分词技术78
4.2.3 无用词删除83
4.2.4 词干提取83
4.2.5 索引词选择91
4.2.6 词典91
4.3 PageRank算法93
4.3.1 什么是PageRank93
4.3.2 PageRank的算法94
4.3.3 PageRank的特性95
4.3.4 PageRank的迭代计算96
4.3.5 网页级别的优化97
4.4 小结99
思考题100

第5章 信息索引技术101
5.1 顺排检索101
5.1.1 表展开法101
5.1.2 逻辑树展开法104
5.1.3 BF算法110
5.1.4 KMP算法111
5.1.5 BM算法113
5.2 倒排索引116
5.2.1 倒排索引116
5.2.2 倒排文档117
5.2.3 逆波兰表达式118
5.2.4 检索指令表的生成120
5.2.5 检索实施121
5.3 后缀数组索引122
5.3.1 后缀树概念122
5.3.2 后缀树原理122
5.3.3 后缀树存储124
5.3.4 后缀树的构造124
5.3.5 后缀数组126
5.3.6 后缀数组生成算法127
5.4 文本压缩技术128
5.4.1 基本概念128
5.4.2 统计方法128
5.4.3 字典方法134
5.4.4 倒排文档压缩139
5.5 小结142
思考题143

第6章 信息查询与评价技术145
6.1 检索模型145
6.1.1 经典模型145
6.1.2 代数模型150
6.2 检索方法153
6.2.1 布尔检索153
6.2.2 加权检索153
6.2.3 全文检索155
6.2.4 超文本检索158
6

摘要与插图

对于搜索引擎系统而言,内容索引子系统的性能需求可以概括为:充分利用系统资源和完成索引服务。一方面,内容索引子系统通常是搜索引擎中耗费硬件资源的一个子系统,前文中提到的“索引规模战争”之所以在相当一段时间内被作为搜索引擎系统性能水平的主战场,也是因为索引规模直接关系到搜索引擎系统软硬件设计水平的高低。以索引规模作为搜索引擎系统性能的试金石尽管有些偏颇,但也不无道理;另一方面,索引服务的效率也是搜索引擎重点关注的性能指标,搜索引擎如果要在用户可以接受的时间之内返回结果,先就需要内容索引子系统能够在尽量短的时间内把与用户查询词对应的索引项加以返回,以便内容检索子系统进行相似度计算使用。
  在提高系统资源的利用率方面,在内容索引子系统设计中重点考虑如何在保存尽量多有用信息的基础上减少系统所需的磁盘存储资源。索引建立、更新过程中重点需要进行的是磁盘写操作,而索引查询过程中重点需要进行的是磁盘读操作。索引建立、更新的时间效率只需要与数据抓取子系统的运行效率相适应即可,由于网络带宽低于硬盘访问速度,因此这方面的时间效率要求相对较低。由于用户查询是在线实时进行,而内容检索子系统的运算大都在内存中完成,因此索引查询的时间效率要求较高,而大规模磁盘读写也往往成为搜索引擎提供在线服务的主要瓶颈。同时,由于搜索引擎需要的存储系统规模异常庞大,涉及的存储介质同样种类繁杂、数量庞大,这些介质在面临大规模读写时也难免会出现硬件问题。
举报收藏 0
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2021111040号