内容简介
《术语相似度计算方法研究》由徐健所著,对术语相似度计算方法的研究,为多种知识发现和自然语言处理任务的开展创造了条件。尽管术语相似度计算相关研究已经或正在探索基于各种特征或知识资源开展术语相似关系挖掘任务的思路和技术方法,但是在相似度指标的计算以及集成多种术语相似度指标方面仍存在较多问题。本书在全面介绍当前各种典型术语相似度计算思路的基础上,针对应用中实际存在的问题,提出或改进了基于语词、基于语境以及基于网络资源的术语相似度指标计算方法,设计和实现了多种相似度指标集成计算模型,有效地提高了术语相似度计算的综合性能。 《术语相似度计算方法研究》可作为自然语言处理、知识发现等相关方向的教学、科研人员研究的参考资料。
目录
第1章 绪论
1.1 术语相似度计算研究缘起
1.2 研究的目的及意义
1.2.1 研究目的
1.2.2 研究意义
1.3 相关概念界定
1.3.1 术语
1.3.2 术语语义相似度
1.4 研究思路与方法
1.4.1 研究思路
1.4.2 研究方法
1.5 本书内容组织结构
第2章 术语相似度计算研究概述
2.1 术语相似度计算相关研究
2.1.1 术语相似性测度研究
2.1.2 基于语词构成特征的术语相似度算法研究
2.1.3 基于句法特征的术语相似度算法研究
2.1.4 基于语境特征的术语相似度算法研究
2.1.5 基于语词知识体系的术语相似度算法研究
2.1.6 基于网络知识资源的术语相似度算法研究
2.1.7 术语相似度指标集成算法研究
2.1.8 术语语义相似度计算应用研究
2.2 术语相似度计算技术路线评述
2.2.1 典型算法计算思路的特点
2.2.2 典型算法计算思路的不足
2.3 术语相似度计算改进思路
2.3.1 计算方法的改进
2.3.2 集成模型的改进
2.4 小结
第3章 术语主词软匹配相似度算法研究
3.1 SSHW算法的提出
3.2 SSHW算法思想及算法设计
3.2.1 SSHW算法思想
3.2.2 SSHW算法设计
3.3 SSHW算法实现
3.4 SSHW算法评测
3.4.1 实验目的
3.4.2 实验数据
3.4.3 实验过程
3.4.4 数据分析
3.4.5 实验结论
3.5 小结
第4章 Heat句法模板相似度改进算法研究
4.1 Heat句法模板相似度算法改进思路
4.2 算法设计
4.2.1 算法设计思路
4.2.2 算法表达
4.3 算法实现
4.3.1 句法模板构建
4.3.2 计算过程
4.4 算法评测
4.4.1 实验目的
4.4.2 实验数据
4.4.3 实验过程
4.4.4 数据分析
4.4.5 实验结论
4.5 小结
第5章 语境依赖关系模式相似度算法研究
5.1 DRCP算法的提出
5.2 DRCP算法思想及算法设计
5.2.1 DRCP算法思想
5.2.2 DRCP算法设计
5.3 DRCP算法实现
5.4 DRCP算法评测
5.4.1 实验目的
5.4.2 实验数据
5.4.3 实验过程
5.4.4 数据分析
5.4.5 实验结论
5.5 小结
第6章 领域限定网络检索相似度算法研究
6.1 Web-PMI算法的改进思路
6.2 算法改进设计
6.2.1 基于领域特征的检索式构造
6.2.2 基于命中数的术语相似度计算
6.3 算法实现
6.3.1 算法结构
6.3.2 搜索引擎的选择
6.4 算法评测
6.4.1 实验目的
6.4.2 实验数据
6.4.3 实验过程
6.4.4 数据分析
6.4.5 实验结论
6.5 小结
第7章 基于机器学习的术语相似度集成计算模型
7.1 集成计算模型的提出
7.2 集成计算设计
7.2.1 学习阶段模型设计
7.2.2 计算阶段框架设计
7.3 集成计算实现
7.3.1 相似度网络初始化
7.3.2 相似度网络的检索和推导机制
7.3.3 语词相似度计算
7.3.4 句法相似度计算
7.3.5 语境相似度计算
7.3.6 搜索引擎相似度计算
7.3.7 相似度指标的SVM集成
7.4 集成计算评测
7.4.1 实验目的
7.4.2 实验数据
7.4.3 实验过程
7.4.4 数据分析
7
摘要与插图
版权页:插图:
当前研究已经在语词特征、句法特征、语境特征等方面提出了一些术语相似度计算方法,并在借助现有的语词知识体系和网络知识资源来计算术语相似度方面进行了较多探索。总体而言,现有术语相似度计算方法在计算性能上已经达到了较高的水平,并被广泛应用于自然语言处理和知识发现的多种任务中。但是通过调研发现,现有的典型计算方法在应用于科研术语的语义相似度计算任务时,也存在一些不足之处值得进一步研究。
2.2.1 典型算法计算思路的特点
当前,术语相似度计算相关研究思路的特点可以归纳为以下几个方面:
(1)在基于语词构成特征开展术语相似度计算方面,作为相似度计算的重要研究领域,很多学者提出了不同的术语相似度计算方法,并在实际应用中获得了较好的效果。这类方法的特点是利用术语在单词级别和/或单词集合级别的语词构件相似特征,来计算并反映术语之间的相似程度。基于单词级别开展术语相似度计算的代表性算法有Winkler和Jaro提出的以字符串序列中字符匹配数量为主要计算依据的Jaro-Winkler distance算法;基于单词集合级别开展术语相似度计算的代表性算法有Nenadic等人提出的将术语中的主词和修饰词赋予不同相似度权重的Nenadic算法。基于语词的术语相似度算法在计算过程中直接以语词构件作为计算依据,基本不需要除术语本身以外的其他语料资源支持,因此计算具有直接性和快捷性。
(2)在基于句法模板开展术语相似度计算方面,典型算法的计算思路主要基于这样的规律构建:句法模板是相对稳定的语句表达形式,在句法模板中共现的语词之间往往存在某种相关关系,而这种关系的类型和强弱随着句法模板的不同而存在差异。基于句法模板的术语相似度算法充分利用了语句中特定句法模板能够传达术语间的相似关系这一特点,通过编制暗示术语相似语义的句法模板和统计术语在句法模板中共现的情况,计算获得术语之间的相似度。