内容简介
《主题聚类及其应用研究》对主题聚类理论、方法、若干关键技术以及应用进行了全面的研究,主要内容包括:自动标引的研究历史、研究方法,并利用当前的机器统计系学习模型进行了自动标引的实验研究、提出自动标引的通用评价模型等;对主题聚类中的相似度计算、样本加权聚类方法、聚类结果的描述进行了详细的描述和实验论证,并进行了测评;基于主题聚类方法,进行主题数字图书馆构建、学科热点检测等方面的应用。
目录
第1章 引言
1.1 研究背景
1.2 研究意义
1.3 主题聚类研究中存在的问题与解决方法
1.4 本书内容安排
参考文献
第2章 主题聚类研究概述
2.1 主题提取研究概述
2.2 不同对象的聚类方法研究概述
参考文献
第3章 自动标引通用评价模型研究
3.1 自动标引结果评价概述
3.2 一种通用的自动标引评价模型
3.3 自动标引评价模型的应用与性能分析
3.4 本章小结
参考文献
第4章 基于机器学习的主题提取研究
4.1 关键词类型分析
4.2 几个对照的标引模型
4.3 基于CRF的关键词提取方法
4.4 基于集成学习的自动标引方法
4.5 基于Citation-KNN的自动赋词标引方法
4.6 本章小结
参考文献
第5章 主题聚类中聚类对象相似度计算研究
5.1 基于多层特征的字符串相似度模型
5.2 基于多语境的查询式相似度计算模型
5.3 本章小结
参考文献
第6章 基于样本加权的文本聚类研究
6.1 基于样本加权的文本聚类算法
6.2 基于主题聚类的主题数字图书馆
6.3 基于主题聚类的学科热点检测
6.4 本章小结
参考文献
第7章 文本聚类结果描述算法研究
7.1 文本聚类结果描述研究概述
7.2 聚类描述要求、形式化及评价方法
7.3 基于机器学习的聚类描述算法
7.4 基于DCF-DCL组合策略的聚类描述算法
7.5 基于主题的搜索结果聚类
7.6 本章小结
参考文献
第8章 结束语
8.1 总结
8.2 进一步的研究工作
附录1 Segag汉语文本词性标注标记集
附录2 SVMlight自动标引训练集样例
附录3 CRF++自动标引训练集样例
附录4 用于自动标引的CRF++特征模板
附录5 测试集自动标引结果样例
附录6 相关词提取结果样例(整合后)
附录7 文本的引用频次与Pagerank值样例(金融类)
附录8 文本聚类后的类簇中心向量(煤炭类)
附录9 主题数字图书馆聚类结果导航样例
附录10 学科热点检测结果显示(图书情报档案类)
附录11 SVMlight聚类描述训练集样例
附录12 基于主题的搜索结果聚类样例
索引