内容简介
本书是国家科技支撑计划“民族特需品数字化关键技术研究及示范应用”课题的成果。它以民族特需品多媒体数据库的建立为平台,利用文字、图片、音频、视频、动画、逆工程及虚拟现实技术为方法,讲述民族特需品数字化挖掘、整理及展示的技术与方法。书中内容涵盖了:民族特需品数字化解决方案、特需品多媒体数据库建设、特需品数字媒体技术、基于模式识别的特需品自动录入技术、特需品网站自动生成技术、特需品多媒体数据库自动检索技术、特需品多媒体数据库中的数字版权等问题。
目录
第1章 绪论 / 4
1.1 引言 / 5
1.2 数据挖掘概述 / 6
1.2.1 数据挖掘基本概念介绍 / 6
1.2.2 数据挖掘基本技术介绍 / 15
1.3 动态数据挖掘概述 / 21
1.3.1 动态数据挖掘概念介绍 / 22
1.3.2 数据流挖掘研究意义 / 22
1.3.3 动态数据分类方法国内外
研究现状 / 23
1.4 本章小结 / 29
第2章 数据流挖掘技术 / 31
2.1 概述 / 31
2.2 数据流挖掘相关技术
简介 / 38
2.2.1 滑动窗口技术 / 38
2.2.2 动态抽样技术 / 40
2.2.3 数据概要方法 / 41
2.2.4 更新策略 / 46
2.2.5 数据流预处理技术 / 47
2.3 数据流挖掘基本算法
介绍 / 52
2.3.1 数据流聚类算法 / 53
2.3.2 数据流分类算法 / 60
2.3.3 数据流频繁规则挖掘
算法 / 66
2.3.4 多数据流挖掘算法 / 69
2.4 数据流挖掘技术相关
应用 / 72
2.5 本章小结 / 74
第3章 集成学习数据流分类
技术 / 75
3.1 概述 / 75
3.1.1 集成学习基本理论 / 75
3.1.2 集成学习研究现状 / 79
3.2 Learn++系列算法 / 80
3.2.1 Learn++介绍 / 80
3.2.2 Learn++.NC / 82
3.2.3 Learn++.DF / 84
3.2.4 Learn++.MF / 85
3.2.5 Learn++.NSE / 86
3.3 基于SVM-SOM的数据
流混合分类方法 / 88
3.3.1 SVM模型介绍 / 89
3.3.2 SOM模型介绍 / 90
3.3.3 粒子群与遗传算法介绍 / 91
3.3.4 SVM-SOM混合模型构建
方法 / 92
3.4 集成学习结果合并方法 / 97
3.4.1 基于均值的合并方法 / 97
3.4.2 投票合并方法 / 99
3.4.3 其他合并方法 / 102
3.5 本章小结 / 102
第4章 增量式学习数据流分类
方法 / 104
4.1 概述 / 104
4.2 传统分类器存在问题及
解决方法 / 104
4.3 增量式相关算法介绍 / 106
4.4 基于轮转式结构的增量
式数据流分类模型 / 110
4.4.1 算法介绍 / 110
4.4.2 实验及结果分析 / 113
4.6 其他增量式分类模型
介绍 / 116
4.6.1 基于增量式学习的
学习机分类模型 / 116
4.6.2 数据流可调节增量学习
模型 / 119
4.6.3 基于增量式学习的非稳定
数据流分类模型 / 121
4.6.4 基于增量式学习的LSVM
模型 / 123
4.7 本章小结 / 127
第5章 数据流概念漂移挖掘
方法 / 128
5.1 概述 / 128
5.1.1 概念漂移介绍 / 128
5.1.2 概念漂移研究现状 / 130
5.1.3 概念漂移检测方法介绍 / 130
5.3 基于KL-distance的数据
流分类模型 / 131
5.3.1 算法介绍 / 131
5.3.2 实验结果 / 136
5.4 基于集成学习的概念漂
移分类模型 / 141
5.4.1 算法介绍 / 141
5.4.2 实验结果 / 143
5.4 概念漂移可视化研究 / 144
5.4.1 可视化算法介绍 / 144
5.4.2 实验结果 / 146
5.5 本章小结 / 149
第6章 民族信息数据流挖掘
应用 / 150
6.1 概述 / 150
6.2 少数民族信息数据挖掘
现状 / 154
6.3 数据流分类在少数民族信息挖掘中的应用——少数民族乐器分类模型 / 156
6.3.1 模型框架 / 156
6.3.2 算法介绍 / 157
6.3.3 实验结果及分析 / 159
6.4 本章小结 / 161
参考文献 / 162
摘要与插图
从书序56个民族56枝花。在中华文明发展的历史长河中,勤劳勇敢的各少数民族群众在生产和生活实践中创造了各具的民族特需用品。它们是人类智慧与文明的结晶,是中华民族宝贵的物质与精神财富,是连接民族情感的纽带和维系国家统一的基础。
我国的少数民族特需用品种类繁杂、内容丰富,载体形式多样,蕴含着丰富的民族文化信息,一旦失传,必将带来无法挽回的损失。现实情况恰恰是,相当一部分基于传统工艺的少数民族特需用品因年代久远或受现代大工业生产的冲击已经接近失传,急需保护与发扬。
《中国少数民族特需用品数字化工程丛书》是“十一五”国家科技支撑计划课题“民族特需品数字化关键技术研究与示范应用”(课题编号2009BAH41B05)成果的体现,是我国第一部针对少数民族特需用品进行系统挖掘、整理、研究和展示的学术著作。
该丛书内容涵盖了少数民族特需用品的发展历史与国家相关政策、系统化的评价规范、各类数字化技术(信息系统体系建设、多媒体数据库建设、数字媒体技术、虚拟现实技术)、多语种词汇库(汉语、少数民族语、英语)、的数字化软件及其相关应用实例。
在本丛书的完成过程中,创作团队多次深入少数民族地区进行数据的挖掘、采集与整理,对纷繁浩瀚的民族特需用品资料进行了系统与全面的归纳、分析和整理,进行了挑战性极强的后期研究与数字化工作。丛书的完成历时
三年之久。希望丛书的出版能够对我国少数民族特需用品及其所承载文化的传承、保护和发扬尽绵薄之力。
感谢国家民族事务委员会、国家科学技术部、大连民族学院,以及国家工业和信息化部“工业和信息产业科技与教育专著出版资金”评审委员会对本丛书的出版给予的精心指导与大力支持。
徐国凯 张俊星
2014年5月
前言
分类问题作为数据挖掘领域一个经典而重要的课题,一直受到学术界的关注。然而,随着物联网的推广,以及“大数据”时代的到来,传统数据分类方法正面临新的挑战,当其冲的就是数据形式的变化,即从传统的静态数据向动态的数据流形式转变。与静态数据相比,动态数据流具有三个特点,即海量性、实时性和动态变化性,这些特点大大增加了数据流分类的难度。因此,如何设计一种数据流分类模型,既能够满足数据流的特点,又能够对数据流进行有效分类,成为当前学术界研究的热点问题。
动态数据流分类的核心问题是如何设计分类器,满足数据流的三个特点。数据流的海量性要求分类模型具有处理“大数据”的能力,这种数据至少是GB级别的,通常使用动态数据库与实时数据库作为数据源;数据流的实时性特点要求分类模型具有快速处理数据的能力,对分类结果应在数据流不断产生中同步给出;数据流的动态变化性特点要求分类模型能够自我更新以适应新数据环境的分类需求。因此,对于数据流分类问题的研究,需要在传统分类方法的基础上改进或提出新颖的数据分类技术。
本书介绍了近年来应用于动态数据流分类领域中的几种较新颖的分类方法,包括集成学习数据流分类方法、增量式学习数据流分类方法、数据流概念漂移检测及学习,以及数据流分类技术在民族信息数据挖掘中的应用等内容,研究了它们的原理、特点、性能及应用情况。全书共分为6章:第1章概述传统数据挖掘技术和动态数据挖掘
技术,重点介绍动态数据流挖掘技术产生的背景、发展现状和未来发展方向;第2章探讨数据流挖掘技术及其应用、数据流挖掘算法,以及网络数据流实时监测系统;第3章介绍集成学习数据流分类方法、不同分类器集成方法及分类结果融合技术等内容;第4章研究基于增量式学习的数据流分类模型的构建,着重研究了动态数据流环境下,基于学习方式的分类模