内容简介
本书共分为:大数据挖掘概述;文本大数据挖掘相关技术研究;面向社会网络的大数据挖掘技术研究几部分,主要内括:大数据定义、大数据输入、大数据相关模型、大数据相关研究、分布式机器学、大数据可视化工具、基于云的机器学、案例分析、大数据分析类型、大数据分析框台等。
目录
1大数据挖掘概述
1.1 引言
1.2大数据
1.2.1大数据定义
1.2.2大数据输入
1.2.3大数据相关模型
1.2.4大数据相关研究
1.3大数据分析
1.3.1分布式机器学.
1.3.2大数据可视化工具
1.3.3基于云的机器学
1.3.4案例分析
1.3.5大数据分析类型
1.3.6大数据分析框台
1.3.7大数据挖掘算法
1.3.8大数据流行技术
1.3.结
1.4研究方向和展望
1.4.1复杂网络和大数据
1.4.2机器学数据
2文本大数据挖掘相关技术研究
2.1结构化信息抽取
2.1.1分词技术
2.1.2命名实体识别
2.1.3 关系抽取(Relation Extraction)
2.2文本摘要技术
2.2.1摘要技术研究现状
2.2.2单文档自动摘要技术
2.2.3多文档摘要技术
2.3文本聚类
2.3.1 特征选择和特征变换(Feature Transformation)
2.3.2基于距离度量的聚类算法
2.3.3基于词汇和词组的聚类算法
2.4语义分析模型和主题建模
2.4.1语义分析模型
2.4.2主题建模
2.4.3 语言模型(Language Model)
2.5基于主题建模分析的文本聚类算法研究
2.5.1主题聚类原理
2.5.2基于主题模型的多尺度文本聚类
2.5.3实验与讨论
2.5.4本章小结
2.6词组主题词提取和主题排序
2.6.1相关工作
2.6.2LDA-col模型及参数估计
2.6.3主题排序算法
2.6.4实验与讨论
2.6.5本章小结
2.7未来发展方向
3面向社交网络的大数据挖掘技术研究
3.1微博图像语义标注与检索研究
3.1.1研究背景
3.1.2基于增强微结构和环绕文本的微博图像标注
3.1.3研究结果
3.1.结
3.2社交网络社区结构发现算法研究
3.2.1研究背景
3.2.2算法概述
3.2.3实验比较与分析
3.2.结与讨论
3.3
分布式文本主题挖掘技术研究
3.3.1研究背景
3.3.2基于并行化词组主题建模的代表语义词汇提取
3.3.3实验与讨论
3.3.结
3.4基于WordNet和HowNet的词汇语义相关度计算.
3.4.1研究背景
3.4.2HowNet和WordNet概述
3.4.3中英文词汇语义相关度计算
3.4.4实验与讨论
3.5微博异构媒体语义关联检索研究
3.5.1异质关联网络的构建
3.5.2微博异构媒质语义检索流程
3.5.3实验结果
3.6跨社台用户身份匹配
3.6.1属相似度计算
3.6.2CLA算法
3.6.3实验与讨论
3.6.结
3.7结论与建议
4工业大数据挖掘技术研究
4.1移动网络大数据挖掘
4.2工业4.0大数据分析
4.3机械工程领域大数据分析
4.4物联网领域大数据采台
4.4.1基于物联网技术的家庭健康数据采台
4.4.2基于物联网的血糖监测数据采集与管理系统
4.5大数据在行业的应用
4.5.1数据在临床操作的应用
4.5.2大数据在付款和定价中的应用
4.5.3大数据在研发中的应用
4.5.4大数据在新商业模式中的应用
4.5.5大数据实现中的几个关键问题
4.5.结
参考文献
摘要与插图
1大数据挖掘概述
1.1引言
随着信息技术和网络技术的发展,在社交网络、机械制造业、金融业等行业产生的数据正以前所末有的速度快速增长,其增长的速度已经远远超出现有的信息技术处理的能力,因此,大数据的概念由此诞生。
与传统数据相比,大数据主括大量的非结构化数据,这些数据的处理需要更高的实时需求。此外,大数据同样帮助各个领域以发现新的价值,帮助我们获取更深层次的隐藏数据。然而,如何有效地组织和管理这些数据,同样给现阶段的研究带来的挑战。目前,工业领域开始着力于大数据的高潜力,很多机构开始宣布提升大数据的研究和应用计划。目前,的杂志,Nature和Science,也为大数据开辟专行讨论]z]。可见,大数据已经成为当前国内外机构、产业界、科研界研究和关注的热点,拥有大数据信息处理能力已经成为衡量国家竞争力的又一个重要标志。
目前的大数据类别主含结构化数据、半结构化数据和非结构化数据,其中非结构化数据在整个数据中所占的比例越来越大。非结构化数据主要指的是文本、、图像等内容。目前,非结构化数据充斥着人们的生活,例如社交网络的文本数据、Web上的图像和信息,网页内容、制造业领域的生产线数据等。大数据环境下,对非结构化数据的管理不仅仅是存储和检索问题,更重要的是如何深层次地挖掘这些信息背后的语义信息、上下文信息以及蕴含的规律知识,从而为各种类型的决策提供支持。
本文主要围绕当前大数据的发展前景,阐述了当前大数据分析的工具括可视化工具、分布式机器学、大数据分析台以及挖掘算法等,并着重讨论文本数据、社交网络数据的相关分析与挖掘算法,同时对智能智造领域的大数据以及行业、物联网行业的大数行简要概述。文本是一种被广泛使用的非结构化大数据,具有格式不一、丰富上下文语境、内容稀疏等特点,被广泛应用于互联网、企事业、机构等方面。目前典型的文本主要来自企事业和机构的办公环境(如各种文档,项目申请书、调查表等)以及社交网络(微博、Twiter.Faccbook)等。以社交网络数据为例,Sina 微博作为国内典型的社交网台,微博环境下的文本具备时序、丰富情境信息、长度受限以及信息带噪等特点,使得传统的文本处理技术无法直接适应于微博环境。因此需行更深层次的算法设计与分析,对微博不规则文行预处理,并结合周围的用户、图像等信行挖掘分析,已获得对商家、企业和有利的信息资源(知识)。
在生产制造领域,随着数字工厂、感知智能物件以及物联网的广泛并深入的应用,生产管理系结、挖制系结白动化码么日乃仕结的企业资源规划和制造执行系统等将产生大量数据。这些在工业领域信息化应用中所产生的大数据,呈现出海量、多源异构、动态强等特点。以军工装备制造企业为例,零件机械加工车间和装配车间是军工装备制造企业的常见单元,这些单元已经运用物联网技术到加工、检测和装配环节。物联网技术的运用也提升了数据采集和管理的便利。若要对生产过程实现实时监控,需要采集的数据类括设备数据、工艺数据、生产质量数据、工人加工数据等。其中,设备数据和工艺数据要求实时采集,且数据量庞大。虽然当前的互联网技术正对传统制造业以及装备制造业带来正面的影响,但现有的网络通信技术仅仅实现了装备制造业的网络互联,如何实时感知、采集生产过程中产生的大量数据,运用大数据技术对企业产生的海量数行分析和挖掘,得到有用的分析结果,使得智能制造才能得以实现,才是今后的研究热点。
……