内容简介
《数据工程:处理、分析与服务》以“数据一知识一服务”为主线,以数据处理、分析和服务的代表性方法与技术为重点,包括数据处理篇、数据分析篇和数据服务篇三个部分。数据处理篇介绍结构化、非结构化和半结构化数据的存储、查询和优化方法;数据分析篇介绍数据挖掘、知识发现和数据仓库的经典算法;数据服务篇介绍web服务和数据密集型计算技术。本书既考虑了数据工程技术在基础、经典和前沿三方面内容的系统性,也考虑了数据工程学科在数据、知识和服务三方面内容的完整性,介绍每部分内容的代表性技术;在每个知识点的阐述中,注重思路和技术框架的介绍、技术内涵和理念的传递,旨在为读者进一步学习和研究与数据相关的学科的方法和技术提供一些参考。
《数据工程:处理、分析与服务》内容的学习,需要读者具有计算机程序设计和关系数据库查询处理的基础知识,以及使用数据库管理系统的基本能力,可作为数据库相关学科研究和开发人员的参考书,也可作为计算机科学与技术学科各专业研究生、本科生相关课程的教材。
目录
数据处理篇
第1章 关系数据库查询优化
1.1 数据库设计
1.2 面向复杂应用的数据查询
1.3 查询优化
第2章 信息检索
2.1 信息检索概述
2.2 信息检索模型
2.3 文本信息检索
第3章 XML数据管理
第4章 数据挖掘
第5章 数据仓库
数据服务篇
第6章 WED服务
第7章 数据秘籍型计算
摘要与插图
四十多年来,在数据库界,关系数据模型的提出、事务管理理论和技术的完善、查询处理和优化技术的发展被为具有里程碑意义的三大事件。数据库产业的发展和壮大,是通过市场和战略的竞争,几大数据库厂商胜出,标志着传统数据库技术的成熟。几乎在同时,数据库界自身以及实际应用领域的专业人士充分意识到传统数据库技术的局限性。在关系数据库理论基本完善之后,人们很快就开始了对新型数据模型、数据的在线分析、数据流技术的研究,对web数据和科学数据管理等的探索也由来已久。新的应用需求所涉及的数据具有量大、结构复杂、来源多样、用户群规模大且需求各异等共同特点。针对这些应用,人们深入研究了半结构化数据管理技术、智能数据集成、按列存储数据管理、分布并行高可靠的存储和计算以及海量数据分析技术,提出了相应的解决方案。随着大数据时代的到来,人们把信息技术发展的重点从计算转向数据。互联网提供的服务是典型的以数据处理为中心的服务;企业关注的重点也从计算能力建设转向数据分析处理能力的建设。整个信息技术行业从追求计算速度转变为数据处理能力、软件也转变为以提供数据分析和处理服务为基本目标。无论是对新型的互联网企业还是传统的制造业或商业企业,毫不夸张地说,业务就是数据本身。数据变得越来越重要,数据的价值也被充分认识和理解。在这种形势下,重新审视数据管理的传统方法和基本理念,了解相关的前沿技术并赋予其崭新的内涵,成为计算机科学、统计学以及信息资源管理等与数据相关的相关学科发展的必不可少的功课。
多年来,学术界和工业界的许多研究者对数据管理技术进行了大量的研究,沿着不同的道路进行了有益的探索,形成了各自的知识体系,内容丰富,这使得面向工程或面向应用的学习者或实践者在学习数据管理的知识时,没有既定的模式,而需要围绕一个具有系统性的主线来理解相关内容;同时,每个侧面和关键问题都有许多解决方案,这使得知识的学习不可能面面俱到,而需要注重技术的内涵和方法的理念。作为高校和科研院所的研究与开发人员,迫切需要系统性地把握数据管理的基本概念、关键问题和支撑技术。迄今为止,学术界和工业界还缺乏满足上述学习需求和学科特点的著作。
当前,以社交媒体数据分析、互联网广告、基于位置的服务和实时商务智能为典型应用的大数据研究,成为了人们关注的焦点。这些技术正在深刻地影响并不断改变着各领域的科学研究,以及人们工作和生活的方式。无论是传统的数据库还是新兴的大数据研究,在研究理念和方法学上是一脉相承的,从特定应用到技术方案、到理论和模型、再到系统和产品,从存储到查询优化、再到分析服务,即工程化和应用驱动的数据管理,这是数据库发展历史及辉煌成就给予我们对数据管理技术研究的启示。