网络计算环境:数据管理

价格 72.00对比
发货 广东东莞市
销量 暂无
评价 已有 0 条评价
人气 已有 2 人关注
数量
+-
库存100
 
联系方式
加关注0

新图书资料发布

VIP   VIP会员第1年
资料未认证
保证金未缴纳

内容简介

《网络计算环境:数据管理》系统讲述以网络为基础的科学活动环境中的数据管理技术。《网络计算环境:数据管理》由概论、非结构化数据管理、结构化数据管理、应用实例四大部分组成,包括数据管理背景、数据管理需求与挑战、数据管理体系结构、数据存储、元数据管理、数据传输、存储资源管理、数据管理标准、OGSA-DAI、异构数据库整合、高能物理网格数据管理、虚拟天文台数据管理12 章。

目录

目 录
前言
第一篇 概 论
第1 章 数据管理背景? 3
1.1 数据增长 ?? 3
1.2 数据管理目标 ? 5
1.3 数据管理功能 ? 6
1.3.1 数据存储 ? 7
1.3.2 元数据管理 7
1.3.3 副本管理 ? 8
1.3.4 数据传输管理 9
1.3.5 存储资源管理 ? 10
1.3.6 结构化数据的访问与整合 10
1.4 本书结构 10
1.5 本章小结 12
第2 章 数据管理需求与挑战 ?? 13
2.1 高能物理? 13
2.1.1 大型强子对撞机 ? 13
2.1.2 北京正负电子对撞机 14
2.1.3 羊八井宇宙线实验 15
2.2 生物信息? 16
2.2.1 生物信息学 ? 16
2.2.2 基因研究 ?? 17
2.3 虚拟天文台 17
2.4 地质地理? 19
2.5 其他领域? 20
2.6 数据管理挑战 ?? 21
2.7 本章小结? 21
第二篇 非结构化数据管理
第3 章 数据管理体系结构 25
3.1 引言 ?? 25
3.2 科学数据管理的体系结构 ? 26
3.3 本章小结? 28
参考文献 28
第4 章 数据存储 29
4.1 引言 ?? 29
4.2 存储技术概述 ?? 30
4.3 分布式文件系统 ? 36
4.3.1 Lustre 文件系统 ? 36
4.3.2 Gluster 文件系统 38
4.3.3 全局并行文件系统(GPFS) ? 49
4.3.4 Panasas 文件系统 ?? 51
4.3.5 并行虚拟文件系统(PVFS) ? 53
4.4 分级存储系统 ?? 54
4.4.1 CASTOR 存储系统 55
4.4.2 dCache 存储系统 58
4.4.3 dCache 的副本机制 60
4.5 云存储技术 62
4.5.1 亚马逊云存储服务S3 ?? 62
4.5.2 微软的Azure 存储 ? 65
4.5.3 Hadoop 的开源云存储解决方案 ? 65
4.5.4 Openstack 的Swift ? 69
4.5.5 Nimbus 的Cumulus 云存储 ? 70
4.5.6 云存储技术在科学数据管理中的应用 ? 71
4.6 数据备份系统 ?? 73
4.6.1 常见备份技术 ? 73
4.6.2 备份系统的基本结构 76
4.7 本章小结? 78
参考文献 78
第5 章 元数据管理 ?? 80
5.1 简介 ?? 80
5.1.1 LFC 81
5.1.2 AMGA ?? 85
5.1.3 DQ2 ?? 87
5.2 副本管理? 90
5.2.1 副本创建 ?? 92
5.2.2 副本选择 ?? 94
5.2.3 副本删除 ?? 95
5.2.4 副本定位 ?? 95
5.2.5 副本一致性 ? 96
5.2.6 副本安全性 ? 97
5.3 本章小结? 98
参考文献 98
第6 章 数据传输 ? 100
6.1 GridFTP 101
6.1.1 GridFTP 的功能特性 ?? 101
6.1.2 GridFTP 的API 103
6.2 bbFTP 104
6.2.1 与FTP 和SSH 的比较 ?? 104
6.2.2 bbFTP 的安装 ?? 105
6.2.3 bbFTP 的选项命令 ?? 105
6.3 可靠文件传输 106
6.3.1 可靠性含义 ?? 106
6.3.2 组成结构 106
6.4 副本定位?? 108
6.4.1 RLS 的几点要素 ? 109
6.4.2 Giggle 框架 ?? 109
6.5 FTS ? 111
6.5.1 通道 111
6.5.2 代理 112
6.6 PheDex ?? 112
6.6.1 PheDex 的结构 ? 113
6.6.2 PheDex 的运行 ? 114
6.7 BES 数据传输系统 ? 114
6.7.1 主要特性 115
6.7.2 组成结构 115
6.7.3 实际应用 117
6.8 本章小结?? 118
参考文献 ? 118
第7 章 存储资源管理 120
7.1 简介 120
7.2 SRM 121
7.2.1 应用场景 121
7.2.2 SRM 在网格体系中的定位 ?? 124
7.2.3 SRM 在网格中的优势 127
7.3 文件管理?? 128
7.3.1 文件和稳定临时文件 ? 129
7.3.2 持久文件 129
7.4 空间管理?? 130
7.4.1 空间类型 130
7.4.2 “努力”空间 131
7.4.3 分配文件到空间 ?? 132
7.5 其他重要的SRM 概念 ? 132
7.5.1 传输协议协商 ?? 132
7.5.2 其他协商和行为广告 ? 133
7.5.3 源路径、传输路

摘要与插图

第一篇 概 论
第1 章
数据管理背景
1.1 数 据 增 长
人类探索世界的脚步永无止境,而科学研究的方式也在不断发展。远古时期,人们依靠观察和思辨来认识和探索世界。17 世纪以来,随着牛顿经典力学基本运动定律的发表,科学家逐渐把实验与理论作为科学研究的基本手段。然而,随着人类探索世界的不断深入,许多科学问题的实验研究和理论研究变得越来越复杂,甚至难以给出明确的结论。近半个世纪以来,随着电子计算机的诞生与快速发展,计算机仿真模拟变成第三种不可或缺的科学研究手段,以帮助科学家去探索实验与理论难以解决的问题,如宇宙的起源、汽车碰撞、天气预报等。而在当前社会,各个学科领域的研究不断向纵深发展,无论实验装置还是计算机仿真模拟的规模都变得越来越大,产生了越来越多的数据,从而催生了围绕海量数据获取、存储、共享和分析的科学研究手段。来自科学仪器或者计算机仿真模拟的实验数据被收集和存储起来,并通过高速的网络分享给处于不同的国家或机构的合作者。依靠分布式计算技术和协同工作环境,科学家不仅共享数据,还共享软件、模型、计算、专家知识甚至人力等资源,从而加快科学成果的产出。现代科学研究,是粒子物理、生命科学、能源环境、材料与纳米科学等新兴或交叉领域的发展要进行跨国家、跨地域的协作与交流,而以网络为基础的科学活动环境的发展与完善正在对其产生深远的影响。
在“纸笔研究”时代,科学家的数据记录在笔记本上,帮助分析数据的工具可能是一把尺子。在今天,科学研究成果的获得不仅取决于科学家的智慧和勤奋,还取决于海量科学数据的处理能力。基于海量数据处理的科学探索已经成为一种新的科学研究方法,也是科研信息化的重要内容之一。科学仪器和电脑仿真产生的新数据以每年一倍的速度急速扩张,超过了CPU 处理能力的增长速度(摩尔定律:CPU 处理能力每18 个月翻一番)。1946 年,美国军方的ENIAC(electronic numerical integrator and computer)被称为世界上第一台“电脑”,是人类信息处理能力的大飞跃。在当时,它作为通用计算机被用于处理各种问题,从氢弹的设计到气象预报。然而在今天,CERN(欧洲核子研究中心)的大型强子对撞机平均每秒钟产生的数据,需要600 万个ENIAC 来存储,图1-1 是CERN研究中心的海量数据处理集群。基因工程、计算流体力学、天文学、生态学和环境科学等领域同样经历着这样的科研方式变迁。在天文学领域,为了实现更大、更快、更深的天文学观察目标,将在2015 年投入使用大视场全景巡天望远镜(large synopticsurvey telescope,LSST),直径将达到8.4m,每夜能够生成30TB 的彩色图像数据。它每15s 便能拍摄一张约为月球直径七倍大的空间的照片,每三天将累积拍摄成一张天空全景图像。整个项目计划拍摄20 多万张照片,拍摄精度将达3200M 像素,预计第一年就将产生1.28PB 的科学数据。在地学领域,对南加利福尼亚建立一个分辨率为10m,深度为100km 的地面模型,将产生1PB 的数据。生物医学领域,使用电子显微镜重建人脑1mm3 的神经电路,会产生33000 张扫描片,每张片子至少2×1010 像素,大约为1PB 的数据。人脑有106mm3 的神经组织,建立一个完整的大脑电路图,需要海量的数据存储和处理能力。
图1-1 CERN 研究中心的海量数据处理集群
随着仪器的精密度越来越高,传感器、网络等硬件成本大幅度下降,人们获取数据的能力在不断增强。然而数据不是知识,真正的知识只是数据冰山上价值的山尖。重建、分析、可视化、存储和长时间保存这些数据的过程对算法效率、计算能力、数据访问效率和存储备份机制提出了很高的要求。与科研数据规模同时发展的信息技术为
举报收藏 0
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2021111040号