【摘要】 随着互联网技术的飞速发展,数据量呈现出爆炸性增长的趋势,企业面临着海量数据管理困难、数据存储成本高、可靠性低等难题。越来越多的企业开始将数据存储分离出来,向专业云存储服务供应商寻求帮助以进行数据的分布式管理。云存储服务具有高可靠性、高通用性、高扩展性及大容量存储等特点,因此进行云存储服务系统的研究不仅紧跟IT技术发展的趋势,而且具有较高的应用价值。本文的研究内容为基于HDFS的云存储服务系统研究,旨在通过构建基于HDFS的云存储服务系统,解决企业的海量数据存储难题,降低实施分布式文件系统的成本,促进Hadoop技术的推广。云存储是在当前广泛讨论的云计算概念上延伸和发展出来的,可以将网络中大量不同类型的存储设备进行整合,从而对外提供数据存储和业务访问的功能。Hadoop分布式文件系统(Hadoop Distributed File System, HDFS)是开源云计算软件平台Hadoop框架的底层实现部分,具有高传输率、高容错性等特点,可以以流的形式访问文件系统中的数据,从而解决访问速度和安全性问题,实现海量数据的存储管理。本文首先阐述了云存储的相关理论,介绍了云存储的定义、云存储系统结构和云存储服务系统的应用等内容;接着对HDFS数据管理机制及其实现技术进行了详细分析,为论文下一步的研究提供了技术保障;最后,通过结合实际需求,在对某云存储服务系统业务分析的基础上,对服务系统存储体系结构、功能结构、数据库及运行环境进行了设计,并对该系统加以实现,从而为企业海量数据存储提供了一个有效的解决方案。本文主要实现了一个面向企业应用的云存储服务系统,解决了大规模非结构化数据的在线存储、查询、备份等问题,为企业应用提供了高效能、高可靠性的服务。尽管云存储服务系统目前已经取得了一定的研究成果,但对于如何保障云中数据的安全和隐私这一问题,仍是今后研究的重点,也是亟待解决的难题。
【关键词】 Hadoop; HDFS; 云存储; 云存储服务系统;
摘要 5-6
ABSTRACT 6-7
第1章 绪论 10-16
1.1 研究背景 10-14
1.1.1 云存储的兴起 10-13
1.1.2 集群存储技术的发展 13-14
1.2 研究意义 14
1.3 研究内容和论文结构 14-16
第2章 云存储相关理论 16-21
2.1 云存储概述 16-17
2.1.1 云存储的概念 16
2.1.2 云存储和云计算的关系 16-17
2.2 云存储系统分析 17-19
2.2.1 云存储系统的结构模型 17-18
2.2.2 云存储实现的关键技术 18-19
2.3 云存储服务系统应用 19-21
2.3.1 个人级云存储应用 19-20
2.3.2 企业级云存储应用 20-21
第3章 HDFS数据管理机制分析 21-34
3.1 名称节点和数据节点 21-23
3.2 元数据 23-25
3.3 数据组织和数据交互 25-29
3.3.1 数据组织 25-27
3.3.2 数据交互 27-29
3.4 数据的维护 29-34
3.4.1 数据复制 30-31
3.4.2 数据节点故障 31-32
3.4.3 数据校验 32
3.4.4 垃圾回收机制 32-34
第4章 HDFS数据管理实现的技术方法 34-51
4.1 RPC的实现方法 34-40
4.1.1 Client类 34-35
4.1.2 Server类 35-37
4.1.3 RPC类 37-38
4.1.4 HDFS通信协议组 38-40
4.2 名称节点实现方法 40-46
4.2.1 FSImage类 40-41
4.2.2 FSEditLog类 41-42
4.2.3 FSNamesystem类 42-46
4.3 数据节点实现方法 46-48
4.3.1 数据节点的设计 46-47
4.3.2 数据处理的设计 47-48
4.4 客户端实现方法 48-51
4.4.1 数据读取的设计 48-49
4.4.2 数据写入的设计 49-51
第5章 基于HDFS的云存储服务系统设计与实现 51-67
5.1 基于HDFS云存储服务系统需求分析 51-53
5.1.1 问题分析 51-52
5.1.2 系统设计目标 52
5.1.3 功能需求分析 52-53
5.2 基于HDFS云存储服务系统设计 53-60
5.2.1 云存储体系结构 53-54
5.2.2 系统功能结构 54-55
5.2.3 数据库结构 55-57
5.2.4 系统运行环境 57-60
5.3 基于HDFS云存储服务系统实现 60-67
5.3.1 登录功能模块 60-61
5.3.2 管理员功能模块 61-63
5.3.3 用户功能模块 63-65
5.3.4 系统运行部署 65-67
第6章 总结和展望 67-69
参考文献 69-72
致谢 72-73
学术论文网Tag: |