学术文化网:本站代理期刊可作为职称及学位评审依据;并代写(职称、本科、硕士、博士)论文,代写代发论文一条龙服务;保证原创,保证质量,100%通过,保密服务

学术文化网

重点推荐省级国家级期刊、北大中文核心、CSSCI、EI、SCI发表,稳妥操作,速度快,包发表。有意向联系客服咨询。
论文代写:十年专业服务品质,全部由期刊编辑、硕士、博士撰写;保证原创、版权归您;保证通过、否则全额退款。代写论文申请表
论文发表:与百家优秀期刊合作,代理审核组稿,论文发表涵盖所有专业领域,全部正刊,保证出刊,否则全额退款。代写代发论文申请表
业务合作:因业务发展需要,诚招优秀写手合作,要求硕士以上学历,不限专业,另诚征优秀期刊代理合作,具体详谈。QQ:415835425 代写论文写手申请表
当前位置: 主页 > 工科论文

基于分布式的海量数据处理架构研究(2)


NoSql,指的是非关系型数据库。伴随着互联网web2.0 网站的兴起,传统的关系型数据
库在应付web2.0 网站时,特别是超大规模数据量和高并发的SNS 类型的web2.0 纯动态网
135 站已经显得力不从心,暴露了非常多的难以克服的问题,而非关系型数据库则由于其本身的
特点得到了迅速的发展。NoSql(NoSql = Not Only SQL ),意即反SQL 运动,是一项全新的
数据库革命性运动,早期就有人提出,发展至2009 年趋势越发高涨。NoSQL 的拥护者们提
倡运用非关系型的数据存储,相对于目前铺天盖地的关系型数据库运用,这一概念无疑是一
种全新的思维的注入。目前主要的NoSql 型数据库有Google 的BigTable,Amazon 的Dynamo
140 和Apache 的Hadoop 项目中的HBase。
3.2.1 BigTable
Google 的BigTable 可以说是当前最成功的NoSQL 的实现,因为Bigtable 已经在超过
60 个Google 的产品和项目上得到了应用,包括 Google 的Analytics、GoogleFinance、Orkut、
Personalized Search、Writely 和GoogleEarth。BigTable 是非关系型数据库的一个代表,它是一
145 个稀疏的、分布式的、持久化存储的多维度排序Map。Bigtable 设计的目的是可靠的处理PB
级别的数据,并且可以部署到上千台机器上。Bigtable 已经实现了下面的几个目标:适用性
广泛、可扩展性、高性能和高可用性[4]。
图3 BigTable 中存储记录板位置信息的结构
150
3.2.2 Hbase
HBase(Hadoop Database),是一个高可靠性、高性能、面向列、可伸缩的分布式存储系
 统,利用HBase 技术可以在廉价PC Server 上搭建起大规模的结构化存储集群[5]。HBase 是
一个分布式的、面向列的开源数据库,该技术是来源于Chang et al 所撰写的Google的Bigtable
155 论文。就像Bigtable 利用了Google 的文件系统所提供的分布式数据存储一样,HBase 也在
Hadoop 之上提供了类似于Bigtable 的能力。HBase 是Apache 的 Hadoop 项目的一个子项目。
HBase 不同于一般的关系型数据库,它是一个适合于非结构化的数据存储的数据库.另外,
HBase 是基于列的而不是基于行的模式。HBase 使用和Bigtable 非常相同的数据模型。用户
存储的数据行在一个表里,一个数据行拥有一个可以选择的键和任意数量的列。表是疏松存
160 储的,因此用户可以给行定义各种不同的列。HBase 主要用于那些需要随机访问,实时读写
的大数据。
图4 Hbase 的MapReduce
165 3.3 架构设计
目前海量数据处理还是一个比较新的研究方向,国际上没有一个通用的可行的海量数据
处理方法标准,大多数都是各公司或者是组织各自研究自己的处理方法,研究的方式和结果
也都是各有千秋。结合目前所掌握的知识,我对海量数据处理也设计了一个比较理想的架构。
海量的数据处理应该是从多个方面来考虑的,不仅仅是文件系统方面的考虑,还要考虑用户
170 的访问,网络的I/O,节点的处理能力,内存等,只有把各个方面进行全面的分析研究,才
能最终避免性能上的瓶颈问题。
3.3.1 网络层处理方式
随着大规模的网络应用和SNS 网站的出现,用户访问所带来的性能下降的问题变的越
发的严重。如何处理大量用户的同时在线访问已经成为一个亟待解决的问题。根据目前的研
175 究情况,可以采用内容分发网络(CDN)和反向代理来处理大规模的用户访问所引发的网络
I/O 问题。
内容分发网络(Content Delivery Network)是一种新型网络的构建方式,它是为能在传
统的IP 网络发布宽带丰富媒体而特别优化的一个网络覆盖层,所以说,CDN 代表了一种基
于质量与秩序的网络服务模式。简单地说,内容发布网络是一个经过策略性部署的整体系统,
180 它包括分布式存储、负载均衡、网络请求的重定向和内容管理4 个要件,而内容管理和全局
的网络流量管理(Traffic Management)是CDN 的核心所在[6]。
反向代理(Reverse Proxy)方式是指以代理服务器来接受internet 上的连接请求,然后
将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet 上请求连接
 的客户端,此时代理服务器对外就表现为一个服务器[7]。
185 3.3.2 提升结点处理性能
中央处理器是一台计算机的运算核心和控制核心。所以中央处理器的性能最直观的决定
机器的性能,中央处理器是一台计算机最关键的部位,它相当于人体的大脑,提升中央处理
器的等级,可以有效提升结点的处理性能。
内存是计算机中重要的部件之一,内存是与CPU 进行沟通的直接桥梁。计算机中所有
190 程序的运行都要在内存中进行的,因此内存的性能对计算机的影响非常的大。内存越大越有
利于提升处理能力。
高速缓冲存储器Cache 是位于CPU 与内存之间的一个临时的存储器,它的容量要比内
存小的多但是交换的速度却比内存要快得多。缓存的出现主要是为了解决CPU 的运算速度
与内存读写速度不匹配的矛盾,因为CPU 的运算速度要比内存的读写速度快很多,这样会
195 使CPU 要花费很长的时间来等待数据的到来或把数据写入内存。在缓存中的数据虽然是内
存中的一小部分,但这一小部分是短时间内CPU 即将访问的,当CPU 调用的大量数据时,
它就可避开内存直接从缓存中调用数据,从而加快读取的速度,由此可见,在CPU 中加入
Cache 是一种高效的解决方案。
海量数据处理的数据和处理结果都是来自硬盘或者要写入硬盘,所以硬盘的I/O 速度同
200 样直接影响到数据处理的性能。目前提升硬盘I/O 的技术主要是RAID 和光纤通道,RAID
是“Redundant Array of Independent Disk”的缩写,中文的意思就是独立冗余磁盘阵列。RAID
的特色是N 台硬盘同时读取速度加快及提供容错性,所以RAID 主要是解决访问数据的存
储速度问题。光纤通道的英文拼写是Fibre Channel,和SCIS 接口的情况一样,光纤通道最
初并不是为硬盘设计开发的接口技术,而是专门为了网络系统设计的,但随着存储系统对速
205 度的需求,它才逐渐的被应用到硬盘系统中。光纤通道硬盘是为提高多硬盘存储系统的速度
和灵活性开发的,光纤通道的出现大大提高了多硬盘系统的通信速度。
3.3.3 HDFS 文件系统
Hadoop Distributed File System,简称HDFS,是一个分布式的文件系统。HDFS 有着高
容错性的特点,并且它是设计用来部署在低廉的硬件上的。而且它提供高传输率来访问应用
210 程序的数据,适合那些有着超大数据集的应用程序。对于外部客户机而言,HDFS 就像是一
个传统的分级文件系统。它可以创建、删除、移动或者是重命名文件,等等。但是HDFS
的架构是基于一组特定的节点构建的,这是由它自身的特点所决定的。这些节点包括
NameNode(只有一个),它在HDFS 内部提供元数据服务,DataNode,它为HDFS 提供了
存储块。由于仅存在一个 NameNode,因此这个节点会引起HDFS 的单点失败。存储在HDFS
215 中的文件被分成若干的块,然后将这些块复制到多个计算机节点中。这与传统的RAID 的架
构大不相同,块的大小通常为 64MB,复制的块的数量在创建文件的时候由客户机决定。
NameNode 可以控制所有的文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议[8]。
 图 5 HDFS 架构图
220
3.3.4 分布式的存储系统HBase
HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系
统,利用HBase 技术可在廉价PC Server 上搭建起大规模结构化存储集群。 HBase 其实就
是Google Bigtable 的开源实现,类似于Google Bigtable 利用GFS[9]作为其文件存储系统一样,
225 HBase 利用Hadoop HDFS 作为其文件存储系统,Google 运行MapReduce 来处理Bigtable 中
的海量数据,HBase 同样利用Hadoop MapReduce 来处理HBase 中的海量数据,Google
Bigtable 利用 Chubby 作为协同服务,HBase 利用Zookeeper 作为对应。
4 结论
本文给出了一个实现海量数据处理的比较系统的一个架构,该架构整合了当前流行的各
230 个层面的处理海量数据的技术,从计算机硬件设备的提升,到存储系统的设计,以及网络I/O
的处理,层层提升数据处理的能力,减少单个处理方式的瓶颈,最终实现一个高速的处理海
量数据的方案。
[参考文献] (References)
235 [1] 霍军. 构造WEB OLTP[J]. 每周电脑报,1999,005:106-106.
[2] 陈孝卫,许龙飞. 基于数据仓库OLAP 技术的属性相关性研究[J]. 计算机工程与应用,2004,40(14):
60-60
[3] 段孝国. 分布式计算技术介绍[J]. 电脑知识与技术,2011,22:73-81
[4] Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Mike Burrows, Tushar
240 Chandra, Andrew Fikes, Robert E. Gruber. Bigtable: A Distributed Storage System for Structured Data[J]. ACM
Transactions on Computer Systems (TOCS) Volume 26 Issue 2, June 2008
[5] Ronald C Taylor.An overview of the Hadoop/MapReduce/HBase framework and its current applications in
bioinformatics[J].BMC Bioinformatics 2010, 11(Suppl 12)
[6] Gagliardi, Joshua D. CONTENT DELIVERY NETWORK[J]. US Patent App. 20,090/157,850, 2008
245 [7] 曲波,吴兆芝. 校园网反向代理服务器的应用与开发[J]. 计算机系统应用,2002,03:10-10
[8] D. Borthakur. HDFS Architecture.http://hadoop. apache. org/common/ docs/r0.20.0/hdfs design.html, April
2009
[9] S. Ghemawat, H. Gobioff, and S.-T. Leung. The google file system. SIGOPS Oper. Syst. Rev., 37(5):29-43,
2003.
250 


学术论文网Tag:代写论文 代写代发论文 职称论文发表 代写代发
本站郑重声明:
  1、我们与数十所知名高校博士强强联手,保持常年稳定合作关系,论文质量更有保证;;
  2、写作领域涉及所有专业,实力操作,出稿更快,质量更高,通过率100%;
  3、所有代写文章,全部原创,包检测,保证质量,后续免费修改,保证通过;
  4、信誉实力服务,专业代写毕业论文,职称论文,硕博士论文,留学生论文,成熟操作;
------分隔线----------------------------
栏目列表
联系我们
服务承诺
推荐内容