首页 > 美文鉴赏

P2P系统中的副本管理概述

更新时间:2023-05-07 18:48:26 阅读：评论：0

P2P系统中的副本管理概述

李玉芝

（天津财经大学理工学院，天津，300222）

摘要：概括介绍了P2P系统中的副本管理的问题以及相关策略，并针对国内外副本管理研究中出现的P2P 系统及其副本管理策略进行介绍。

关键字：P2P 副本管理

中图分类号：TP393 文献标识码：A 文章编号：1006—4117（2007）11—0261—01

一、引言

副本技术可以十分有效地提高文件的可用性和可靠性，避免在地理上广泛分布的系统节点由于网络断开或机器故障等动态不可测因素引起的数据丢失和不可得。副本数目越多，文件的可靠性越强。但副本的增加也会带来额外的开销。为了保持系统中多个副本的一致性，文件被修改后，必须更新所有的副本，这将带来一定的带宽消耗。随着副本数的增加，维护数据一致性的开销将随之增加副本数量和副本的存放位置是分布式存储系统中副本管理的两个关键问题。副本分布位置合理可以使得节点发起的操作请求

得到最快的响应。针对上述问题，很多研究者提出了各自的副本管理策略。总体来说可以分为静态副本管理策略和动态副本管理策略两种。

二、副本管理策略

常见的副本管理策略分为静态副本管理策略和静态副本管理策略两种。

1 静态副本管理策略

静态副本管理策略在文件创建的时候就决定了副本的数量和放置位置，这要求在文件创建之初，就能预先预测文件的访问模式和可能对这个文件进行操作的节点范围，从而可以将适当数量的副本分布在适当的系统节点中。

静态副本管理策略的好处在于副本方案始终固定不变，大大地简化了后期副本管理的复杂度，但是在现代大规模分布式文件系统中局限性较大，性能不高。

2 动态副本管理策略

动态副本管理策略则在文件创建之后的整个生命周期之中，随时根据系统当前状态的变化不断地改变副本方案，包括副本数量的增减和副本位置的改变，以尽量少的存储代价和网络开销，实现更好的系

统性能。根据管理策略的具体决策方式，动态副本管理策略又可以进一步分为集中式和分布式两种类型。集中式的副本管理需要对每个文件副本的存取情况有一个全局的认识，据此来对当前的副本方案做出调整，制定新的方案，适应系统的变化。

动态副本系统研究通常包括副本管理和副本创建策略研究。副本管理应可以根据用户访问文件的特征自动地选择存储点进行副本创建、删除和更新。副本系统根据副本创建策略产生在域内或域间创建文件副本的任务，接受用户的数据访问请求。同时，系统根据一定的策略删除使用频率低的副本，以充分利用存储资源空间。副本更新则是副本研究中的一个热点和N-P难度问题。

三、国内外副本管理研究概况

1 国外副本管理研究概况

国外目前的副本技术有结合副本目录的Globus副本管理技术，在广域网中不同节点之间进行面向对象的大数据的异步副本创建的GDMP(Grid Data Management Pilot)工具和SRB的副本机制等。

Coda系统也仅支持只读副本。Coda保证副本一致性的策略称为read-one write-all。一个修改过的文件关闭后就立即传输到所有成员上。这种方法的主要缺点是数据同步延迟较大，Coda通过并行远过程调用机制来解决这个问题。

为了提高整个系统的性能，达到既减少带宽消耗又降低数据访问延迟的目的，KavithaRanganathan等人提出了区分动态复制机制，该机制从文件可用性出发动态管理副本，但该模型没有考虑访问效率以及维护数据一致性的开销。

通过在节点上为文件访问次数设定一个计数器，Bartal 等人实现了一种动态副本管理算法：节点上的计数器随节点对文件的读而增加，反之随着对文件的写而减少。这种管理机制实现简单，但是选取一个合适的闽值比较困难，并且所有访问文件的节点不论是否拥有副本，都必须维持一个计数器，这无疑扩大了副本管理的节点范围，增加了系统开销。

Swarup等人的模型中，节点收到的文件读写请求被分为一个一个的序列，并使用有限状态自动机(FSA)的自学习功能来预测该副本将要收到的下一个访问序列，从而提前作出相应的副本增删和迁移。这种方式对系统变化的适应性较好，能有效的减少系统中的通信流量，但是建立FSA 的算法相对较为复杂，且节点需要为副本保存大量的其他节点的访问信息。如果系统规模较大，计算复杂度将急剧增加，不适合大规模的海量存储系统。

2 国内副本管理研究概况

清华大学提出了一种基于动态规划的副本管理算法，以此解决副本个数和副本分配的问题。通过使用Markov（马尔可夫）模型，将副本管理划分成一个多阶段过程并导出其递归方程。此算法考虑到了节

点的异构性，副本维护的代价和空间限制条件。

OceanStore把一份数据的所有副本分为两级，在第一级上执行容恶意的错误的一致协议（Byzantine Agreement Protocol），生成一个统一的操作顺序再把这个顺序广播给所有结点（包括所有一级结点和二级结点），采用gossip的方式广播，以保证广播的可靠性。

OceanStore在副本管理方面使用内省机制，调整副本

（下转247页）

序意义上的机会均等。当社会的有些资源既不能作平均分配，又不能按每个人的付出分配时，这些资源就应按这样的原则来分配：这些资源的获得对每个人来说机会都是均等的，获得这些资源的少数人在运用这些资源时应对全体社会成员有利。制度的设计与运行如果能达成这一平等原则，则可谓真正达成了制度的正义。当然这种制度正义在阶级社会是难以实现的。

第四，效率原则。效率是人们所追求的社会正义内含的另一种价值原则，是制度正义的重要尺度。一个没有效率的制度，社会停滞而没有发展，其存在价值及合理性将会遭到怀疑。

在传统理论研究中，在思考“正义”这种社会性状态时，忽视关于“效率”价值的思考，大多只以自由、平等这些基本价值为思考内容。当代制度伦理学与制度经济学接轨的基础上，重视社会正义的物质基础，

关注社会制度框架对人们在以效率为主要价值追求的经济生活领域的活动的影响和作用，从而将“效率”作为一种基本价值纳入关于社会正义问题的思考中。当代经济分析学将效率作为界定权利义务的唯一依据，这实际上是以效率作为正义的准则。这种作法或许有偏颇之处。但是，一个正义的社会，其制度框架若不包含对效率的关注，或者说，若不能有效地促进社会生产力的发展，它很难被人们认同为“正义的”社会，其制度也不可能是正义的制度。因此我们认为，“效率”是制度正义所内含的价值内容之一，也是制度所追求的“正义”的具体价值名目之一。

具体地说制度正义所追求的“效率”价值包括两种意义上的效率。制度自身的效率与制度外的效率。制度自身的效率是指制度机制运作中的简便、快捷、省时、省力。在对制度本身的效率的追求中，应以正义为价值先导，兼顾效率。一个没有正义价值追求的制度，对效率的追求可能导致南辕北辙。一个没有效率的制度，正义也无从实现。制度外的效率是指在制度体系所构成的基本制度框架下，人们所从事的经济活动的效率。制度所着眼的经济效率的价值追求，是通过依据正义原则去规范经济活动主体的活动的间接结果。这样看来，制度对正义的追求与对经济效率的追求具有相容性或一致性。当然，制度在围绕着正义设定经济活动主体的权利、义务时，不可脱离对经济活动效率的关注。正由于对正义的追求包含着对效率的关注，由于制度所追求的这种正义在客观上也导致生产资源要素的有效配置和社会经济效率的提高。所以，这种正义是一种切合实际的正义，是有着物质基础的正义，是真正的正义。

参考文献：

[1] 彭定光.《论制度正义的两个层次》，《道德与文明》，2002年第1期

[2] [法]卢梭著，何兆武译，《社会契约论》，商务印书馆1982年版

[3] [法]康德著，庞景仁译：《法的形而上学原理》，商务印书馆1992年版

[4]《马克思恩格斯选集》第1卷，人民出版社1972年版

（上接261页）

的个数和存放位置以使得这些副本可以更高效更合理地满

足用户需求。

侯孟书博士提出了一种动态副本管理机制DynRM，在

扩散副本时选择高性能的节点存放副本可以提高系统的处

理能力，从而降低访问延迟。但没有给出高性能节点选择

的标准，该方法还需要进一步的研究探讨。

周旭博士提出了一种频率自适应的动态副本管理机制

-FSRM, FSRM根据系统文件访问模式的变化，自动调整文

件的副本数量和存放位置，平衡读写操作对副本的不同要求。但是作者假定不同副本的可靠性是相同的，这在现实

网络环境中并不可行。

韩华博士在其博士论文中提出用户可控文件Cache机制，该机制针对不同类型文件的需要，为每个文件引入了Pperf 和Pcons 两个参数，用户通过调节它们来平衡文件的

访问性能和数据一致性开销，但该机制没有考虑文件可用

性需求，文件可用性是分布式存储系统的重要指标

电子科技大学的魏青松博士提出一种自适应副本管理

机制—AdpReplica(Adaptive ReplicaManagement Mechanism)。AdpReplica 综合考虑文件可用性、

访问效率

以及数据一致性等因素，以一致性维护开销为约束条件，

提高数据可用性和访问效率，在一个合理的范围内动态管

理副本（增加副本或迁移副本）。AdpReplica 既能提高数据

可用性、降低访问延迟、避免 Hot Spots 的产生，又减少

带宽消耗，保证系统的稳定运行，并且能适应系统的动态

扩展，为用户提供满意的存储服务。

由于对数据网格的研究较之计算网格起步晚，很多副

本选中对择策略主要集中在对计算网格中计算资源的选择。文献[1]比了六种不同的副本缓存策略，主要着眼于副本创建与定位。也有学者提出数据网格中基于经济模型的副本策略，该策略使用拍卖成本协议进行副本选择以及动态副本创建，进行副本选择的同时还融入了副本的创建与数据的访问模式。由于该策略综合了副本创建定位等多方面因素，可以得到较好效率，但提出了基不曾考虑副本存储节

点的负载动态平衡情况。文献[3]于概率模型的副本选择算法并使用一个中间部件对副本进行选择，概率模型以先前副本访问的历史记录作为输入，在此基础上对副本选择情况进行预测。文献[4]的基于蚂蚁的副本优化选择算法针对大规模数据密集型网格环境，既可以做到根据历史记录进行副本选择的预测，又可以有效做到副本存储节点的负载动态平衡。实验证明这种基于蚂蚁的副本选择算法能有效降低副本平均访问时间。

四结束语

副本管理的方法多种多样，但是副本数量和副本存放位置的确定是各管理方法的核心。

参考文献：

[1] 魏青松，大规模分布式存储技术研究[D.] 博士论文电子科技大，2004.

[2] 孙敏，孙济洲，李明楚，等. 基于蚂蚁算法的数据网格副本选择策略[J]. 计算机工程与应用，2007年

[3] 王涛，基于对等结构的分布式存储技术研究[D] . 博士论文电子科技大学，2006.

[4] 胡进峰，基于对等结构的广域网分布式存储系统研究[D]. 博士论文清华大学，2005.

本文发布于:2023-05-07 18:48:26，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/89/866689.html

上一篇：党史教育宣讲稿集合19篇

下一篇：中国大学生毕业典礼演讲稿3篇