存储节能技术研究
王峰;张宏;周健;李平
【摘要】Byreviewingthecurrentstudyandapplicationofdomesticand
foreignstorageenergy-savingtechnology,thispaperanalyzesthe
advanceddatadistributiontechnologyreprentedbyPARAIDand
Rabbit,thedatamanagementtechnologyreprentedbyMAIDand
hierarchicalstorage,dataperiodicdistributiontechnologyandcoldandhot
dataanalysistechnologyandsoon.%通过综述当前国内外存储节能技术的研究
应用现状,对前沿的存储节能技术如PARAID、Rabbit为代表的数据分布技术,
以MAID、分级存储为代表的数据存储管理技术,此外还有数据周期分布技术、冷
热数据分析技术等.进行了分析和研究.
【期刊名称】《许昌学院学报》
【年(卷),期】2012(031)005
【总页数】3页(P63-65)
【关键词】存储;节能;cache
【作者】王峰;张宏;周健;李平
【作者单位】周口师范学院计算机科学与技术学院,河南周口466001;周口师范学
院计算机科学与技术学院,河南周口466001;华中科技大学计算机科学与技术学院,
湖北武汉430064;广西师范大学经济管理学院,广西桂林541004
【正文语种】中文
【中图分类】TP393
存储系统的节能技术可以分为cache类节能、gear类节能和热点数据优化.文献
[1][2][3]指出Cache类节能的主要代表为PDC、MACD等.此类系统使
用附加的存储设备称作cache,采用一定的算法提高cache命中率.存储设备不适
宜频繁开关.少量的cache完成了大量的数据存取工作,增加了主要存储设备的空
闲时间,从而让主要的存储设备变得适合关电.这类节能的主要挑战是:通过提高
cache命中率为主存储设备提供连续的空闲时间.它主要适用于负载有较大时间和
空间局部性并且负载强度较小的情况,如:图书库管理系统.Gear类节能,如
PARAID、RABBIT的cache类节能的主要区别是:它总是保证数据有一个拷贝是可
用的.它提供多种不一样的数据分布,可以在性能需求较大的情况下把数据分散存
放在多个存储节点中提高并行性;也可以在性能需求较低的情况下把数据集中存放
在少量节点中节省电量.它的主要挑战是如何设计出易于实现、易于扩展、可靠性
好、易于重构的数据分布策略,使得在各种gear下负载都能均匀的分散到所启动
的各个节点下;以及如何预测未来负载的强度.它主要适用于负载有较大强弱变化的
应用,如web服务.热点数据优化,如GreenHDFS[2],比较类似于cache节
能,它也通过对热点数据的把握来节能,但是它不使用cache,而是在预测的热点
数据的情况下事先对数据分布进行优化.此类节能的主要挑战是:如何预测到未来时
间的热点数据在哪.它比较适用于有固定的计算模型并且冷热数据变化较缓慢的应
用,如HADOOP.
1对数据分布和数据存储管理策略的研究
传统的磁盘阵列(如RAID1)和分布试文件系统(如HDFS)都是把数据块均匀的分布
在各存储节点上.要提供完整的数据服务必需启动所有的存储节点,这样做的好处
是所有节点均摊全部的工作量,可以达到整体性能的最优化.事实上,在真实应用
中峰值负载出现的时间很少,这些存储系统为满足峰值负载而设计,却在大部分时
间里性能过剩,并浪费了大量的电力.下面列举几种典型的改进的数据分布策略,
这些数据分布策略可以满足峰值负载的性能要求,也能在低负载的情况下调整设备,
使之即工作在低功耗模式下,又能满足性能要求.
1.1节能型磁盘阵列PARAID
PARAID[1](PowerAwareRAID)是07年被提出来的一种新型RAID,之后被
大量文章引用.其基本思想为在低负载情况下,通过数据迁移,进行磁盘阵列的降
级,关闭一定数量的硬盘,从而达到节能的目的.其数据分布示意图1如下:降级处
理的时候把3和4上的数据迁移到1和2上.
1.2性能功耗成正比的存储系统Rabbit
PARAID及其同类阵列提供了低功耗模式和高性能模式等不同的工作模式,但是不
能达到功耗和性能在各种性能下都成严格的比例关系.这里介绍另一种典型的数据
分布策略Rabbit,如图2所示,可以达到功耗和性能成正比.这种数据分布策略把
所有存储节点编号,把数据及其拷贝当作数据整体乘以编号的倒数存放在节点上.
这样系统可提供的性能和启动的节点数可以在很大范围内都成很好的正比关系,所
以也与功耗成正比关系.
上述节能型存储都在低功耗模式下通过关闭存储节点来实现,当读操作到达时可通
过节点子集提供完整的数据服务.如果写操作到达时,要立即更新到所有的存储节
点,则仍然需要启动全部节点.这里则产生WriteOff-loading的问题:如何在最
少的能量消耗和最小的性能影响下更新所有节点的数据.
1.3共享存储和虚拟存储
一般存储系统的利用率并没有达到100%,而只是达到20%~40%.共享存储就是
让多个应用共享存储设备,提高设备利用率来达到节能目的.而存储虚拟化是数据
中心中另一项关键技术.在物理设备之上提供虚拟的存储设备,可以在更多的优化
工作.例如,可以分配100G的虚拟存储空间,却只在物理设备上启用20G的物
理空间提供服务.存储虚拟化还包括许多管理大型虚拟存储池的最优方法,比如增
加多磁盘之间的带宽来提高性能.应用虚拟化技术的成果就是有效利用物理存储容
量,改善存储容量配置,以及减少能源和冷却成本.
1.4大规模非活动磁盘阵列存储MAID
MAID[3](MassiveArraysofIdleDisks)的技术原理是只有需要时才将一部分
磁盘开机运转,而其他磁盘通常处于断电状态,也就是说MAID中所有的磁盘并
不是每时每刻都是活动的,其子系统中大部分磁盘处于睡眠(断电)状态,直到系统
发出请求,这就能节省大量的电力.这种技术特别适合应用在图书馆这种大的数据
中心,可以显著的节省能耗.之前图书馆数据资源存储在磁带中,不便于自动化的
管理.
2对数据生命周期和负载的研究
上面所采用的节能方法研究的重点没有考虑冷热点数据,对所有数据块平等对待和
管理.事实上所有数据块的使用情况并不是均衡的,别一部分节能策略的重点则是
在对数据的生命周期和冷热数据的研究上.
2.1冷热数据变化
GreenHDFS研究了HDFS(HadoopDistributedFileSystem)的负载情况.确定了
冷热数据在一定时期内的存在,和预测方法.在Hadoop应用中,在数据的整个生
命周期存在访问量明显较大的时期,以此发现为基础设计了GreenHDFS,降低了
26%的能耗.
2.2分级存储
分级存储是信息生命周期管理(ILM)的一种体现,其主要原理是根据数据在其生命
周期不同阶段的价值和特性采用不同的存储策略,分级存储一般可以分为在线、近
线和离线存储.在线存储是把数据存放在高性能的存储设备中,适用与数据使用初
期高频率的访问,随着访问频率的降低,数据可以被迁移到近线存储,如廉价的大
容量SATA硬盘,这样可以节省高端存储设备的使用空问,最后当数据很少需要
访问时可以迁移到离线存储设备如磁带,作为数据归档和历史查询所用.可以看出
分级存储通过存储设备的分级,实现了减少总体存储成本,同时高访问频率的数据
不会受到大量低频率访问的干扰,能提升系统性能,同时数据分布更清晰,改善了
数据可用性.
2.3重复数据删除
重复数据删除也被称为智能数据压缩或单一实例存储,是一种可以减小数据存储量
的技术.重复数据删除的处理过程是通过确保实际上只有第一个单一实例数据被存
储,而被删除的重复数据将由一个指向元数据的指针所代替.重复数据删除可以对
文件块、位进行操作.在基于文件的重复删除中,如果2个文件完全相同,那么其
中1个将作为备份文件被保存,而随后重复的文件将获取指向保存文件的指针;缺
点是如果2个文件只是1个字节的差别也会被作为另外1个不同的文件全部保存
下来.基于块和位的重复删除比较粒度比文件级更细,软件通过对文件进行比较,
只保存每一块的单~重复部分.如果文件更新,那么只有被更改的数据才会被保存,
所以基于块和位的重复删除要比文件级的重复删除有效率的多,块和位重复删除所
能达到的压缩比一般从10∶1到50∶1.
3制冷系统节能应用现状
3.1水冷
芬兰赫尔辛基公共能源公司HelsinginEnergia尝试回收一个新的数据中心的热量
帮助产生能源和为芬兰首都赫尔辛基市提供热水,并证明这是个可行的办法,为大
规模应用铺平了道路.
3.2风冷
Google芬兰的数据中心是通过水冷,而Google比利时的数据中心则完全没有制
冷设备利用室外空气进行免费制冷.比利时的气候条件平均每年只有7天气温不符
合免费冷却系统的要求.在高温天气下,他们将关闭比利时所需设备,将计算负载
转移到其它数据中心.天气预报成了网络管理中的一个重要问题助谷歌预测何时需
要将比利时设备的工作分析数据放到其它地方.
4结语
从以上列举节能策略来看,有以PARAID、Rabbit等新的数据分布策略为主的;有
以共享存储、MAID、分级存储等硬件资源管理为主的;有以GreenHDFS等分析数
据生命周期和冷热点数据为主的研究方法.另外,在企业应用中更多的是利用大自
然,以绿色能源和自然制冷来降低功耗.水冷和把数据中心建在寒冷地区,是大型
企业常用的做法.在小型器件上,倾向于采用大容量磁盘和固态盘.在文件系统上,
对单机文件系统的节能做的优化较少;主要集中在新型分布式文件系统上.
参考文献:
[1]Agear-shiftingpower-awareRAID
[J].ACMTransactionsonStorage(TOS),2007,3(3):23-29.
[2]郭东,杜勇,胡亮.基于HDFS的云数据备份系统[J].吉林大学学报,
2012,50(1):102-106.
[3]许春玲,张广泉.分布式文件系统HadoopHDFS与传统文件系统LinuxFS
的比较与分析[J].苏州大学学报:工科版,2010,30(4):5-9.
本文发布于:2023-01-03 08:09:40,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/83169.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |