云計算環(huán)境下的大數(shù)據(jù)可靠存儲關鍵技術概述論文
呈指數(shù)級增長的大數(shù)據(jù)需要被可靠存儲,而云計算環(huán)境下的大規(guī)模分布式存儲節(jié)點和數(shù)據(jù),極大地提升了數(shù)據(jù)丟失或失效的幾率,該文從云端數(shù)據(jù)中心拓撲結(jié)構(gòu)的設計、數(shù)據(jù)容災技術的相關策略及系統(tǒng)節(jié)能減耗等三個方面進行了系統(tǒng)的闡述,為大數(shù)據(jù)的可靠存儲技術研究提供了一定的參考依據(jù)。
關鍵詞:云計算;大數(shù)據(jù);數(shù)據(jù)容災
1概述
當代云計算數(shù)據(jù)中心的存儲節(jié)點數(shù)量少則幾十萬多則上百萬,在規(guī)模如此龐大的海量存儲系統(tǒng)中,節(jié)點失效或磁盤損毀已然成為一種常態(tài),此外,由于網(wǎng)絡設備或者傳輸線路故障等原因?qū)е碌臄?shù)據(jù)丟失或短時不可用現(xiàn)象也常有發(fā)生。如果用戶或企業(yè)不能隨時隨地存取自己所需的數(shù)據(jù),甚至發(fā)生數(shù)據(jù)丟失的現(xiàn)象,將大大影響客戶滿意度,甚至給企業(yè)帶來巨大的經(jīng)濟損失,因此,必須采取有效措施及相關技術策略來保證云端數(shù)據(jù)的可靠存儲。
2云端數(shù)據(jù)中心拓撲結(jié)構(gòu)
云端數(shù)據(jù)中心是大數(shù)據(jù)存儲的基礎平臺,數(shù)據(jù)的可靠性及訪問效率與網(wǎng)絡節(jié)點的拓撲結(jié)構(gòu)緊密相關。按節(jié)點功能類型的不同,可將數(shù)據(jù)中心節(jié)點的拓撲結(jié)構(gòu)分成三種類型[1]:①以server(服務器)為為中央節(jié)點的星型結(jié)構(gòu);②以switch(交換機)為中央節(jié)點的星型結(jié)構(gòu);③混合結(jié)構(gòu)。三種拓撲結(jié)構(gòu)的特點如下:
以server為中央節(jié)點的結(jié)構(gòu)將多臺server通過傳輸介質(zhì)直接互連起來,在這種結(jié)構(gòu)中,server兼任switch的角色,一方面承擔數(shù)據(jù)的加工處理工作,另一方面承擔分組的存儲轉(zhuǎn)發(fā)工作,以server為中心的結(jié)構(gòu)增加了服務器之間的網(wǎng)絡帶寬,擺脫了對交換機的過度依賴,提高了吞吐量;但是server之間的鏈路帶寬的不均衡增加了布網(wǎng)的復雜度。
以switch為中央節(jié)點的結(jié)構(gòu)將各臺server通過switch進行互連,switch和server各司其職,switch負責分組的路由轉(zhuǎn)發(fā),server負責數(shù)據(jù)的存儲加工,這種結(jié)構(gòu)布網(wǎng)簡單,操作方便,可擴展性強,在現(xiàn)代企業(yè)數(shù)據(jù)中心應用較廣泛;但以交換機為中心的結(jié)構(gòu)存在底層server利用率低、switch資源浪費較為嚴重、網(wǎng)絡帶寬容量有限、靈活性差等缺點。
混合結(jié)構(gòu)是以上兩種結(jié)構(gòu)的一種擴展,其設計融合了這兩種結(jié)構(gòu)的優(yōu)點并有效避開了各自的缺陷。
3云端數(shù)據(jù)容災技術
容災技術是云端大數(shù)據(jù)可靠存儲的一種關鍵技術,良好的容災策略不但能有效提升大數(shù)據(jù)存儲系統(tǒng)的可靠性,還有助于提升系統(tǒng)的訪問效率。容災策略一般都采用冗余備份技術來實現(xiàn),以確保當出現(xiàn)某種突發(fā)狀況導致存儲系統(tǒng)中的文件、數(shù)據(jù)、片段丟失或者嚴重損壞時,系統(tǒng)可準確而快速地訪問冗余數(shù)據(jù)來維持系統(tǒng)的穩(wěn)定運行[2]。一般來說,容災技術按策略的不同主要分兩種:①復制冗余策略;②糾刪編碼冗余策略。
3.1復制冗余策略
復制冗余策略為系統(tǒng)中的每一個數(shù)據(jù)都建立一個或多個副本,并把若干個副本分散存儲在不同的網(wǎng)絡節(jié)點上,當遇到某個數(shù)據(jù)損毀或失效不能正常使用時,可通過訪問最近的存儲節(jié)點來獲取與原件完全一致的副本數(shù)據(jù)[3];趶椭频娜哂嗖呗灾饕P注2個方面的問題:(1)副本數(shù)量設置;(2)數(shù)據(jù)放置方法。
3.1.1副本數(shù)量設置
副本系數(shù)設置主要采取兩種方式:①靜態(tài)設置副本數(shù)量,目前主流的'分布式文件系統(tǒng)Hadoop的HDFS、谷歌的GFS都采用3副本策略,這種靜態(tài)設置方法操作簡單,但靈活性差;②隨機動態(tài)設置副本數(shù)量,即系統(tǒng)根據(jù)數(shù)據(jù)的訪問頻率、出錯概率及網(wǎng)絡狀況等動態(tài)因素隨機地確定副本系數(shù),動態(tài)地刪除或添加副本,這種動態(tài)機制能大大增加存儲空間的利用率,但動態(tài)計算過程增加了系統(tǒng)的開銷;
3.1.2數(shù)據(jù)放置方法
巧妙的數(shù)據(jù)放置方法能通過提高并行訪問量來提升云端大規(guī)模數(shù)據(jù)的訪問效率,目前,數(shù)據(jù)放置方法一般采用順序放置和隨機放置[4]。
①順序放置方法把數(shù)據(jù)副本按順序分布存儲在不同節(jié)點上,使得排列數(shù)目相對較少,針對系統(tǒng)的隨機失效有一定的防護性,順序放置方法技術簡單、易于實現(xiàn)和維護,但在具體應用時,因失效具有很強的相關性,局部的網(wǎng)絡故障或節(jié)點失效就有可能導致整個機架的數(shù)據(jù)不可訪問。
、陔S機放置方法是在可放置節(jié)點中隨機地選擇一系列節(jié)點來存放數(shù)據(jù)副本,此方法能夠降低關聯(lián)對系統(tǒng)可靠性帶來的負面影響,但在實際應用中,由于節(jié)點的存儲、計算能力各不相同、數(shù)據(jù)的訪問熱度也不盡一致,往往達不到理想的均衡負載效果。
3.2糾刪編碼冗余策略
3.2.2LDPC編碼
LDPC碼是從蒙特卡洛及圖論演進而成的編譯碼技術,因其稀疏檢驗矩陣(少量元素是1,其余部分全是0)特性,被研究者廣泛用于設計復雜度低的解碼算法,LDPC碼可以有效提升系統(tǒng)的容災能力,但是構(gòu)造不規(guī)則碼字的難度也相應成倍地增加。
3.2.3陣列編碼
陣列碼的編譯碼過程只涉及基礎的二進制異或運算,技術實現(xiàn)相對容易,而且在采用同等編譯碼的前提下,陣列碼比RS碼更能有效地提高系統(tǒng)的可靠性,與此同時保持其計算域不變大,陣列碼技術一直是大數(shù)據(jù)可靠存儲關鍵技術的研究熱點,被廣泛的應用于磁盤陣列及網(wǎng)格存儲系統(tǒng)中。
3.2.4RS編碼
RS碼是一種高效的糾錯碼,既可以糾正突發(fā)錯誤,又可以糾正隨機錯誤,在通信領域中有極其廣泛的應用,近年來,隨著大數(shù)據(jù)存儲技術的快速、多元化發(fā)展,有研究者對RS編碼行了改造,并將其應用于數(shù)據(jù)存儲領域以提高系統(tǒng)的容錯性。
4云端系統(tǒng)節(jié)能減耗技術
數(shù)據(jù)存儲是各種云計算服務賴以施展的基礎,在云計算環(huán)境下,底層數(shù)據(jù)中心節(jié)點的規(guī)模龐大,使得數(shù)據(jù)存儲成本極高,主要源于添置各種網(wǎng)絡硬件設施(大型服務器、交換機、路由器等)以及支付各種存儲設備的高額電能消耗等。高漲的能耗開銷不但增加了系統(tǒng)的運營及維護成本,更催化了大氣溫室效應,嚴重破壞了自然界的生態(tài)環(huán)境,因此,不論從服務商盈利的角度,還是從環(huán)境保護的角度出發(fā),節(jié)能減耗技術都顯得尤為必要。
當前,分布式存儲系統(tǒng)的節(jié)能減耗技術主要集中在兩個方面:①硬件節(jié)能策略,主要致力于降低存儲系統(tǒng)中的硬件設備能耗;②軟件節(jié)能策略,通過使用一些專業(yè)軟件來實現(xiàn)系統(tǒng)資源的有效分配及使用。
參考文獻:
[1] Popa L, Ratnasamy S, Iannaccone G,et al. A Cost Comparison of Data Center Network Architectures[Z]. 2010.
[2] 吳朱華.云計算核心技術剖析[M].北京:人民郵電出版社,2011.
[3] 郭仁東.網(wǎng)絡數(shù)據(jù)容災備份技術及其應用淺析[J].電腦知識與技術,2012(31).
[4] 王意潔,孫偉東,周松等.云計算環(huán)境下的分布式存儲關鍵技術[J].軟件學報,2012,23(4):962-986.
【云計算環(huán)境下的大數(shù)據(jù)可靠存儲關鍵技術概述論文】相關文章:
芻議云計算環(huán)境下的數(shù)據(jù)安全論文12-08
云計算關鍵技術論文11-20
大數(shù)據(jù)環(huán)境下云計算對電子商務的作用論文01-12
淺析云存儲技術在大數(shù)據(jù)時代的運用論文12-02
解析不同存儲環(huán)境下的數(shù)據(jù)保護策略 -電腦資料01-01
解析不同存儲環(huán)境下的數(shù)據(jù)保護策略 -電腦資料01-01