www涩-www黄网站-www黄色-www黄色com-国产免费拍拍视频在线观看网站-国产免费怕怕免费视频观看

【應(yīng)用】撩開分布式存儲神秘面紗

2018-04-13 20:13:17 大云網(wǎng)  點擊量: 評論 (0)
我們在2011年開始研究試驗云計算技術(shù),到2013年形成了長距雙活資源池體系,并引入SDNOverlay技術(shù)進行測試和試點,通過SDN實現(xiàn)彈性網(wǎng)絡(luò)資源...

VBS是計算數(shù)據(jù)塊存儲位置的重要網(wǎng)元。一個VBS就是一個“機頭”。VBS部署很靈活,有很多種部署方法,可以根據(jù)不同的需求進行選擇。比如,在VMWARE虛擬機中,可以在物理機上開設(shè)一臺虛擬機部署VBS,在XEN/KVM部署在domain0上;或者部署在每臺OSD服務(wù)器上,或?qū)iT設(shè)置VBS服務(wù)器群。

VBS采取一致性哈希算法,如圖3,將數(shù)據(jù)塊的邏輯地址計算出KEY值。并將計算出來的KEY映射到哈希環(huán)上,在哈希環(huán)上劃分了N段(Partition),每個Partition對應(yīng)一個硬盤,并根據(jù)出partition主和osd節(jié)點的映射關(guān)系ioview,和partitio主備對應(yīng)的osd關(guān)系,得到該數(shù)據(jù)塊的路由,如圖4。在寫入的時候,采用強一致性,即當(dāng)主和備副本都返回寫成功后,才認為這個IO寫成功了。讀IO時只讀主副本,當(dāng)主副本故障的時候,會在備副本中選舉出主副本。目前,一個資源池可以支持2000塊硬盤。

操作系統(tǒng)看到的連續(xù)的數(shù)據(jù)邏輯地址(LBA),實際上被打散到資源池內(nèi)所有硬盤上了,類似所有硬盤都做了raid0,這樣就利用了所有磁盤的性能,提高了存儲的性能。操作系統(tǒng)實際是直接讀寫物理磁盤的塊,并沒有封裝額外的文件系統(tǒng),是一個raw設(shè)備。

OSD是一臺插了較多硬盤的X86服務(wù)器,我們采用的是12塊SATA3T的硬盤作為數(shù)據(jù)的持久化存儲介質(zhì)。如果VBS不承載在OSD上,那么OSD服務(wù)器的計算壓力實際上很小,也沒有必要配置計算能力很強、內(nèi)存配置很高的服務(wù)器。上一篇文章計算過,12塊SATA盤提供的iops或吞吐量其實很有限,需要配置SSD作為緩存,加速存儲的性能。由此看來,分布式存儲的性能是由SSD的性能和熱點數(shù)據(jù)計算算法決定的。和一般存儲不同,一般分布式存儲的寫性能會好于讀性能。主要是主和備副本寫入SSD就返回成功了,而SSD什么時候?qū)懭胗脖P,怎么寫入硬盤,客戶端是不知道的。而讀數(shù)據(jù)的時候,如果數(shù)據(jù)是熱點數(shù)據(jù),已經(jīng)在緩存在SSD上,性能會很好,如果沒有在緩存中,就需要到硬盤中直接讀取,那性能就很差了。這也是當(dāng)分布式存儲在初始化的時候,測試性能指標不如運行一段時間后的指標。所以測試分布式存儲有很多陷阱,大家要注意。

為了提高存儲的安全性,達到6個9以上的安全性,我們采取的是通行的3副本(2副本在96塊盤以下,可以達到6個9)。副本可以根據(jù)實際情況設(shè)置成為在不同機架、不同服務(wù)器、不同硬盤的安全級別。當(dāng)磁盤或主機故障,會被MDC監(jiān)控到,會選舉主副本、踢出故障點、重構(gòu)副本等操作。為了確保數(shù)據(jù)的安全,副本重構(gòu)的時間很關(guān)鍵,我們要求,每T數(shù)據(jù)重構(gòu)時間不超過30分鐘。

為了確保數(shù)據(jù)重構(gòu)流量不影響正常存儲IO訪問流量,實現(xiàn)快速數(shù)據(jù)重構(gòu)。我們沒有采取華為推薦的網(wǎng)絡(luò)方案,而是采用環(huán)形虛擬化堆疊的方案,交換機間的堆疊鏈路采用40G光路,如圖5。將存儲的重構(gòu)流量都壓制在存儲環(huán)形網(wǎng)絡(luò)中。交換機到服務(wù)器采用2*10G連接,可以根據(jù)情況采用主備或分擔(dān)的模式。

說過了“塊”存儲,再簡單了解一下“對象存儲”。對象存儲是在同樣容量下提供的存儲性能比文件存儲更好,又能像文件存儲一樣有很好的共享性。實際使用中,性能不是對象存儲最關(guān)注的問題,需要高性能可以用塊存儲,容量才是對象存儲最關(guān)注的問題。所以對象存儲的持久化層的硬盤數(shù)量更多,單盤的容量也更大。對象存儲的數(shù)據(jù)的安全性保障也各式各樣,可以是單機raid或網(wǎng)絡(luò)raid,也可以副本。對性能要求不高,可以直接用普通磁盤,或利用raid卡的緩存,也可以配些SSD作為緩存。我們現(xiàn)在使用單機35塊7200轉(zhuǎn)4TSATA盤+raid卡緩存加速的自研對象存儲,并計劃在今年使用60塊7200轉(zhuǎn)8TSATA盤。即每臺服務(wù)器提供480T的裸容量。Ceph和google基于GFS的存儲就是典型的對象存儲。

Ceph是目前最為熱門的存儲,可以支持多種接口。Ceph存儲的架構(gòu)和華為的FusionStorage異曲同工,都是靠“算”而不是“查”。一種是為數(shù)眾多的、負責(zé)完成數(shù)據(jù)存儲和維護功能的OSD,另一種則是若干個負責(zé)完成系統(tǒng)狀態(tài)檢測和維護的monitor。OSD和monitor之間相互傳輸節(jié)點狀態(tài)信息,共同得出系統(tǒng)的總體工作狀態(tài),并形成一個全局系統(tǒng)狀態(tài)記錄數(shù)據(jù)結(jié)構(gòu),即所謂的clustermap。這個數(shù)據(jù)結(jié)構(gòu)與特定算法相配合,便實現(xiàn)了Ceph“無需查表,算算就好”的核心機制以及若干優(yōu)秀特性。

但數(shù)據(jù)的的組織方法是不同的。首先ceph的核心是一個對象存儲,是以對象為最小組織單位。1、首先文件是被映射成為一個或多個對象。2、然后每個對象再被映射到PG(PlacementGroup)上,PG和對象之間是“一對多”映射關(guān)系。3、而PG會映射到n個OSD上,n就是副本數(shù),OSD和PG是“多對多”的關(guān)系。

由若干個monitor共同負責(zé)整個Ceph集群中所有OSD狀態(tài)的發(fā)現(xiàn)與記錄,并且共同形成clustermap的master版本,然后擴散至全體OSD以及客戶端。OSD使用clustermap進行數(shù)據(jù)的維護,而客戶端使用clustermap進行數(shù)據(jù)的尋址。

Google三大寶之一的“GFS”是google對象存儲的基礎(chǔ)。

核心不同是數(shù)據(jù)的組織架構(gòu):master服務(wù)器(即元數(shù)據(jù)服務(wù)器)保存了文件名和塊的名字空間、從文件到塊的映射、副本位置,由客戶端來查詢。是一個典型的信令和媒體分開的架構(gòu)。

分布式存儲一般情況下都是靠“副本”來確保數(shù)據(jù)的安全性和完整性。每塊盤記錄的數(shù)據(jù)內(nèi)容都不一樣,當(dāng)某一塊盤出現(xiàn)問題,都需要從其他不同盤內(nèi)的數(shù)據(jù)塊中進行快速的數(shù)據(jù)重構(gòu)。數(shù)據(jù)重構(gòu)是需要時間的,如果大量盤同時故障,將會發(fā)生什么?另外,OSD的擴容,也會導(dǎo)致數(shù)據(jù)的遷移,也會影響存儲。下一篇,我將最終揭開分布式存儲存在的隱患。

大云網(wǎng)官方微信售電那點事兒

責(zé)任編輯:蔣桂云

免責(zé)聲明:本文僅代表作者個人觀點,與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實,對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關(guān)內(nèi)容。
我要收藏
個贊
?
主站蜘蛛池模板: 成人毛片免费网站 | 亚洲性久久久影院 | 久久久一区二区三区 | 久久精品国产亚洲精品2020 | 欧美特黄一区二区三区 | 精品a视频| 精品国产一级毛片 | 国产精品极品美女自在线看免费一区二区 | 亚洲成人自拍 | 成人午夜视频在线观 | 国产爽的冒白浆的视频高清 | 亚洲欧美在线观看视频 | 玖玖这里只有精品 | 久草资源视频 | 一区二区不卡久久精品 | 日韩毛片免费视频一级特黄 | 久久九九久精品国产 | 亚洲成人免费 | 国产成人午夜片在线观看 | 欧美成人免费夜夜黄啪啪 | 激情午夜天| 夜色福利久久久久久777777 | 欧美精品一二三区 | 在线视频免费国产成人 | 欧美黑粗特黄午夜大片 | 成人在线播放视频 | 久久国产一区二区 | 欧美一级高清黄图片 | 久久天天躁综合夜夜黑人鲁色 | 国产精品日韩 | 澳门一级毛片手机在线看 | 国产精品欧美一区二区 | 亚洲三级在线免费观看 | 九九视频在线观看视频23 | 国产精品_国产精品_国产精品 | 伊大人香蕉久久网欧美 | 清纯唯美综合网 | 日本特爽特黄特刺激大片 | 国产成人爱片免费观看视频 | 一a一级片| 欧美精品午夜 |