《專家觀察 | 朱榮澤:“統(tǒng)一存儲(chǔ),為云而生——基于Ceph的存儲(chǔ)全家桶”》要點(diǎn):
本文介紹了專家觀察 | 朱榮澤:“統(tǒng)一存儲(chǔ),為云而生——基于Ceph的存儲(chǔ)全家桶”,希望對(duì)您有用。如果有疑問(wèn),可以聯(lián)系我們。
由工業(yè)和信息化部指導(dǎo),中國(guó)信息通信研究院主辦,業(yè)界知名組織云計(jì)算開(kāi)源產(chǎn)業(yè)聯(lián)盟(OSCAR)承辦的2017全球云計(jì)算開(kāi)源大會(huì)于4月19日-20日在北京國(guó)家會(huì)議中心順利召開(kāi).本文為本屆大會(huì)嘉賓分享的大會(huì)演講速記內(nèi)容,敬請(qǐng)瀏覽.
嘉賓介紹:朱榮澤
公司職務(wù):UMCloud存儲(chǔ)產(chǎn)品部門(mén)總監(jiān)
大會(huì)演講速記
大家下午好,我叫朱榮澤,現(xiàn)在給大家做一個(gè)基于Ceph的存儲(chǔ)全家桶.
這是我演講內(nèi)容的一個(gè)大綱,我站在一個(gè)云平臺(tái)的建設(shè)者角度去看云平臺(tái)對(duì)于處理系統(tǒng)是怎樣的,我們?cè)趺催x擇的,是需要大家對(duì)OpenStack有一些基本的了解.
我首先介紹一下我們來(lái)自哪里,我們是Ucloud,一個(gè)中國(guó)最大的廠商,MIRANTIS是美國(guó)最專業(yè)的廠商,它跟一家合資公司叫UMCloud,UMCloud在國(guó)內(nèi)專門(mén)提供一些專業(yè)的產(chǎn)品等等.
我們先講一下Mirantis它的最新架構(gòu)怎樣,這是一個(gè)最新的架構(gòu),主要分為三部分,全部是由開(kāi)源云件組成,中間是云計(jì)算平臺(tái),上層是為各個(gè)用戶提供了容器還有虛擬機(jī)還有裸機(jī),裸機(jī)和虛擬機(jī)是OpenStack提供的.
另外平臺(tái)做的事情,OpenStack是用Mirantis部署的,大家也知道之前開(kāi)發(fā)了一個(gè)開(kāi)發(fā)工具,能部署三百臺(tái)到五百臺(tái)是沒(méi)有問(wèn)題的,我單純說(shuō)的部署,不是集聯(lián)的方式,Mirantis也會(huì)遇到一些困難的問(wèn)題,前幾周已經(jīng)發(fā)布了將近九百個(gè)節(jié)點(diǎn)的一個(gè)報(bào)告,大家可以在Mirantis的博客上查到.
中間的云算平臺(tái)大家可以看到是普通的X86服務(wù)器組成的,右邊是一個(gè)生命周期管理,主要是用于OpenStack集群的升級(jí)變更,以后Mirantis云盤(pán)不會(huì)跟某一個(gè)OpenStack綁定,會(huì)滾動(dòng)上面的OpenStack,比如從最新的O板到P板或者下一個(gè)版本都可以滾動(dòng)的升級(jí),而且它跟整個(gè)Mirantis云盤(pán)相關(guān)性是沒(méi)有很強(qiáng)的,而且還能動(dòng)態(tài)的去修改配置.
右邊是一個(gè)運(yùn)維的平臺(tái),主要是對(duì)云平臺(tái)進(jìn)行監(jiān)控和報(bào)警,我們看到整個(gè)云平臺(tái)是會(huì)非常靈活跟敏捷的.
底層的存儲(chǔ)系統(tǒng)怎么才能滿足云平臺(tái)的需求?這是我們總結(jié)的開(kāi)源平臺(tái)對(duì)處理系統(tǒng)的要求,五個(gè)方面.
首先對(duì)于接口來(lái)說(shuō),因?yàn)樵破脚_(tái)上面跑著各種的業(yè)務(wù)和各種運(yùn)營(yíng)時(shí)態(tài),所以需要基本的快存儲(chǔ),快存儲(chǔ)可能要跟你進(jìn)行對(duì)接還有提供快設(shè)備,特別是面向互聯(lián)網(wǎng)的應(yīng)用是需要對(duì)象存儲(chǔ)的,還有一些存儲(chǔ)應(yīng)用接口,但是對(duì)于傳統(tǒng)存儲(chǔ)來(lái)說(shuō),它會(huì)比較差,不能滿足.
第二是可編程性,提供一個(gè)API方便集成,這樣做平臺(tái)能夠快速的調(diào)用一個(gè)存儲(chǔ)系統(tǒng)的資源,定義存儲(chǔ)資源的調(diào)度,對(duì)于傳統(tǒng)存儲(chǔ)來(lái)說(shuō)它只是會(huì)提供API的接口,而且輸入是分鐘級(jí)別的,非常慢,這是跟傳統(tǒng)對(duì)接的時(shí)候會(huì)發(fā)現(xiàn)的一個(gè)問(wèn)題,你也不希望我創(chuàng)建要幾分鐘才會(huì)創(chuàng)建好,這其實(shí)不符合云平臺(tái)對(duì)系統(tǒng)的要求.
另外是Workload,云盤(pán)可能會(huì)跑著各種的數(shù)據(jù)庫(kù)包括一些大數(shù)據(jù)或者像其他的一些負(fù)載,可能有一些大存儲(chǔ)的,或者要求低延遲的,可能需要你去滿足它的要求,但是傳統(tǒng)存儲(chǔ)會(huì)專注于某一版面,也不是太合適.
另外是擴(kuò)展性,因?yàn)槟汶S著云平臺(tái)的擴(kuò)展你需要資源做一個(gè)相應(yīng)的擴(kuò)展,不管是容量還是性能的,而且是需要在線擴(kuò)展的,擴(kuò)展的時(shí)候我必須要不能宕機(jī),因?yàn)閭鹘y(tǒng)的存儲(chǔ)都是賣盒子的方式,擴(kuò)展起來(lái)非常麻煩,而且需要一段的維護(hù)時(shí)間.
另外主要是一個(gè)可管理性,包括統(tǒng)一部署、統(tǒng)一監(jiān)控、統(tǒng)一運(yùn)維,這樣是可以跟云平臺(tái)的進(jìn)行整合結(jié)合,需要一個(gè)管理員就可以把整個(gè)云平臺(tái)還有所有的網(wǎng)絡(luò)存儲(chǔ)都全部管理起來(lái),不需要另外有一套專門(mén)的存儲(chǔ)管理人員.
其實(shí)這樣我們就定義了我們需要的統(tǒng)一存儲(chǔ),至少提供三種存儲(chǔ)接口,可以無(wú)縫的承接OpenStack或者NFS.
這是我們需要的一個(gè)統(tǒng)一存儲(chǔ),下面的Rados為是高可用、高可靠無(wú)縫拓展的,上面是提供快速對(duì)接的,還有CephGRW是對(duì)應(yīng)用直接提供的接口,而且可以使用其他的插件,還有一個(gè)CephFS可以提供一個(gè)文件系統(tǒng)的接口,也可以跟OpenStack做一個(gè)對(duì)接.
這個(gè)是Ceph統(tǒng)一存儲(chǔ)的部署架構(gòu),OSD主要提供存儲(chǔ)資源,MON主要是維護(hù)狀態(tài),其他主要是提供對(duì)外的服務(wù),只提供存儲(chǔ)是OpenStack跟MON直接進(jìn)行加護(hù),整個(gè)集群所有的都是全分布式的,而且沒(méi)有故障的,帶來(lái)的好處就是性能強(qiáng).
我們拿OpenStack舉例,對(duì)于OpenStack來(lái)說(shuō)有很多需要使用存儲(chǔ)后端的,NOVA虛擬機(jī)可以直接使用,虛擬機(jī)可以快速的啟動(dòng),而不需要下載到本地再啟動(dòng),因?yàn)橄螺d會(huì)速度非常慢,我通過(guò)這個(gè)存儲(chǔ)就可以很快,另外是一個(gè)新的平臺(tái)也可以直接的使用整個(gè)集群的.
另外一個(gè)好處就是我經(jīng)常存在這里,虛擬機(jī)啟動(dòng)以后可以減少整個(gè)數(shù)據(jù)的復(fù)制鏈路,就把整個(gè)語(yǔ)音操作下發(fā)到Ceph去做,這樣就可以快速的去做,這邊是使用RADOS,這邊是MANLA.另外是個(gè)做一個(gè)計(jì)量,會(huì)把總的指標(biāo)數(shù)據(jù)全部存下來(lái),存在本地都沒(méi)有很好的解決以后尊出的高可用,假如直接用這個(gè)對(duì)接就可以讓你負(fù)責(zé)整個(gè)數(shù)據(jù)的分布.然后就是Ceph怎么做支持.
我們?cè)賮?lái)看一下為什么我們Ceph是開(kāi)源首選的存儲(chǔ)方案,作為它是一個(gè)開(kāi)源的方案,這會(huì)吸引非常多的開(kāi)發(fā)者,而且可編程性強(qiáng),可以持續(xù)改進(jìn),可以在上面提供很多的創(chuàng)造力,做有創(chuàng)造性的一些工作,激發(fā)開(kāi)發(fā)者的創(chuàng)造力,因?yàn)镃eph是一個(gè)分布式的,我可以對(duì)接一些存儲(chǔ)系統(tǒng),做更多的推薦,讓Ceph幫我做底層的分布式和高可用高可靠,另外它是一個(gè)硬件無(wú)關(guān)的系統(tǒng),好處可以激發(fā)架構(gòu)師的創(chuàng)作力,比如我要實(shí)現(xiàn)減少你的工作負(fù)擔(dān),拿我應(yīng)該使用怎樣的服務(wù)器都可以配置的.
另外它是一個(gè)合適的架構(gòu)根河市的技術(shù),因?yàn)樵破脚_(tái)對(duì)于擴(kuò)展性還有元數(shù)據(jù)處理是非常強(qiáng)的,比如組件分布,對(duì)于Ceph來(lái)說(shuō)可以部署在服務(wù)器上,這可以提高拓展性.
另外一個(gè)是元數(shù)據(jù)處理,我們知道一般的系統(tǒng)對(duì)于分塊主要兩種方式,第一個(gè)是做一次性的,計(jì)算出我到底板塊錯(cuò)在哪里,還會(huì)做一個(gè)存儲(chǔ),一些商業(yè)的存儲(chǔ)是查表.因?yàn)椴楸砜梢宰龊芏喔呒?jí)特性,比如做消重、或者數(shù)據(jù)遷移、拍照等,但是Ceph里面就沒(méi)有把原數(shù)據(jù)做表格的形式,而且全部通過(guò)計(jì)算得到的,這樣是有一個(gè)元數(shù)據(jù)的.
還有一個(gè)是快照和克隆,對(duì)于OpenStack吸引力非常強(qiáng),這樣你就可以快速的創(chuàng)建一個(gè)虛擬機(jī),而且你可以創(chuàng)建快照,這個(gè)是可以實(shí)現(xiàn)的.還有另外一個(gè),因?yàn)镃eph社區(qū)是非常強(qiáng)大的,會(huì)有BP級(jí)別的塊存儲(chǔ),30PB級(jí)別的對(duì)象存儲(chǔ)這個(gè)都是社區(qū)的一些實(shí)踐.
我們這邊可能還會(huì)存在一些問(wèn)題,就是分布式帶來(lái)的復(fù)雜性,為什么帶來(lái)復(fù)雜性,因?yàn)槲覀兊姆植际揭?guī)模特別大,會(huì)對(duì)你的架構(gòu)設(shè)計(jì),因?yàn)槟阍O(shè)計(jì)非常多的因素,特別像網(wǎng)絡(luò)、硬件等等,主要是通過(guò)網(wǎng)上的架構(gòu)設(shè)計(jì).比如我們的網(wǎng)絡(luò)架構(gòu),我后面怎么去做一個(gè)部署,怎么去分割網(wǎng)絡(luò)的流量,提高它最大的性能,還有服務(wù)器配置,我怎么充分利用CPU、SSD還有一個(gè)網(wǎng)卡的性能.三者的性能要是能夠均衡的,可以存儲(chǔ)池進(jìn)行規(guī)劃,還有一個(gè)CRUSH MAP的設(shè)計(jì),你要對(duì)自己集群的性能可靠性可用性要有一個(gè)權(quán)衡.還有你的數(shù)據(jù)流量也要權(quán)衡,還有一些自動(dòng)化部署管理及優(yōu)化.
另外一個(gè)問(wèn)題,不同的Workload我們?cè)趺磧?yōu)化,比如有些對(duì)容量有要求,所以我們可以做一些優(yōu)化服務(wù),比如硬件配置的優(yōu)化,還有操作系統(tǒng)參數(shù)優(yōu)化,因?yàn)槲覀冎烙腥秉c(diǎn)會(huì)做一個(gè)調(diào)優(yōu),而且把它CPU全部榨干.
還有Ceph的參數(shù)優(yōu)化,存儲(chǔ)池配置優(yōu)化,可以做一些代碼的優(yōu)化,還有架構(gòu)優(yōu)化.還有大規(guī)模部署的問(wèn)題,比如你部署一兩百臺(tái)Ceph集群怎么做,像推土機(jī)一個(gè)小時(shí)部署起來(lái),這涉及到Ceph集群生命周期管理,還有自動(dòng)化圖形部署工具.
這是常見(jiàn)的一些運(yùn)維操作優(yōu)化,比如我們遇到一種情況,我們做一個(gè)30PB的集群,幾乎每周都會(huì)畫(huà)換幾塊盤(pán),操作非常頻繁,這樣我們就可以直接換盤(pán)操作直接放在我們的自動(dòng)化管理界面上,快速的做一個(gè)換盤(pán),不需要手動(dòng)的換,這樣可以避免你因?yàn)槭謩?dòng)帶來(lái)的誤操作.
下面還有一個(gè)報(bào)警的工具.我們業(yè)提供產(chǎn)品,會(huì)有一個(gè)平臺(tái)主要是做管理和部署,目標(biāo)是一個(gè)人一小時(shí)交付大規(guī)模的Ceph集群,像服務(wù)器初始化都可以通過(guò)圖形化的界面做操作,這是一個(gè)自動(dòng)化部署安裝流程,剛開(kāi)始部署的時(shí)候可能每一步都是你需要敲命令或者用其他配置起來(lái),通過(guò)圖形化的界面可以把這些全部變更.
下面一些數(shù)據(jù),還有故障排查,像網(wǎng)絡(luò)故障,因?yàn)榫W(wǎng)絡(luò)故障導(dǎo)致集群出問(wèn)題,之前我們遇到一些非常奇葩的問(wèn)題,比如交換機(jī)只能過(guò)小包不能過(guò)大包.硬件故障包括CPU等等,還有操作系統(tǒng),大家可以在Mirantis直接下載.謝謝大家.
文章來(lái)自微信公眾號(hào):云計(jì)算開(kāi)源產(chǎn)業(yè)聯(lián)盟
轉(zhuǎn)載請(qǐng)注明本頁(yè)網(wǎng)址:
http://www.fzlkiss.com/jiaocheng/4172.html