《又又又?jǐn)嚯姡繌哪矯loud數(shù)據(jù)中心電力故障看UPS可靠性》要點(diǎn):
本文介紹了又又又?jǐn)嚯姡繌哪矯loud數(shù)據(jù)中心電力故障看UPS可靠性,希望對(duì)您有用。如果有疑問(wèn),可以聯(lián)系我們。
在數(shù)據(jù)中心大談云化,眾多廠家“無(wú)云不宣”的時(shí)候,人們卻發(fā)現(xiàn):理論上更加安全、更加可靠、更加便捷的Cloud DC們,卻似乎變得更加脆弱了.除了服務(wù)器宕機(jī),斷網(wǎng)、斷電等事故也時(shí)有發(fā)生,連挖土機(jī)都有可能挖斷光纜.當(dāng)一朵朵“云”在天上飄的時(shí)候,背后的那根“安全線”也比任何時(shí)候更加不容忽視.
2017年3月22日,青云(QingCloud)因北京2區(qū)(PEK 2)數(shù)據(jù)中心電力故障引發(fā)部分網(wǎng)關(guān)設(shè)備及計(jì)算節(jié)點(diǎn)重啟,目前故障雖然已經(jīng)排除,但也造成了不小的影響.
近年來(lái),大家頻繁聽(tīng)到云數(shù)據(jù)中心因異常導(dǎo)致業(yè)務(wù)中斷的事情發(fā)生,在數(shù)字化的現(xiàn)代社會(huì),數(shù)據(jù)中心的可靠性如果稍稍動(dòng)搖,其造成的影響如同蝴蝶效應(yīng),不可避免會(huì)波及終端客戶的正常運(yùn)營(yíng)和影響自身聲譽(yù).因而每一次故障的發(fā)生不僅僅需要事故方自檢排查,更需要整個(gè)行業(yè)一起反思,從中獲益.雖然官方?jīng)]有給出確切的故障原因,本文將參照青云事后發(fā)布的故障報(bào)告,大致分析故障原因,并以此為契機(jī),給出一些思考與建議.
據(jù)青云官方稱:具體故障發(fā)生過(guò)程為,該數(shù)據(jù)中心需要對(duì)A組UPS進(jìn)行定期離線維護(hù)作業(yè)所以將負(fù)載從A路UPS整體切換到B路UPS,但是3個(gè)小時(shí)之后B路電源UPS出現(xiàn)單臺(tái)機(jī)組報(bào)故障,隨后整組UPS過(guò)載.1分鐘后B路UPS在進(jìn)行內(nèi)部旁路切換時(shí)報(bào)警顯示不能進(jìn)行切換,緊接著UPS就陷入異常狀態(tài).大約36分鐘后UPS系統(tǒng)恢復(fù)正常狀態(tài)后將報(bào)警還原時(shí),電源產(chǎn)生了瞬斷現(xiàn)象.將近2個(gè)小時(shí)之后為了原因調(diào)查,UPS被完全隔離.
雖然目前還沒(méi)有正式的分析報(bào)告出來(lái),但是從報(bào)告中我們還是可以管中窺豹,從中看出一些問(wèn)題.
一、傳統(tǒng)塔式UPS離線維護(hù)風(fēng)險(xiǎn)大.在發(fā)生故障的第一環(huán)節(jié)是離線維護(hù)引起的,研究表明有50%~60%的數(shù)據(jù)中心的停機(jī)都是由人為錯(cuò)誤引起的,這與塔式UPS結(jié)構(gòu)息息相關(guān).
傳統(tǒng)塔式UPS是一個(gè)整體,其內(nèi)部系統(tǒng)復(fù)雜,UPS出了故障后,問(wèn)題的定位和維修是很大的工程量,并且需要專家到現(xiàn)場(chǎng)才能定位、維修,且這個(gè)過(guò)程是離線的,此時(shí)UPS系統(tǒng)工作在維修旁路,這就意味著,當(dāng)市電中斷時(shí),如果單機(jī)供電,負(fù)載將直接中斷.
二、傳統(tǒng)塔式UPS維護(hù)時(shí)間長(zhǎng).上文已經(jīng)提到,塔式UPS的維護(hù)往往是個(gè)專業(yè)過(guò)程,維護(hù)工作量大,一般維護(hù)時(shí)間常常是數(shù)小時(shí)甚至數(shù)十小時(shí),這就加大了業(yè)務(wù)中斷的風(fēng)險(xiǎn).
三、青云所用的UPS本身可靠性設(shè)計(jì)令人擔(dān)憂.從報(bào)告中看 “B路電源UPS出現(xiàn)單臺(tái)機(jī)組報(bào)故障,隨后整組UPS過(guò)載.1分鐘后B路UPS在進(jìn)行內(nèi)部旁路切換時(shí)報(bào)警顯示不能進(jìn)行切換,緊接著UPS就陷入異常狀態(tài).大約36分鐘后UPS系統(tǒng)恢復(fù)正常狀態(tài)后將報(bào)警還原時(shí),電源產(chǎn)生了瞬斷現(xiàn)象.”這段描述性文字可以看出,青云所用UPS在過(guò)載狀態(tài)下,主旁切換邏輯出現(xiàn)重大問(wèn)題,本身可靠性設(shè)計(jì)堪憂.
UPS發(fā)展至今,傳統(tǒng)塔式UPS低可用性已經(jīng)無(wú)法跟上數(shù)據(jù)中心IT設(shè)施的發(fā)展速度,要提升可用性,縮短故障維護(hù)時(shí)間,模塊化UPS是唯一方向.模塊可熱插拔是所有UPS廠家對(duì)模塊化UPS的基本要求,故障時(shí)通過(guò)熱插拔更換模塊,5分鐘即可完成在線維護(hù),這與傳統(tǒng)塔式UPS動(dòng)輒8小時(shí)以上的離線維護(hù)時(shí)間相比,是個(gè)巨大的提升,當(dāng)然在線與離線相比,對(duì)負(fù)載的重要性也不言而喻;部分廠家甚至將靜態(tài)旁路、控制模塊等等都做了熱插拔設(shè)計(jì),進(jìn)一步提升系統(tǒng)可用性.
此外,傳統(tǒng)塔機(jī)單點(diǎn)故障多,單點(diǎn)故障,常常引起整個(gè)系統(tǒng)中斷,相比而言模塊化UPS關(guān)鍵節(jié)點(diǎn)可以通過(guò)冗余設(shè)計(jì)提升可靠性,在整個(gè)系統(tǒng)運(yùn)行時(shí),負(fù)載率一般會(huì)低于50%,此時(shí)多個(gè)模塊故障,仍然可以保證UPS正常帶載,直接規(guī)避了上文所說(shuō)的過(guò)載問(wèn)題.
最后,用戶在使用UPS,進(jìn)行招標(biāo)時(shí),對(duì)于UPS可靠性的要求應(yīng)該更加嚴(yán)格,嚴(yán)格的標(biāo)準(zhǔn)才能大浪淘沙,讓真正可靠的UPS脫穎而出,為更多的用戶謀福利.
從近年來(lái)的集采可以看出,模塊化UPS所占比例節(jié)節(jié)攀升,逐步成為集采主流機(jī)型,這也從側(cè)面印證了市場(chǎng)趨勢(shì),從業(yè)務(wù)出發(fā),客戶也不愿意使用維修困難的UPS,正在追求更高可用性的UPS.
UPS作為電力守護(hù)者,為各個(gè)行業(yè)的關(guān)鍵負(fù)責(zé)設(shè)備提供穩(wěn)定、不間斷的電力供應(yīng).從近幾年的市場(chǎng)表現(xiàn)來(lái)看,模塊化UPS的可靠性正在逐步被行業(yè)認(rèn)可.相對(duì)于傳統(tǒng)的高頻塔式UPS,模塊化UPS可以不斷電維護(hù),單模塊故障不影響系統(tǒng)運(yùn)行,高效節(jié)能等特性更符合數(shù)據(jù)中心應(yīng)用.
文章來(lái)自微信公眾號(hào):數(shù)據(jù)中心運(yùn)維管理
轉(zhuǎn)載請(qǐng)注明本頁(yè)網(wǎng)址:
http://www.fzlkiss.com/jiaocheng/4192.html