《運(yùn)維DBA的4大紀(jì)律9項(xiàng)注意》要點(diǎn):
本文介紹了運(yùn)維DBA的4大紀(jì)律9項(xiàng)注意,希望對(duì)您有用。如果有疑問(wèn),可以聯(lián)系我們。
朋友們調(diào)侃說(shuō),運(yùn)維是個(gè)把腦袋別在褲腰帶上的活,更有人說(shuō),運(yùn)維是個(gè)把腦袋別在他人褲腰帶上的活,苦勞沒(méi)人認(rèn),有鍋就有得背!
測(cè)試的同學(xué)說(shuō),“吃瓜群眾很難感知運(yùn)維背后的付出,倒是出了事情更能體現(xiàn)我們的專業(yè)性.”小樣兒,你這是還沒(méi)有掉坑里過(guò).
所以,最好就是減少鍋的出現(xiàn).
但是,鍋來(lái)了,大家就得背,甭管你是運(yùn)維、產(chǎn)品、測(cè)試還是開(kāi)發(fā),總得有個(gè)人出來(lái)走一走,對(duì)吧?
今天我們就來(lái)談?wù)勥\(yùn)維DBA怎樣少背鍋.
運(yùn)維DBA的形勢(shì)是很惡劣,但再惡劣也比不過(guò)當(dāng)年紅軍過(guò)草地.紅軍當(dāng)年靠三大紀(jì)律八項(xiàng)注意度過(guò)了難關(guān),若運(yùn)維DBA認(rèn)真執(zhí)行,也能度過(guò)背鍋難關(guān).
運(yùn)維DBA的四大紀(jì)律:
一、一切行動(dòng)聽(tīng)指揮
甭管你是團(tuán)隊(duì),還是團(tuán)伙,要求都是一樣的,一切行動(dòng)聽(tīng)指揮!聽(tīng)誰(shuí)的指揮?聽(tīng)運(yùn)維經(jīng)理、運(yùn)維總監(jiān)、CTO、CEO的指揮.
當(dāng)年墨子當(dāng)巨子的時(shí)候,手下180人,訓(xùn)練有素,同心同德,“赴火蹈刃,死不還踵”.這樣的團(tuán)隊(duì)來(lái)搞運(yùn)維,就具備了基本要求.
運(yùn)維團(tuán)隊(duì)里,最忌諱的是具有三腳貓功夫、蔑視前輩經(jīng)驗(yàn)、心浮氣躁的人,遇到這種人Team Leader要及時(shí)校正甚至剔除,否則這就是你背鍋的最大來(lái)源.我被坑得比較慘的幾次,都是因?yàn)閳F(tuán)隊(duì)里有這樣的人,想動(dòng)手的時(shí)候不夠堅(jiān)決,最后禍起蕭墻,只能弓著腰給客戶和領(lǐng)導(dǎo)死命的批評(píng).這叫什么,一顆老鼠屎壞了一鍋湯.
所以,選擇運(yùn)維成員時(shí),要選那種踏實(shí)、機(jī)敏、上進(jìn)、溝通能力強(qiáng)的年輕人,用心培養(yǎng),往往事半功倍.
二、兩條紅線不能犯
所謂紅線,就是天條.第一個(gè)是按指揮再行動(dòng),其實(shí)是活的,可能是要請(qǐng)示和匯報(bào)的.這第二條是死的,就像高壓線一樣,碰到就完蛋了.
所有變更要做到:凡變更必有方案,凡方案必經(jīng)過(guò)評(píng)審方可執(zhí)行,凡執(zhí)行必嚴(yán)格遵循方案,重大變更需要有人核實(shí).
這一條其實(shí)是為了規(guī)避誤操作,誤操作就是人為故障.人為故障在所有故障中的占比一直是很高的.
所有影響到業(yè)務(wù)的故障,不管是硬件故障、軟件故障還是人為故障,必須第一時(shí)間通知到部門經(jīng)理.
這一條是為了規(guī)避,技術(shù)人愛(ài)鉆牛角尖,看見(jiàn)故障鉆進(jìn)去就出不來(lái),貽誤戰(zhàn)機(jī),把快速恢復(fù)業(yè)務(wù)的大好時(shí)機(jī)給浪費(fèi)了.
三、假日前容量規(guī)劃
記得某一年有一次團(tuán)隊(duì)Outing,集合時(shí)某DBA睡眼惺忪地說(shuō)半夜3點(diǎn)被告警搞起來(lái)了.這還不算,他在玩密室逃脫的時(shí)候,又接到機(jī)房告警電話,某業(yè)務(wù)表空間使用率超過(guò)85%嚴(yán)重告警了.是不是亮瞎了?
要想輕輕松松過(guò)節(jié)日,或者出去玩,除了做好備份之外,最重要的是做好容量規(guī)劃.最基本的表空間、文件系統(tǒng)空間、歷史告警等等基本情況橫掃一遍,起碼要能安全等到你休假回來(lái).
對(duì)于一些特別的電商系統(tǒng),節(jié)假日可能正是高峰期,那就不僅僅是空間這點(diǎn)事了,還要做好性能預(yù)測(cè)和解決方案預(yù)案.
四、備份恢復(fù)年年做
備份要做,恢復(fù)更要做.如果你是管理者,千萬(wàn)必要以為你的DBA一定會(huì)幫你做了.
不驚訝,真實(shí)案例的脫敏數(shù)據(jù):
如果是企業(yè)缺少相應(yīng)備份設(shè)備或軟件導(dǎo)致的,DBA有義務(wù)督促領(lǐng)導(dǎo)購(gòu)置恢復(fù)演練所需的軟硬件設(shè)備.因?yàn)橐坏┏霈F(xiàn)意外,DBA的直接領(lǐng)導(dǎo)往往也擔(dān)不了這個(gè)責(zé)任,畢竟數(shù)據(jù)都保護(hù)不了,用戶還怎么相信你這個(gè)企業(yè),不論你是央企還是國(guó)企.
運(yùn)維DBA的九項(xiàng)注意:
三大紀(jì)律是規(guī)矩-Rules,八項(xiàng)注意是指導(dǎo)原則-Guidance.
做運(yùn)維的人,不能總說(shuō)這個(gè)我們沒(méi)想到,哎呀,沒(méi)想到這也不行.這是爬雪山,過(guò)草地,不注意就陷進(jìn)去了,哪里會(huì)留時(shí)間給你瞎BB?
1、對(duì)生產(chǎn)環(huán)境心懷敬畏
你也許沒(méi)聽(tīng)過(guò)“一個(gè)tnsping干翻6臺(tái)P595”,你也許沒(méi)聽(tīng)過(guò)“一個(gè)cp命令讓營(yíng)業(yè)系統(tǒng)停止使用30分鐘”,你也許沒(méi)聽(tīng)過(guò)“建一個(gè)索引讓所有核保業(yè)務(wù)不能用了”,你也許沒(méi)聽(tīng)過(guò)“我本來(lái)是要shutdown我的虛擬機(jī)的,沒(méi)想關(guān)生產(chǎn)庫(kù)”… …
你沒(méi)聽(tīng)過(guò)的事情很多,你沒(méi)干過(guò)的事情更多,因?yàn)槟氵€年輕.
但是一定要對(duì)生產(chǎn)環(huán)境心懷敬畏.
所有操作命令不是網(wǎng)上搜來(lái)就可以用的,你要盡可能搞清楚這個(gè)命令的副作用,這個(gè)命令下去最壞的可能,可能是什么?不懂的就虛心求教,DBAplus社群這么多大牛,實(shí)在不好意思,就先砸個(gè)大紅包過(guò)去再問(wèn).
2、保持24小時(shí)開(kāi)機(jī)
做運(yùn)維的沒(méi)有徹底休假之說(shuō),不要以為你休假了就關(guān)機(jī)大吉了,那離你關(guān)門大吉也不遠(yuǎn)了.嗯,所以有些公司把這條也列為紀(jì)律之一.
我曾遇到過(guò)這樣一個(gè)情況,某個(gè)DBA請(qǐng)假了,剛好有個(gè)環(huán)境的密碼只有他知道,而這個(gè)環(huán)境現(xiàn)在出了點(diǎn)問(wèn)題.可想而知,當(dāng)時(shí)人是多么著急? 嗯,那個(gè)DBA休假回來(lái)就長(zhǎng)時(shí)間離開(kāi)現(xiàn)場(chǎng)了.
3、多請(qǐng)應(yīng)用的人嘮嘮嗑
完全不懂業(yè)務(wù)的DBA不是一個(gè)合格的架構(gòu)師.
要去懂業(yè)務(wù)、懂應(yīng)用、懂服務(wù),就一定要跟應(yīng)用的人嘮嗑、吃飯、抽煙,平時(shí)尊重人家,人家愿意跟你說(shuō),你就越來(lái)越熟悉業(yè)務(wù).慢慢的,你就可以為推動(dòng)業(yè)務(wù)采用更合適的架構(gòu)方案.
4、不要在上班時(shí)間做普通變更
什么叫普通變更?就是你本來(lái)可以提前一天做的變更.
比如擴(kuò)表空間、增加用戶權(quán)限、創(chuàng)建索引……并非是為了解決緊急故障而導(dǎo)致的變更.
提前做好變更規(guī)劃,盡量爭(zhēng)取每次免考核時(shí)做完所有重要的變更.
5、定期做好數(shù)據(jù)庫(kù)檢查
數(shù)據(jù)庫(kù)沒(méi)有發(fā)生故障,不代表是DBA做得好,而是故障自己還沒(méi)有發(fā)生,不是不報(bào),實(shí)時(shí)候未到.
所以,確定好檢查規(guī)則,定期做好數(shù)據(jù)庫(kù)檢查,并進(jìn)行整改.涉及到其它配合方的整改一定要郵件抄送,并電話確認(rèn).
6、數(shù)據(jù)庫(kù)部署要給予最小化權(quán)限
安裝必要的最少組件,賦予必要的最小權(quán)限,是主動(dòng)避坑的有效手段.很多數(shù)據(jù)恢復(fù),操作問(wèn)題,如果能夠從權(quán)限上把把關(guān),后面就能省很多事情.
7、所有的保障手段,都要去驗(yàn)證其持續(xù)可行性
部署了高可用系統(tǒng),上線前要做高可用切換測(cè)試.
部署了容災(zāi)系統(tǒng),要做定期容災(zāi)演練.
部署了應(yīng)急系統(tǒng),要做定期應(yīng)急演練.
做了數(shù)據(jù)庫(kù)備份,要做定期數(shù)據(jù)庫(kù)恢復(fù)測(cè)試.
說(shuō)起來(lái)容易,做起來(lái)難.全國(guó)90%的系統(tǒng)沒(méi)有做到這一點(diǎn).所以你才會(huì)經(jīng)常聽(tīng)到異?;謴?fù)的案例.特別是哪些用存儲(chǔ)容災(zāi),或者用OGG應(yīng)急的.不是技術(shù)本身不行,而是管理不行.
8、竭盡全力推行自動(dòng)化運(yùn)維
在看到這條之前,你也許心里一直在暗暗的罵道,都什么時(shí)代了,還這么古板.
其實(shí)不管你是否已經(jīng)開(kāi)始了自動(dòng)化運(yùn)維,前面的每一條都值得你好好去做好,對(duì)你有益無(wú)害.
但是,去做自動(dòng)化運(yùn)維,是運(yùn)維DBA繞不開(kāi)的路徑.就像從昆明到上海,最開(kāi)始是只能靠馬幫,后來(lái)逐漸通了高速公路,現(xiàn)在開(kāi)始滬昆高鐵了一樣.
這個(gè)自動(dòng)化運(yùn)維怎么做?完全靠自己重復(fù)造輪子顯然不完全靠譜.如果你不是BAT,也不是京東新美大餓了么,最好的方式,是找專業(yè)運(yùn)維的公司研發(fā)的自動(dòng)化運(yùn)維平臺(tái),是騾子是馬拿出來(lái)遛兩下,你就喜歡上了.
9、起步始于交流,收獲源于分享
做過(guò)講師的人,都會(huì)有這樣一個(gè)共識(shí),就是講完?yáng)|西,自己其實(shí)比聽(tīng)課的“學(xué)生”收獲更大.這一點(diǎn)互聯(lián)網(wǎng)公司做得非常好,不管是BAT還是新的巨頭,都紛紛成立技術(shù)學(xué)院,領(lǐng)銜的也往往是業(yè)界大佬,把企業(yè)內(nèi)部的技術(shù)分享組織得有聲有色.
作為傳統(tǒng)企業(yè)的DBA來(lái)說(shuō),一家企業(yè)往往沒(méi)有這么個(gè)學(xué)院,但是互聯(lián)網(wǎng)上的平臺(tái)很多,比如DBAplus社群,甚至還有其他一些社群都提供這樣的機(jī)會(huì).
為什么我們團(tuán)隊(duì)工作一年的新人,可以擁有其他公司工作四五年DBA所具有的能力,除了復(fù)雜的硬件環(huán)境外,每月的分享也功不可沒(méi).
運(yùn)維沒(méi)有盡頭,注意事項(xiàng)也沒(méi)有盡頭,你有更好的建議,不妨說(shuō)說(shuō).
原文作者:楊志洪
運(yùn)維派點(diǎn)評(píng):雖然這篇文章是以DBA運(yùn)維場(chǎng)景,但對(duì)于其他應(yīng)用運(yùn)維場(chǎng)景,其實(shí)絕大部分也是適用的,如果你有什么運(yùn)維經(jīng)驗(yàn)需要分享的,趕快給運(yùn)維派留言吧:)
轉(zhuǎn)載請(qǐng)注明本頁(yè)網(wǎng)址:
http://www.fzlkiss.com/jiaocheng/4354.html