《都是套路:高并發(fā)系統(tǒng)的降級特技》要點:
本文介紹了都是套路:高并發(fā)系統(tǒng)的降級特技,希望對您有用。如果有疑問,可以聯(lián)系我們。
張開濤
京東集團技術研發(fā),2014年加入京東,開發(fā)過京東商品詳情頁、詳情頁統(tǒng)一服務架構與開發(fā)工作,設計并開發(fā)了多個億級訪問量系統(tǒng).
工作之余喜歡寫技術博客,有《跟我學 Spring》、《跟我學Spring MVC》、《跟我學Shiro》、《跟我學Nginx+Lua開發(fā)》等系列教程.
在開發(fā)高并發(fā)系統(tǒng)時有三把利器用來保護系統(tǒng):緩存、降級和限流.之前已經(jīng)有一些文章介紹過緩存和限流了.本文將詳細聊聊降級.
當訪問量劇增、服務出現(xiàn)問題(如響應時間慢或不響應)或非核心服務影響到核心流程的性能時,仍然需要保證服務還是可用的,即使是有損服務.
系統(tǒng)可以根據(jù)一些關鍵數(shù)據(jù)進行自動降級,也可以配置開關實現(xiàn)人工降級.本文將介紹一些筆者在實際工作中遇到的或見到過的一些降級方案供大家參考.
降級的最終目的是保證核心服務可用,即使是有損的.而且有些服務是無法降級的(如加入購物車、結算).
在進行降級之前要對系統(tǒng)進行梳理,看看系統(tǒng)是不是可以丟卒保帥;從而梳理出哪些必須誓死保護,哪些可降級;比如可以參考日志級別設置預案:
一般:比如有些服務偶爾因為網(wǎng)絡抖動或者服務正在上線而超時,可以自動降級;
警告:有些服務在一段時間內(nèi)成功率有波動(如在95~100%之間),可以自動降級或人工降級,并發(fā)送告警;
錯誤:比如可用率低于90%,或者數(shù)據(jù)庫連接池被打爆了,或者訪問量突然猛增到系統(tǒng)能承受的最大閥值,此時可以根據(jù)情況自動降級或者人工降級;
嚴重錯誤:比如因為特殊原因數(shù)據(jù)錯誤了,此時需要緊急人工降級.
降級的功能點主要從服務端鏈路考慮,即根據(jù)用戶訪問的服務調(diào)用鏈路來梳理哪里需要降級:
頁面降級:在大促或者某些特殊情況下,某些頁面占用了一些稀缺服務資源,在緊急情況下可以對其整個降級,以達到丟卒保帥;
頁面片段降級:比如商品詳情頁中的商家部分因為數(shù)據(jù)錯誤了,此時需要對其進行降級;
頁面異步請求降級:比如商品詳情頁上有推薦信息/配送至等異步加載的請求,如果這些信息響應慢或者后端服務有問題,可以進行降級;
服務功能降級:比如渲染商品詳情頁時需要調(diào)用一些不太重要的服務:相關分類、熱銷榜等,而這些服務在異常情況下直接不獲取,即降級即可;
讀降級:比如多級緩存模式,如果后端服務有問題,可以降級為只讀緩存,這種方式適用于對讀一致性要求不高的場景;
寫降級:比如秒殺搶購,我們可以只進行Cache的更新,然后異步同步扣減庫存到DB,保證最終一致性即可,此時可以將DB降級為Cache.
爬蟲降級:在大促活動時,可以將爬蟲流量導向靜態(tài)頁或者返回空數(shù)據(jù)從而降級保護后端稀缺資源.
自動降級是根據(jù)系統(tǒng)負載、資源使用情況、SLA等指標進行降級.
當訪問的數(shù)據(jù)庫/http服務/遠程調(diào)用響應慢或者長時間響應慢,且該服務不是核心服務的話可以在超時后自動降級;
比如商品詳情頁上有推薦內(nèi)容/評價,但是推薦內(nèi)容/評價暫時不展示對用戶購物流程不會產(chǎn)生很大的影響;
對于這種服務是可以超時降級的.如果是調(diào)用別人的遠程服務,和對方定義一個服務響應最大時間,如果超時了則自動降級.
之前總結過一些的文章《使用httpclient必須知道的參數(shù)設置及代碼寫法、存在的風險》和《dbcp配置及jdbc超時設置總結》.在實際場景用一定主要配置好超時時間和超時重試次數(shù)和機制.
有時候依賴一些不穩(wěn)定的API,比如調(diào)用外部機票服務,當失敗調(diào)用次數(shù)達到一定閥值自動降級;然后通過異步線程去探測服務是否恢復了,則取消降級.
比如要調(diào)用的遠程服務掛掉了(網(wǎng)絡故障、DNS故障、http服務返回錯誤的狀態(tài)碼、rpc服務拋出異常),則可以直接降級.
降級后的處理方案有:
默認值(比如庫存服務掛了,返回默認現(xiàn)貨)
兜底數(shù)據(jù)(比如廣告掛了,返回提前準備好的一些靜態(tài)頁面)
緩存(之前暫存的一些緩存數(shù)據(jù))
當我們?nèi)ッ霘⒒蛘邠屬徱恍┫拶徤唐窌r,此時可能會因為訪問量太大而導致系統(tǒng)崩潰,此時開發(fā)者會使用限流來進行限制訪問量,當達到限流閥值,后續(xù)請求會被降級;
降級后的處理方案可以是:
排隊頁面(將用戶導流到排隊頁面等一會重試)
無貨(直接告知用戶沒貨了)
錯誤頁(如活動太火爆了,稍后重試)
- 在大促期間通過監(jiān)控發(fā)現(xiàn)線上的一些服務存在問題,這個時候需要暫時將這些服務摘掉;
- 還有有時候通過任務系統(tǒng)調(diào)用一些服務,但是服務依賴的數(shù)據(jù)庫可能存在:網(wǎng)卡被打滿了、掛掉了或者很多慢查詢,此時需要暫停下任務系統(tǒng)讓服務方進行處理;
- 還有發(fā)現(xiàn)突然調(diào)用量太大,可能需要改變處理方式(比如同步轉(zhuǎn)換為異步);
此時就可以使用開關來完成降級.
開關可以存放到配置文件、存放到數(shù)據(jù)庫、存放到Redis/ZooKeeper;如果不是存放在本地,可以定期同步開關數(shù)據(jù)(比如1秒同步一次).然后通過判斷某個KEY的值來決定是否降級.
另外對于新開發(fā)的服務想上線進行灰度測試;但是不太確定該服務的邏輯是否正確,此時就需要設置開關,當新服務有問題可以通過開關切換回老服務.
還有多機房服務,如果某個機房掛掉了,此時需要將一個機房的服務切到另一個機房,此時也可以通過開關完成切換.
還有一些是因為功能問題需要暫時屏蔽掉某些功能,比如商品規(guī)格參數(shù)數(shù)據(jù)有問題,數(shù)據(jù)問題不能用回滾解決,此時需要開關控制降級.
對于讀服務降級一般采用的策略有:
暫時切換讀(降級到讀緩存、降級到走靜態(tài)化)
暫時屏蔽讀(屏蔽讀入口、屏蔽某個讀服務)
在《應用多級緩存模式支撐海量讀服務》中曾經(jīng)介紹過讀服務,即:
接入層緩存→應用層本地緩存→分布式緩存→RPC服務/DB
我們會在接入層、應用層設置開關,當分布式緩存、RPC服務/DB有問題自動降級為不調(diào)用.當然這種情況適用于對讀一致性要求不高的場景.
頁面降級、頁面片段降級、頁面異步請求降級都是讀服務降級,目的是丟卒保帥(比如因為這些服務也要使用核心資源、或者占了帶寬影響到核心服務)或者因數(shù)據(jù)問題暫時屏蔽.
還有一種是頁面靜態(tài)化場景:
動態(tài)化降級為靜態(tài)化:比如平時網(wǎng)站可以走動態(tài)化渲染商品詳情頁,但是到了大促來臨之際可以將其切換為靜態(tài)化來減少對核心資源的占用,而且可以提升性能;其他還有如列表頁、首頁、頻道頁都可以這么玩;可以通過一個程序定期的推送靜態(tài)頁到緩存或者生成到磁盤,出問題時直接切過去;
靜態(tài)化降級為動態(tài)化:比如當使用靜態(tài)化來實現(xiàn)商品詳情頁架構時,平時使用靜態(tài)化來提供服務,但是因為特殊原因靜態(tài)化頁面有問題了,需要暫時切換回動態(tài)化來保證服務正確性.
以上都保證出問題了有預案,用戶還是可以使用網(wǎng)站,不影響用戶購物.
寫服務在大多數(shù)場景下是不可降級的,不過可以通過一些迂回戰(zhàn)術來解決問題.比如將同步操作轉(zhuǎn)換為異步操作,或者限制寫的量/比例.
比如扣減庫存一般這樣操作:
a、扣減DB庫存;
b、扣減成功后更新Redis中的庫存;
a、扣減Redis庫存;
b、同步扣減DB庫存,如果扣減失敗則回滾Redis庫存;
前兩種方案非常依賴DB,假設此時DB性能跟不上則扣減庫存就會遇到問題;因此我們可以想到方案3:
a、扣減Redis庫存:
b、正常同步扣減DB庫存,性能扛不住時降級為發(fā)送一條扣減DB庫存的消息,然后異步進行DB庫存扣減實現(xiàn)最終一致即可;
這種方式發(fā)送扣減DB庫存消息也可能成為瓶頸;這種情況我們可以考慮方案4:
a、扣減Redis庫存;
b、正常同步扣減DB庫存,性能扛不住時降級為寫扣減DB庫存消息到本機,然后本機通過異步進行DB庫存扣減來實現(xiàn)最終一致性.
也就是說正常情況可以同步扣減庫存,在性能扛不住時降級為異步;另外如果是秒殺場景可以直接降級為異步,從而保護系統(tǒng).
還有如下單操作可以在大促時暫時降級將下單數(shù)據(jù)寫入Redis,然后等峰值過去了再同步回DB,當然也有更好的解決方案,但是更復雜,不是本文的重點.
還有如用戶評價,如果評價量太大,也可以把評價從同步寫降級為異步寫.當然也可以對評價按鈕進行按比例開放(比如一些人的看不到評價操作按鈕).比如評價成功后會發(fā)一些獎勵,在必要的時候降級同步到異步.
緩存是離用戶最近越高效;而降級是離用戶越近越能對系統(tǒng)保護的好.因為業(yè)務的復雜性導致越到后端QPS/TPS越低.
頁面JS降級開關:主要控制頁面功能的降級,在頁面中通過JS腳本部署功能降級開關,在適當時機開啟/關閉開關;
接入層降級開關:主要控制請求入口的降級,請求進入后會首先進入接入層,在接入層可以配置功能降級開關,可以根據(jù)實際情況進行自動/人工降級;
這個可以參考《京東商品詳情頁服務閉環(huán)實踐》,尤其在后端應用服務出問題時,通過接入層降級從而給應用服務有足夠的時間恢復服務;
應用層降級開關:主要控制業(yè)務的降級,在應用中配置相應的功能開關,根據(jù)實際業(yè)務情況進行自動/人工降級.
降級能保障系統(tǒng)在大促中活下來,而不是死去,達到丟卒保帥的作用.對用戶提供有損服務,總比不服務要好.根據(jù)自己的場景設計相應的降級策略,保障系統(tǒng)在危機時刻能通過降級手段平穩(wěn)度過.
文/張開濤
文章出處:高效運維
轉(zhuǎn)載請注明本頁網(wǎng)址:
http://www.fzlkiss.com/jiaocheng/4465.html