《專家觀察 | 魏新宇:“金融行業自動化運維的研究與落地”》要點:
本文介紹了專家觀察 | 魏新宇:“金融行業自動化運維的研究與落地”,希望對您有用。如果有疑問,可以聯系我們。
由工業和信息化部指導,中國信息通信研究院主辦,業界知名組織云計算開源產業聯盟(OSCAR)承辦的2017全球云計算開源大會于4月19日-20日在北京國家會議中心順利召開.本文為本屆大會嘉賓分享的大會演講速記內容,敬請瀏覽.
嘉賓介紹:魏新宇
公司職務:紅帽軟件(北京)有限公司方案架構師
大會演講速記
大家下午好,我是紅帽公司的解決方案架構師魏新宇,我很榮幸跟大家分享這個課題.
金融行業的定義比較廣泛,它包含有銀行、證券、保險.金融行業的IT化信息較早,例如1980年左右,銀行就開始了信息化建設.由于起步和發展早,所以金融行業的IT架構相對來說比較復雜的,像很多銀行的IT設備有大型機、小型機、物理服務器、虛擬化,Open Stack,甚至還有容器.
正是由于金融行業各個細分領域,IT業務架構有很大的區別,或者有很大的不同,所以IT運維我們經常遇到一些問題,主要是集中在兩方面,一方面運維塊效率較低,第二方面就是運維成本非常高.
紅帽專家根據多年支持銀行業客戶,長期經驗總結出了七類Linux運維中常見的問題.這七類問題,可以說是很多客戶,尤其是客戶運維人員的血淚史.當然,有的金融客戶面臨的問題可能是其中的某一個,有的面臨的問題甚至超出了這七種類型.
目前很多銀行內采用各種開源技術實現了操作系統的批量安裝和自動化部署、但是先前的做法可重復利用化程度很低,每當有項目需要進行自動部署時都需要針對該項目重新進行配置,工作量大且效率低下而且沒有很好的版本管理和回退機制,也缺乏一個很好的管理界面來進行管理,希望通過有效的管理工具來實現快速部署海量服務器的問題.
很多銀行服務器升級都是去紅帽官方網站下載然后手工進行升級操作,實效性、可追溯性差,管理員只是被動接收來自安全部門和紅帽的安全建議,希望通過一個集中展示平臺,直觀的看到數據中心內部所有linux服務器目前運行的軟件版本和官方版本之間的差異、升級的類型并直接通過統一的展示界面遠程直接對需要升級的服務器升級某一個軟件的升級程序.
國家現在對開源軟件的安全性要求很高,很多銀行的安全部門以及公安部會定期對所有的Linux服務器進行安全掃描并發布安全整改意見,這些意見和廠商提供的安全更新建議往往有很大的出入,迫切的需要一個工具能提供紅帽產品的安全更新以及修復建議并且能結合上述的軟件更新功能為系統及時的修補安全漏洞
大的銀行內部有自己的操作系統基線,定義了一系列的標準,這些標準需要人工來實現以及更,參與Linux運維的人員也很多,每個人的能力、對操作系統的理解程度以及使用習慣的不同會造成Linux服務器的配置存在很大的差異,有無可能通過一個集中式管理工具結合行里的運行規范來實現自動化部署并且可以根據已有古規范找出個與規范之間的差異并消除
很多銀行的開發測試運維的環境都不完全一樣,這就有在開發測試環境中可用但到了生產環境會出現問題的風險,希望通過工具來統籌管理開發、測試和運維平臺上的Linux環境的部署,應用軟件的分發以及合規性一致性的檢測.
很多銀行基于Linux的系統都是以項目(業務)的方式進行劃分的,每個項目都會有相應的軟件中心和數據中心的技術人員負責應用軟件和操作系統的開發、部署、上線、維護等工作,為了完成這些工作需要給相應的用戶賦予相應的權限以避免越權操作,希望解決在大規模Linux使用環境下用戶管理和權限劃分的問題.
傳統的Linux運維管理需要登錄到服務器上手工或者通過執行腳本的方式來進行,對于一個項目而言,通常幾臺甚至幾十臺服務器的配置和運行環境是完全一樣的,希望能實現像操作一臺服務器那樣操作一組服務器,執行一次操作就可以對該組內所有服務器都生效,即對一組服務器可批量進行升級、部署、管理和維護的工作.
解決錯綜復雜的運維問題,出路在人員、流程、工具三方面一起下功夫,構建標準,先實現手工標準化運維.接下來,利用現代化IT技術,逐漸減少運維人員的工作量,構建自動化運維.在實現了自動化運維以后,就需要構建集中管理,實現集中化.最后,隨著企業IT水平的不斷提升,利用CI/CD等技術,構建devops.
參考Gartner IT基礎架構和運維成熟度模型中的技術維度,紅帽根據在Linux領域長期的經驗,提出OS運維成熟度模型.OS運維成熟度越高的企業,其IT架構越敏捷、 Time To Market越短、業務競爭力越強.
根據不完全統計,在傳統行業里,IT成熟度較高的用戶,其OS成熟度大多處于三級,也就是基本實現了運維制度化、規范化,但仍處于半手工運維的階段.
而作為對IT運維要求更高的金融行業,顯然需將OS運維成熟度至少提升到四級,實現集中化;甚至五級,也就是自動化和運維開發一體化.
客戶理想的自動化平臺是:首先要有一個自動化運維門戶(unifiedportal),理想狀態是這個門戶與客戶的云門戶統一對接.其次,當IT系統出現問題/需要變更的時候,自動/手動觸發處理工單(這個工單系統符合ITIL流程 ,與行里現有流程和審計對接).
這個工單IT主管可以看到,審批以后、自動執行,把問題修復.比如:linux的根分區不夠了,自動觸發預運維平臺的對應操作是自動擴容,但需要自動觸發創建工單.工單到IT主管那,批準之后,自動擴容.
如果按照上一小節的“OS運維成熟度模型”來衡量該架構,上圖這個架構不僅實現了自動化,也實現了集中監控.因此其等級至少為4+,接近于5級.
構建自動化運維平臺中,紅帽的左膀右臂分別是Ansible Tower和Satellite.
Ansible Tower作為一款優秀的自動化運維工具,它有四大特點:
金融行業
satellite則在系統部署、訂閱管理、軟件管理、配置管理四方面幫助客戶實現IT運維標準化.
紅帽云管平臺Cloudforms,可以與AnsibleTower和Satellite對接,實現云平臺管理與運維統一.
那么,IT自動化運維平臺架構如何落地?
首先我們先看自動化運維平臺的架構:從下往上:IT環境、基礎架構管理、數據展示層.
IT環境層,指的是自動化運維平臺需要納管的對象.在一個復雜的數據中心中,運維絕不是僅僅針對一種操作系統,或者一種型號的服務器.而是整個數據中心,包括(但不限于):
1.系統層面:從Linux(物理機、虛擬機、云環境), Unix,到Windows.
2.虛擬化平臺:VMware、Docker、Cloudstack、LXC、Openstack等.
3.商業化硬件:F5、ASA、Citrix、Eos以及各種服務器設備的管理.
4.系統應用層:Apache、Zabbix、Rabbitmq、SVN、GIT等.
5.商業化軟件如:Openshift、Ceph、Gluster、Oracle等.
6.云平臺:支持的云平臺有AWS、Azure、Cloudflare、Red Hat CloudForms、Google、Linode、Digital Ocean等.
基礎架構管理層
基礎架構管理層的職責分為三大塊:集中監控、運維自動化平臺、內控平臺.
1.集中監控平臺包含平臺(如虛擬化平臺)監控和應用(如oracle數據庫)監控.
2.運維自動化平臺,它是基礎架構管理層的核心組件.它需要完成四類操作:作業調度、自動巡檢、批量發布、容災管理.也就是說,運維自動化平臺必須能夠驅動IT環境層的七種對象.
3.內控平臺,主要負責合規控制.它完成:合規管理、風險管理、用戶管理、訪問控制.
整體而言,在基礎架構管理層中,運維自動化平臺是最關鍵的,它是管理層的發動機.而集中監控平臺和內控平臺則是輔助自動化平臺的.前者負責運維自動化的全生命周期管理,后者負責運維自動化平臺的合規和安全.
服務管理層
服務管理層通常通過ITIL等架構理念,與客戶的規章制度與業務流程匹配,需要做定制化開發.目前絕大多數金融行業用戶都有流程,只是體現在紙面上.需要做的是將紙面上的流程IT工具化.
數據展示層:
主要是面向企業內部IT和非IT部門的內容用戶.做統一的門戶.過這個統一的平臺,內部用戶可以訪問這個平臺.通常情況,運維門戶會與客戶的云門戶統一.
金融行業客戶自動化運維平臺實施步驟
任何一個大型平臺,無論是混合云平臺,還是自動化運維平臺,它們的構建都不是一蹴而就的.都需要客戶結合自身的情況,分步驟、分階段走.
下面我們看一下自動化運維平臺常見的幾類工作,按照OS運維成熟度模型進行評估,六類工作都能實現自動化的話,IT成熟度可達到接近于5級的水平.
在這六類工作中,按照難易程度,大致可以分為三類:
因此,針對于目前完全沒有進行自動化構建的小型金融客戶,建議從批量作業自動化、自動巡檢開始,先通過這兩步,解放運維人員的生產力;對于在自動化運維有過一定探究的中等規模銀行,可以考慮實施軟件批量分發部署和配置與版本管理;對于IT程度較高的大型商業銀行,需要考慮的問題是,如何實現應急故障檢查和容災管理的自動化.
實現六類工作與構建服務管理層和展現層并不沖突.流程、工具、人員三者必須同步進行.當然,在早期,服務管理層可以考慮先使用人工的方式.隨著IT規模的增加以及管理要求的提高,再將紙質流程IT工具化.
剛才所講的內容我放到公眾號上了,大家有興趣可以看,謝謝大家.
文章來自微信公眾號:云計算開源產業聯盟