《混合云架構備受青睞,但是實施過程要避開哪些坑?》要點:
本文介紹了混合云架構備受青睞,但是實施過程要避開哪些坑?,希望對您有用。如果有疑問,可以聯系我們。
混合云已經逐漸成為系統架構設計師的架構設計選擇而變得越來越流行,為什么架構師會越來越多地選擇混合云架構呢?
回答這個問題之前,我們先從公有云的優勢入手進行逐步分析,現在各種企業都在越來越多地使用公有云了,使用公有云主要是基于以下幾個需求:
現代企業的業務往往都需要IT基礎設施快速響應業務的變化 ,公有云非常適合于快速應對流量突發增長的市場活動所帶來的峰值.
現實中,為了支持市場活動等突發需求必須對于各個層次的資源都準備的匹配容量的資源,這無疑會增加整體成本,公有云按需付費恰好可以補足傳統IDC的這個弱點.
傳統的IDC擴容往往會遇到一系列因為服務器配置和環境差異導致的問題,公有云使用虛擬化技術恰好可以解決這些問題.
然而,公有云還有其無法解決的一些問題,正是這些問題導致架構師們不完全使用公有云,而是在一定程度上保留原來的IDC,這些問題點主要有:
一方面使用公有云可以降低IT系統的整體硬件和運維成本,這是它的優勢,但是從另一方面來講,從傳統的IDC完全地遷移到公有云上是需要很大的遷移成本的,這包括為了適應公有云平臺而對系統進行改造的人工成本,平滑遷移的時間成本,尤其是對于復雜系統來講,這些改造、遷移成本是非常高的.
不可否認的是有些時候公有云會出現問題,那么架構師就有必要把這種穩定性問題導致的數據安全問題考慮在內;另外一方面,某些企業對于核心數據不希望完全托付給公有云,不希望被公有云完全綁定,這也是很正常的需求.
某些特殊軟件系統是軟硬件配合的,如某些行業的硬件加密系統,其軟件依賴于USB、串口等連接的特殊硬件來運行,而公有云的是不可能讓客戶連接這些硬件的.再比如許多企業使用范圍較廣的基于共享存儲的ORACLE集群系統RAC、基于共享存儲的SAP等企業中常用的需要存儲系統的軟件,在公有云上還沒有非常成熟的解決方案.
對于某些行業來講,數據或內容是在線下集中產生的,如拍攝現場、生產車間等場景下,數據產生之后希望可以使用公有云的計算能力、分發能力等,這時候只使用IDC或者只使用公有云都無法實現優雅的系統架構.
正是由于上面所述的各種問題,架構師正在越來越多地采用混合云架構模式.我們把混合云架構定義為:公有云+IDC.混合云架構,既可以充分利用公有云的彈性計算、按需計費的特點,將前臺應用相關的計算、緩存節點遷移到公有云上,同時把不適合于公有云的系統核心組件保留在IDC中.
遷移成本方面,可以換取架構變更的時間緩沖,留待系統重構的時候再進行架構變更,而又可以立即享用公有云的優勢;我的一個客戶,想要把系統平臺遷移到公有云上,需要考慮盡量不影響業務的狀況下進行遷移,但是累積歷史數據量比較大,但是公共互聯網的傳輸速度往往沒法保證,在沒有高質量的網絡通道的狀況下很難進行大批量的數據遷移.
數據安全方面,把核心數據留在IDC中,以保障核心數據的安全,只把需要彈性計算的組件放到公有云中;在過去兩年當中,幾乎所有的公有云都出現過大規模的故障,這也逼著系統架構師在進行系統架構設計的時候,必須要考慮公有云的容災問題,而服務器端應用和數據庫之間必然要求有高質量的通道才能支持正常運行.因此很多企業希望把數據庫等核心系統組件留在原來自己的數據中心里,用自己的物理服務器來運行,這樣也可以更好地支持容災切換.
特殊硬件方面,把需要連接特殊硬件的服務器放置在IDC中,前端的軟件系統雖然運行在公有云中但是依然可以通過API等服務使用這種組件.我的一個客戶是一套高安全要求的軟件系統,它依賴于是一種硬件加密狗插在服務器上才能運行,公有云上就無法支持這種模型,所以該客戶只好保持原來的數據中心服務器,而把前端服務器遷移到公有云,這時候就必然要求前端服務器和加密服務器之間有高質量的可靠的連接通道.
一個客戶是現場拍攝產生大量數據內容,使用公有云的計算資源進行渲染,并使用公有云的CDN資源進行分發.這也要求在現場和公有云間有大容量的、有帶寬保證的傳輸通道.由此可見,混合云在企業上云的過程中是一種非常有意義的架構,它可以在一定程度上讓企業同時使用公有云的優勢,又擁有傳統IDC的特點,不但擁有公有云彈性計算、峰值靈活擴展的特點,同時具備核心數據安全、可以使用特殊硬件的特點.
混合云架構雖好,但是在實施過程中卻也有不少需要注意的問題,公有云+IDC的混合云架構要想順暢地使用就必須要有高速可靠的網絡連接,可以說,高速可靠的網絡連接是成功實施混合云的最重要的保障之一,否則會引發各種的應用故障.混合云架構所需要的網絡連接,行業里面又有兩種不同的實現模型:一是使用公共internet來進行互聯,另外一個是使用專線網絡來進行互聯.
使用公共internet進行互聯一般都會配合ipsec vpn等虛擬私有專網技術來使用,否則會遇到極大的安全隱患.但是只要使用公共internet的方式,不管是否使用ipsec等vpn技術,幾乎肯定都會遇到的問題是,公共internet會在網絡使用高峰時產生擁塞,這時候就會出現帶寬不足、延時增大的問題.因此通過公共internet互聯來實現混合云的網絡連接的方式是無法可靠地保障混合云軟件系統的帶寬需求和延時需求的.
另外一種使用專線網絡進行互聯的方式是現在企業進行混合云架構設計的主要模型.這種架構是必須要求公有云服務商給予支持的,否則用戶無法獨立完成連接到用戶的公有云中的私有網絡,自然就無法實施混合云.值得高興的是現在市面上大多數的著名公有云服務廠商都提供了類似的支持.各大公有云廠商對其產品的有不同命名,像阿里云叫高速通道,騰訊云叫專線接入(DC/direct connect),AWS叫做AWS direct connect,Microsoft Asure叫做Asure ExpressRoute,其它的云服務商有些有公開的產品定義,有些還沒有.不管叫什么名稱,這些產品的本質都是為了最終實現混合云的專線網絡連接.
這些公有云的廠商在幫助客戶實施混合云的時候,一般只是負責網絡連接進入公有云的界限之后的問題,另外一個端點也就是在IDC內部,大多數情況下企業是會自建私網的,自然也可以管理自己的私網.在IDC和公有云互聯的整個鏈路上,它們兩者的外面一般是由第三方運營商來負責實施,這個互聯鏈路,有時候是同城的,有時候是跨省市甚至是跨國的.這時候網絡質量就是衡量這種專線網絡的重要要素.
使用專線網絡連接,最主要的就是兩個方面的保障:一是延時方面的保障,二是帶寬方面的保障,這兩者對于大多數主要關注IDC內部應用架構的架構師往往意識不到它們的重要性.Tcp/ip的基礎是路由器,所有的路由器都是基于存儲轉發模式的,正是由于這個基本原理,所以就決定了internet必然會發生抖動、波動.對于最終用戶的服務問題影響不是太大,無非是刷新一下、重試一下就可以解決了,但是對于服務器中運行的服務端應用程序之間的互相訪問就是非常嚴重的問題了,因為它們往往都是對于延時抖動很敏感的,而延時抖動又會直接影響TCP協議的速度.
我就曾經在客戶實施混合云的時候遇到了因為延時和流控問題而產生的cifs(文件共享協議)速度無法穩定高速,表現為遠程拷貝的速度忽上忽下,無法達到要求,進而導致混合云實施失敗的問題,最后不得不更改成完全使用犀思云提供的專線通道,就拷貝速度幾乎總是可以達到理論最高速度.
犀思云構建了CXP云交換平臺,混合云服務通過云交換平臺所連接的公有云,數據中心以及云交換平臺本身提供的DCI、ECI等網絡連接服務,可以幫助企業輕松快速搭建自己所需要的混合云架構;包括兩地三中心、公有云加物理服務器托管、公有云加企業私有云、公有云加托管云、公有云加裸機云等.
架構圖如下:
云交換平臺基于物理光纜和DWDM技術構建的全球專網,可最大程度的保障網絡最低延遲和高穩定性,同時不受網絡高峰時段影響,為企業提供持續穩定的網絡服務保障.基于MPLS技術,將網絡多重隔離加密,使每用戶網絡獨立且互不影響,并且支持多級別SLA選擇.
與話題無關,對于成規模的系統運維,最關鍵的一點是:自動化和標準化,想盡一切辦法地去把運維工作自動化和標準化.比如應用部署、應用監控等都有大量的實踐進行自動化和標準化.比如,Docker為什么這幾年這么火熱,就是因為這是一種可以讓部署自動化和標準化的技術.
監控是運維工作中非常重要的一個工作,有基礎設施監控,也有業務監控,但是由于每家公司的業務都有其不一樣的地方,所以很難有完全適合于所有公司的全鏈監控方案,對于基礎設施監控方面,有傳統的nagios、zabbix等,也有openfalcon等新一代的監控方案,更多地需要各公司自行研發.犀思云的業務監控系統也是基于自己的需求基于開源監控系統做了大量的研發.
1醫網,犀思云為其提供從上海某數據中心連接到阿里云上海區的網絡連接服務,數據庫等核心組件運行在數據中心的服務器中,擴展性的前端服務運行在阿里云里.京東、七牛云等,等犀思云為其提供了多個數據中心的互聯鏈路,帶寬達數十G.
犀思云會開放業務的自助化服務和API接口,已經提供監控、告警、測速等服務.犀思云連接了國內大公有云服務商(例如阿里云、騰訊云、百度云、華為云、金山云、UCloud);以及全國的數十家T3+數據中心,在此基礎上持續覆蓋,犀思云未來會開放技術開放的平臺,讓有技術能力的公司和個人作為賣方提供混合云的能力輸出.
對于數據保密有極其嚴苛的要求,對于可靠性有極其嚴苛的要求,不需要對計算能力進行彈性擴展的企業不適合于公有云+私有云.
基于對客戶的需求調研及上云遇到的問題,我們認為混合云一定會長久存在.主要就是因為前面說的,純粹公有云所遇到的問題,是不太可能在短期內消失的.
網絡的抖動產生的根本原因是鏈路的變化,所謂鏈路的變化包括鏈路上的帶寬擁塞,也包括鏈路上設備的負載變化,這些因素與延時的增加交織在一起就會產生明顯的網絡抖動.對于TCP協議來講,它的帶寬是協商出來,而抖動就會非常明顯地影響TCP的帶寬.
這個問題更多的是軟件系統架構的問題,軟件系統架構是基于基礎設施架構的,在一個可靠的基礎設施架構之上,軟件架構才有依托.業務切換和災備正是混合云所要實現的目標,至于具體如何實現是需要根據每家公司的軟件架構進行確定,一般都離不開數據庫的復制技術(ORACLE/MYSQL都有)、前端控制導流技術(LOADBALANCE/DNS/HTTPDNS)多云接入,我們現在已經不少客戶提供了解決方案.API現在還沒有開發,計劃今年內會提供一定的API開放.
不同的云服務廠商在安全方面差異很大,防DDOS必須的兩個前提:1、足夠大的帶寬;2、高效的流量清洗(不正常流量的篩選).所以對于不同的廠商還是得實際地用過才知道,據我們所知,現在有第三方廠商正在計劃把高防DDOS業務作為一種服務來提供,犀思云也計劃依托于自身的網絡優勢整合這方面的服務,相信以后普通用戶也可以享受到高防服務.VPC權限控制主要依托于每個廠商對于帳號、權限方面的產品需求的分析和定位.
犀思云不提供以計算和存儲為主要目標的大規模的云服務,所以不太涉及虛擬化相關的熱補丁等問題.
犀思云的專線通道不是基于公共互聯網的傳輸服務,而是基于物理光纖等專線網絡的私有網絡通道,所以不涉及到DNS等,可以理解為一個跨數據中心、企業、云的大范圍局域網.
需要,我們的服務就是基于專線的,所幸我們接入了很多的數據中心,所以對于客戶來講,如果恰好用了合作的數據中心,就不需要額外地架設專線了.
王正艷,犀思云計算科技有限公司CTO,負責技術團隊管理工作及公司CXP平臺架構設計、開發等工作.上海交通大學計算機科學與技術專業工學學士,華東理工大學工商管理碩士.從事研發管理工作十余年,對技術研發管理有一定的心得,對于SDN、大型分布式系統等領域有濃厚的興趣和豐富的實踐經驗.
文章來自微信公眾號:高效開發運維