《一個可供創業公司參考的云網絡可視化與安全解決方案》要點:
本文介紹了一個可供創業公司參考的云網絡可視化與安全解決方案,希望對您有用。如果有疑問,可以聯系我們。
作者簡介:
張天鵬(Neeke),云杉網絡聯合創始人兼CTO
負責公司的產品和技術研發工作,曾任美國 Juniper 公司高級研發經理,負責當時世界最大防火墻 SRX 的研發.專注于 SDN、NFV 和云計算領域的相關產品和技術,對于 SDN 在云計算業務中的實施和應用有豐富的經驗.
一、背景介紹
在這幾年和各個云的對接以及面向我們的客戶、合作伙伴,幫他們解決網絡故障檢修以及提供網絡的整體方案過程中,我們深切的感受到如果想給一個云提供一個高質量的 SLA 是非常不容易的.
今天我們聚焦在一個很小的點,即如何用 Flow 的技術去做網絡的虛擬化、可視化并提高運維效率以及解決云的內網安全的問題.
二、業務云化的三大難題
云的網絡實際上是從傳統的業務網絡不斷的向云端遷移和演進的過程.相比傳統 IT 架構而言,云非常大,要解決網絡虛擬化必須引入 SDN、OpenFlow 或者各種比較復雜的技術.事實上,從邏輯上,數據中心、云平臺、租戶網絡是緊密耦合在一起的.
舉一個例子,兩個 VM 的通訊有可能是在一個服務器內部,也有可能跨了機柜甚至數據中心等等,但是租戶并不關心這個過程,他只關心網絡的性能是否OK、連接是否正常.
但云的運維者必須非常了解這個過程,否則你就沒有辦法做 trouble shooting.由于云規模的“大”隨之而來的性能、高可用的難題便浮現出來,具體表現為:
在長時間跟很多云溝通以后,大家形成了這樣一個共識:在設計云的網絡時,除了生產網絡還應該考慮監控網絡.
實際上監控網絡后端的核心是一個分析平臺,通過探針采集把云平臺各種流包能夠抓取過來,按照分析需求把采集到的流量導入相應的分析集群.但是不同的探針點在云平臺里的部署難度是不一樣的:
在我看來這是一個探針部署的問題,探針的部署應該是非侵入式的,最好是一個開源、開放的框架,這樣 load 會比較輕.
三、云網分析的設計理念
那么從運維的角度來說,目前這樣一個 Scale 比較大的網絡分析的要求有哪些?
1. 云網分析的需求
2. 技術選型
在不改變原有生產網絡的前提下部署監控網絡的難點不一而足,具體到我們經歷過的 Case 有以下四個方面需要重點考量.
我們選擇用 Flow 的方式來處理,根據我們的實踐 Flow 做云網分析有較大的優勢.并且我們通過分析從 Flow 中采集到的數據,發現很多有意思的事情.
用 Flow 做云網分析的過程中,一個很關鍵的技術點是探針.
四、 軟件定義探針
通過 SDN 的能力我們把智能探針(Traffic Intelligence)部署在生產網絡中,使用 Flow 的技術我們能及時發現哪些流量有問題,一旦發現有問題便拎出它的包再放大——采用 DPI 分析.整個過程不看用戶的 payload 文件而只看 Packet “指紋”特征,這便是我們的 SDN.
這個是我們的一個軟件架構,最底層是 Flow 的采集,這其中有一個緩存,在上面是數據關聯,實際上數據從采集一直到展示出來是一個層層處理的過程.
當數據處理到達 Elastic Search 以后,我們對上提供 Restful API,這樣用戶自己可以開發應用或者第三方的合作伙伴一起開發應用,從而更好地利用我們的分析結果.
說了這么多,還是舉個例子證明一下吧.首先是我們與合作伙伴對上海一家客戶幾個月的 Flow 數據做了點分析.
在這些 Flow 數據上做了大概 22 種攻擊流量建模,得出來的其中一個結果就是這樣.這個圖下半部分大家能看到紅線的數據是 0、藍線是有數值的,這股流量只進不出,說明這是網絡攻擊.大家再對比一下這幅圖中間部分的正常流量曲線數據,實際上底部所示的攻擊流量是非常的小.
這其實更說明了我們 Flow 分析的價值,因為在一個云的內部網絡流量非常大,而我們能從如此巨大的流量(上百G)中發現細微的流量(幾個包、1000 多個字節)異常.經過我們這么一查,用戶的問題就找到了.
綠盟基于我們的分析平臺把各種安全模型全部統計出來,最典型的像檢測 DDOS 攻擊和惡意掃描.
但是這兩種攻擊是完全不一樣.DDOS 攻擊流量大很容易被發現,而惡意掃描通常都是非常小的一個包,比如一個云網絡里面有三臺虛擬機給每個人的遠程桌面(3389 端口)發了一個包,雖然只有三個包,但是這種行為很惡劣,在這種情況下把它檢測出來其實難度還是比較大的.