《專家觀察 | 張輝:“智能網(wǎng)絡(luò)構(gòu)建高效云計(jì)算平臺(tái)”》要點(diǎn):
本文介紹了專家觀察 | 張輝:“智能網(wǎng)絡(luò)構(gòu)建高效云計(jì)算平臺(tái)”,希望對您有用。如果有疑問,可以聯(lián)系我們。
由工業(yè)和信息化部指導(dǎo),中國信息通信研究院主辦,業(yè)界知名組織云計(jì)算開源產(chǎn)業(yè)聯(lián)盟(OSCAR)承辦的2017全球云計(jì)算開源大會(huì)于4月19日-20日在北京國家會(huì)議中心順利召開.本文為本屆大會(huì)嘉賓分享的大會(huì)演講速記內(nèi)容,敬請瀏覽.
嘉賓介紹:張輝
公司職務(wù):Mellanox公司亞太區(qū)解決方案營銷總監(jiān)
大會(huì)演講速記
非常感謝在座各位和主持人,今天的演講題目是智能網(wǎng)絡(luò)高效構(gòu)建云平臺(tái).
我們邁絡(luò)思是做網(wǎng)絡(luò)的,我們起家是做高性能計(jì)算的InfiniBand高速網(wǎng)絡(luò),之后我們以太網(wǎng)也做到了端到端,目前大家在數(shù)據(jù)中心用的比較多的還是萬兆居多.
我們現(xiàn)在做25G及以上的網(wǎng)絡(luò)是我們絕對領(lǐng)先的技術(shù),在早期40G網(wǎng)絡(luò),90%以上40G網(wǎng)絡(luò)都是我們網(wǎng)絡(luò),新的25G、100G也占據(jù)了市場的絕大部分份額,甚至下半年我們會(huì)出200G以太網(wǎng),目前可以說在網(wǎng)絡(luò)方面沒有人能超過我們.
其實(shí)說到云計(jì)算,相信大家都是專家,從最開始做虛擬機(jī)一直到現(xiàn)在落地,包括今天這么大會(huì)議來講,相信對廣大用戶也好,企業(yè)也好,都是可接受的,并且在實(shí)施中.那么邁絡(luò)思一個(gè)做網(wǎng)絡(luò)的供應(yīng)商,我們怎么打造一個(gè)高效云平臺(tái),這就是我今天要講的東西.
大家知道做云無論哪個(gè)階段,第一步是做虛擬化,相信大家都體驗(yàn)到虛擬化好處了,但是所有東西都是雙刃劍,虛擬化的問題是會(huì)帶來其他的一些問題,比如性能會(huì)不可靠.虛擬化做云技術(shù)的時(shí)候我們總結(jié)了幾個(gè)問題.
第一是低效的網(wǎng)絡(luò)協(xié)議,比如TCP/IP是比較成熟的協(xié)議,起源于廣域網(wǎng),TCP/IP是內(nèi)核態(tài)的協(xié)議,對其所有處理要經(jīng)過CPU做處理,它會(huì)有協(xié)議轉(zhuǎn)換的消耗,但是在當(dāng)時(shí)那個(gè)年代網(wǎng)絡(luò)速度沒有那么快,TCP/IP協(xié)議延遲.
如果大家熟悉的話,差不多是在220—250微妙延遲,微妙級延遲對于我們早幾年的時(shí)候沒有感覺,但是在研究或者從今天開始,SSD的普及,高速網(wǎng)絡(luò)的普及,包括延遲的普及,大概我們會(huì)發(fā)現(xiàn)慢慢的200多微妙延遲會(huì)影響整體效能,為什么?
大家知道現(xiàn)在SSD延遲也在微妙級別了,網(wǎng)絡(luò)延遲一般也是在微妙,我們的網(wǎng)絡(luò)是納秒級別,如果大家發(fā)現(xiàn)網(wǎng)絡(luò)卡在幾十微妙的時(shí)候,TCP/IP協(xié)議在200微妙以上,這時(shí)候大家發(fā)現(xiàn)真正影響性能的瓶頸就在協(xié)議本身,所以TTP協(xié)議未來會(huì)在高性能環(huán)境里面,TCP/IP會(huì)變成瓶頸,所以就需要RDMA跑在你的以太網(wǎng)上提高效率.
大家知道在做虛擬化以后,有一個(gè)問題是通訊怎么辦.從開始從零到一,用虛擬交換機(jī)解決從零到一,讓它工作了,但是效率怎么樣?
你真正部署以后,虛擬交換機(jī)會(huì)變成你的瓶頸,它的性能沒有那么高,會(huì)變成瓶頸.SR-IOV就把計(jì)算虛擬化和我們網(wǎng)絡(luò)做了很好的結(jié)合,上層虛擬機(jī)直接和底層網(wǎng)卡做映射,這樣不經(jīng)過虛擬機(jī)和內(nèi)核,效率相當(dāng)于訪問了我的設(shè)備,虛擬化懲罰不到了.
另外大家都知道DPDK是很流行的開發(fā)語言包,DPDK初衷也是類似的東西,因?yàn)門CP/IP也是制約了系統(tǒng)的性能,我們通過PMD可以更直接,更方便訪問我們設(shè)備,我們會(huì)讓上層DPDK訪問的時(shí)候讓效率更高效,這樣同樣達(dá)到裸機(jī)的效果.
我們通過DPDK+PMD的結(jié)合,可以讓效率進(jìn)一步提升.大家可以看到在40G網(wǎng)絡(luò)里,我們的鏈路可以到35.7GB,在云環(huán)境里,用了VXLAN卸載以后加上各種技術(shù),到了37.5,同時(shí)不需要額外的CPU資源.
這時(shí)候大家會(huì)想到一個(gè)問題,我們一直講云計(jì)算,最重要的就是計(jì)算,在沒有采用這個(gè)技術(shù)之前,大家會(huì)發(fā)現(xiàn)你在封裝、解封裝甚至協(xié)議處理的時(shí)候,會(huì)消耗你相當(dāng)大的CPU,我們有一個(gè)分享的數(shù)據(jù).
我記得去年的時(shí)候,有一個(gè)廠商提到在萬兆環(huán)境下,用來做包處理的時(shí)候,會(huì)消耗CPU30%—40%,在這種情況下,能夠用來做計(jì)算的就非常有限了.所以用了VXLAN之后,會(huì)CPU釋放出來,不需要CPU,可以將35%的CPU釋放出來,如果沒有用VXLAN做的話,CPU會(huì)消耗35%,用了VXLAN以后,CPU不再消耗,這也是我們主要的貢獻(xiàn).
還有一個(gè)叫ASAP2,ASAP大家比較熟,是盡可能快,我們ASAP2從字面來看我們是可以快到極致,這是我們自己開發(fā)新的技術(shù),所謂加速交換包處理.在這個(gè)里面我們有幾種方式,時(shí)間原因我只介紹幾個(gè),第一個(gè)是ASAP2卸載,我們把上層虛擬機(jī)和底層硬件做溝通,所有包處理,所有協(xié)議處理,都是通過網(wǎng)卡硬件本身直接做工作,這樣效率得到提升.當(dāng)然還有可以部分來做,比如有控制部分,還是做傳統(tǒng)通過內(nèi)核來控制,真正大量消耗CPU,這些我們都可以進(jìn)行解決.
另外是DPDK加速的OVS,在我們認(rèn)為的世界里,相當(dāng)快的速度了,和ASAP2比,哪個(gè)孰高孰低?大家看到在第一個(gè)場景是1流,沒有用XVLAN,幾乎不消耗CPU,還有一種情況是2000流,用VXLAN可以到25MPPS,大家可以看到這兩個(gè)差距很大,同時(shí)CPU消耗沒有,但是在DPDK里還是要消耗CPU的,只比之前好一些,但是還是需要四個(gè)核.所以我們真正在云計(jì)算世界里,讓計(jì)算做CPU該做的事.
下面看一下怎么加速我們的網(wǎng)絡(luò),因?yàn)閯偛潘卫蠋熞蔡岬酱鎯?chǔ),現(xiàn)在存儲(chǔ)是不可避免的話題.所謂的網(wǎng)絡(luò)三大件,網(wǎng)絡(luò)本身我們做得很好,同時(shí)把CPU也能夠釋放CPU資源,我們再看存儲(chǔ)有什么變化.我們做交換機(jī)實(shí)際上是這個(gè)領(lǐng)域比較成熟,有人說是紅海,我覺得不是紅海,整個(gè)新的架構(gòu)和新的技術(shù)、應(yīng)用出現(xiàn),會(huì)對網(wǎng)絡(luò)提出新的要求,這也是一個(gè)新的變化.
我們的交換機(jī)是從芯片和交換機(jī)本身都是我們自己的,和市面上看到絕大多數(shù)的交換機(jī),第一個(gè)是高帶寬到極致,100G,低延遲在200納秒,還有包括在丟包問題.
我相信大家回去看一下,你們交換機(jī)做的時(shí)候都有丟包問題,但是我能告訴大家,我們交換機(jī)是不丟包的,在存儲(chǔ)里面或者在云計(jì)算里面是能夠提到效率很大的保障.大家知道丟包不是說不能接受,而是說會(huì)使你發(fā)了包要重新發(fā),意味著對方接收的時(shí)候需要重新排列了組合,效率會(huì)降低,所以不丟包是最樸素的要求.
剛才提到存儲(chǔ),我們看一下OpenStack存儲(chǔ)的加速,還是數(shù)據(jù)說話,可以看到TCP/IP網(wǎng)絡(luò)和RDMA加速以后性能有什么變化.
我們可以看到同樣網(wǎng)絡(luò)下,性能會(huì)有6倍提升,其實(shí)6倍不止.為什么?如果你的PCI足夠高的話,比如PCI3x16、32性能會(huì)進(jìn)一步提升.另外在Ceph,大家看到用RDMA的時(shí)候性能也有三倍的提升.
另外在EC里,它會(huì)消耗CPU,我們會(huì)把消耗CPU做運(yùn)算的放在網(wǎng)卡里做,同時(shí)在分布式架構(gòu)里讓你的性能得到提升,成本降低的同時(shí)保證安全性.
前面講了對網(wǎng)絡(luò)的加速,對存儲(chǔ)的加速,對CPU釋放,再講一下落地的東西,我相信所有的東西,落地一定要有易用性或者開放性.
我們網(wǎng)絡(luò)數(shù)據(jù)中心是開放網(wǎng)絡(luò),大家可以看到我們提供的文件,也可以在上面跑不同的操作系統(tǒng),利用我們高性能,低帶寬網(wǎng)絡(luò)運(yùn)行在這個(gè)環(huán)境里.
這里面有幾個(gè)抓圖,這是我們的界面,因?yàn)槲覀兒蚈penStack結(jié)合已經(jīng)很成熟了,所以我也不講太多了.
最后有幾個(gè)案例,大家知道微軟從2012的時(shí)候就開始支持我們的RoCE了,利用RoCE在同樣的硬件情況下,性能和帶寬有兩倍提升.
還有在騰訊,我相信關(guān)注云的應(yīng)該在春節(jié)前,騰訊發(fā)布了新聞,在整個(gè)云計(jì)算排序里面,騰訊拿了第一名,第一個(gè)是比去年成績提高了5.8倍,單節(jié)點(diǎn)性能提高33倍,在騰訊云里面有騰訊領(lǐng)頭的,也有我們和IBM幫助騰訊的,這里面用的就是我們100G的網(wǎng)絡(luò).
文章來自微信公眾號:云計(jì)算開源產(chǎn)業(yè)聯(lián)盟
轉(zhuǎn)載請注明本頁網(wǎng)址:
http://www.fzlkiss.com/jiaocheng/4122.html