《有種速度讓你望塵莫及》要點:
本文介紹了有種速度讓你望塵莫及,希望對您有用。如果有疑問,可以聯(lián)系我們。
作者介紹:
黃浩宇
現(xiàn)就職于騰訊社交網(wǎng)絡運營部,負責SNG社交網(wǎng)絡業(yè)務移動類產(chǎn)品的業(yè)務運維工作,如QQ、Qzone業(yè)務優(yōu)化及開發(fā).
此前任職于阿里巴巴,負責天貓商城活動類業(yè)務的運維工作,如天貓雙11,天貓周年慶等.
移動互聯(lián)網(wǎng)發(fā)展那么快,運維技術(shù)也要適應業(yè)務的變化啊,這次小編找了騰訊牛人介紹的手機QQ和手機Qzone的速度優(yōu)化實踐.
我們堅信不同垂直領(lǐng)域的運維分工會越來越不同,如何能在不同的業(yè)務形態(tài)上,利用運維技術(shù)和數(shù)據(jù)為業(yè)務帶來更大的價值,將是我們下一步探索的重點方向.
對用戶來說,最直觀的感受就是APP的等待時間,所以我們首先要分析清楚APP到底在哪里讓用戶等待,耗時在哪里.
等待時間無非就以下三個:
· Server處理耗時
· 網(wǎng)絡傳輸耗時
· 客戶端數(shù)據(jù)處理/UI渲染耗時
QQ/Qzone等產(chǎn)品由于已經(jīng)有多年的Server端優(yōu)化,大部分數(shù)據(jù)都是直接讀寫nosql數(shù)據(jù)庫,接口耗時基本都在30-120ms,優(yōu)化Server實際的收益并不會很大.
下面主要介紹后兩個方向上的優(yōu)化實踐.
首先我們需要統(tǒng)計數(shù)據(jù)在網(wǎng)絡傳輸?shù)暮臅r情況,才能知道優(yōu)化網(wǎng)絡傳輸有多少價值
網(wǎng)絡耗時通過TCP協(xié)議的三次握手在服務端進行統(tǒng)計,優(yōu)點是簡單快速低成本,具體方案如下:
圖2.1 從服務端測網(wǎng)絡延時
通過實際數(shù)據(jù)統(tǒng)計,在不跨網(wǎng)訪問的情況下(信號正常):
· 4G耗時約30-100ms
· 3G耗時約 200-400ms
從速度結(jié)果上看,目前主流的3G/4G網(wǎng)速還是相當不錯的,但是由于移動網(wǎng)絡的復雜性,從QQ和空間的業(yè)務返回碼監(jiān)控上還是發(fā)現(xiàn)有不少問題:
· 跨網(wǎng)訪問
· 跨地區(qū)訪問
· 某些小運營商劫持等
下面分享下手機Qzone在接入組件的優(yōu)化策略
簡介:WNS,手機QQ空間APP到服務端通信框架,支持tcp、http協(xié)議
優(yōu)點:
· 減少DNS請求耗時
· 避免DNS域名劫持
· 單個連接并發(fā)多個數(shù)據(jù)請求減少連接數(shù)的開銷(相對http)
· 私服協(xié)議加密安全;
缺點:由于不走域名,首次連接需要額外的策略來找到合適的接入點,并且需要有重定向能力
圖2.2 私有協(xié)議直接IP長連接
世界上最遙遠的距離就是你在聯(lián)通,而我在電信.在復雜的移動網(wǎng)絡環(huán)境下,我們需要優(yōu)化網(wǎng)絡的接入策略避免跨網(wǎng)/跨地區(qū)訪問.
使用移動網(wǎng)絡時我們先識別用戶的運營商,同時起4個連接,多個接入IP+多個端口+2種協(xié)議,再同時使用2種協(xié)議和多個端口是為了避免有些本地運營商的限制,使用第一個連接上的連接(見圖2.3)
圖2.3 首次并發(fā)嘗試連接
使用WIFI的用戶首次連接會優(yōu)先使用域名嘗試連接.
當上面策略都連不上時客戶端會運行打分策略,使用備份IP列表連上一個速度最快的接入.
騰訊擁有國內(nèi)大量的CDN節(jié)點,即使是偏遠地區(qū)也可以通過CDN節(jié)點接入做為代理!
優(yōu)點:多種首次連接策略能有效的保證用戶最大可能的先連上服務器,這在復雜的移動網(wǎng)絡中特別重要!
缺點:首次連接有額外開銷;連接上不一定是最優(yōu)的接入點;使用CDN節(jié)點做為代理接入成本較高
連接上之后服務端通過GSLB IP庫識別用戶的出口IP,如果發(fā)現(xiàn)用戶的接入不是最優(yōu)的接入,通過大數(shù)據(jù)分析該用戶在某個時段最應該使用的接入點,會下發(fā)重定向指令,讓客戶端連接到最優(yōu)的服務端接入IP,WIFI下還會緩存住SSID和接入IP.
優(yōu)點:讓用戶能就近/最優(yōu)接入,減少網(wǎng)絡的耗時
缺點:少部分用戶首次使用需要連接2次服務器;
減少帶寬開銷;安全
避免長連接斷開
相對多連接單請求的傳統(tǒng)HTTP模式(HTTP 2.0之前),用單連接可以大大減少客戶端和服務端開銷
移動網(wǎng)絡上我們能做的優(yōu)化無非就是減少連接,減少請求,避免跨網(wǎng)跨區(qū),優(yōu)化協(xié)議.而隨著4G/光纖的快速發(fā)展,以后越來越多用戶在網(wǎng)絡上的耗時會越來越少,意味著我們網(wǎng)絡策略上的優(yōu)化效果收益也會越來越低,這時我們把目光投向終端.
同上,首先需要確認終端的耗時情況以確認優(yōu)化預期和目標.
通過在客戶端埋點的上報監(jiān)控,發(fā)現(xiàn)手機Qzone某個灰度版本用戶一些操作之后3秒以上沒響應比率最高達30%;手機QQ某個灰度版本由于UI問題導致畫面掉幀比率約15%,在投訴的問題分類中,卡、慢、卡頓投訴量長期居前三甲.
可以得出這樣的結(jié)論:終端的問題很嚴重,而且跟用戶操作體驗直接相關(guān)!
既然是想優(yōu)化移動客戶端,那對于操作系統(tǒng)(Android和IOS)需要有個基本的了解,兩者都是基于UNIX/LINUX開發(fā)的系統(tǒng),對于運維人員來說很多概念都很好理解.
其中比較重要的一條設計理念是:Android和IOS都能進行多線程開發(fā),其中有一個是主線程也稱UI線程,UI線程是唯一有權(quán)限操作用戶UI的線程,如果用戶在操作有體驗上的問題,那肯定是因為主線程被堵塞或沒有足夠的運行資源.所以從主線程的監(jiān)控和系統(tǒng)資源的占用入手.
怎么判斷終端出現(xiàn)卡慢等性能問題呢?通過上面對andoid和ios的背景介紹,我們的目標放在主線程的監(jiān)控上,這邊主要有2種監(jiān)控策略:
缺點:無法準確反應用戶的體驗
優(yōu)點:實現(xiàn)成本低,開銷低
優(yōu)點:真實反應用戶的體驗,而且能對卡慢卡頓的體驗分級,如分為短卡、長卡
缺點:有額外的FPS監(jiān)控開銷,經(jīng)過測試該開銷大概占整個APP開銷的2%
如圖3-1監(jiān)控屏幕FPS的次數(shù)
監(jiān)控的策略有,接下來應該考慮怎樣配合監(jiān)控策略,把“案發(fā)現(xiàn)場”的數(shù)據(jù)獲取出來并上報至服務端.
“案發(fā)現(xiàn)場”數(shù)據(jù)除了系統(tǒng)資源,如CPU、內(nèi)存等,最重要的一定是代碼的執(zhí)行堆棧數(shù)據(jù).由于移動終端性能資源有限,在采集堆棧數(shù)據(jù)的時候要非常注意對系統(tǒng)的影響,所以需要定好觸發(fā)采集堆棧的時機,這邊主要也有2種采集方案:
額外啟動一個子線程,子線程記錄著主線程的堆棧數(shù)據(jù),當發(fā)生卡頓的時候從該線程獲取到堆棧數(shù)據(jù),優(yōu)點是只需要引入一個很小的SDK包,而且無視版本的編譯方法和虛擬機.獲取堆棧的策略也分為 消極策略和積極策略
缺點:需要子線程時刻記錄主線程堆棧,開銷大
優(yōu)點:獲取到的堆棧數(shù)據(jù)準確
圖3-1監(jiān)控主線程函數(shù)調(diào)用耗時
該策略的做法是:當主線程發(fā)生問題時,激活子線程獲取堆棧,在接下來的N秒內(nèi)在子線程獲取X個堆棧
缺點:堆棧有隨機性,獲取到的堆棧是案發(fā)后的堆棧
優(yōu)點:額外開銷極少,對APP基本沒影響
通過在編譯階段使用工具在每個函數(shù)調(diào)用點加入耗時統(tǒng)計函數(shù)
缺點:增加APP包大小,經(jīng)過測試約增加APP10~20%的包大小,而且不同編譯方法和虛擬機需要不同的工具支持打樁嵌入;缺少系統(tǒng)調(diào)用數(shù)據(jù)
優(yōu)點:無需運行時的額外線程額外開銷
2種方案都各有優(yōu)點各有可取之處,但由于產(chǎn)品對包大小有嚴格限制,目前在QQ和Qzone主要采用方案1
前面提到,方案1的消極策略對終端性能影響較大,但是積極策略獲取到的數(shù)據(jù)有隨機性,即客戶端無法精確的捕獲到問題堆棧.
而目前我們主要采用積極策略+大數(shù)據(jù)聚類分析的方法來分析問題.這一方案的基本思想是如果一段邏輯代碼真的有性能問題,那大多數(shù)用戶都發(fā)生.
所以我們采用對堆棧數(shù)據(jù)做聚類分析的方法,將能形成數(shù)據(jù)規(guī)模的堆棧找出來,過濾掉偶爾由于隨機性獲取到的無關(guān)堆棧.
對堆棧的聚類統(tǒng)計上,我們主要通過構(gòu)建CT(ClimbingTree)來解決.
ClimbingTree是內(nèi)部叫法,主要思路是通過堆棧生成堆棧樹,并利用海量數(shù)據(jù)加權(quán)計算(主要是函數(shù)耗時)到樹上,最后根據(jù)權(quán)重將同層節(jié)點運行從左到右進行排序,并將設定閾值以下的節(jié)點運行剪枝.
ClimbingTree的特點是同一父節(jié)點的子節(jié)點權(quán)重大小從左到右遞減
先將一個用戶的一個上報堆棧數(shù)據(jù)先進行預處理,包括解密文件、翻譯堆棧函數(shù)、格式化堆棧、過濾掉無關(guān)數(shù)據(jù)等步驟,最終生成一條業(yè)務函數(shù)調(diào)用關(guān)系鏈.
根據(jù)調(diào)用關(guān)系,合并同個用戶多個調(diào)用關(guān)系鏈,相同節(jié)點耗時相加,并按每個樹節(jié)點的耗時從左到右排序,生成函數(shù)調(diào)用關(guān)系樹(見圖3-3)
圖3-3 函數(shù)調(diào)用關(guān)系樹
合并多個用戶的調(diào)用關(guān)系樹,剪掉閾值下低權(quán)重的節(jié)點樹枝,就可以生成CT(ClimbingTree).這棵樹里就包含了所有問題堆棧的數(shù)據(jù)聚集,并且問題嚴重程度從左到右排序(見圖3-4).
圖假設每個節(jié)點耗時為1s,那么CT里A-B-C這條調(diào)用關(guān)系鏈很有可能就是問題所在的函數(shù)調(diào)用關(guān)系鏈(因為C節(jié)點對父節(jié)點的耗時占比為:2/4=50%)
圖3-4 CT圖
CT的優(yōu)點在于將海量的數(shù)據(jù)聚集統(tǒng)計到少量的森林數(shù)據(jù)節(jié)點里(約壓縮90%-95%的數(shù)據(jù)量)
由于左子節(jié)點一定比右節(jié)點耗時長,所以往往左子節(jié)點即是影響父節(jié)點的問題所在,通過分析左子節(jié)點占父節(jié)點的耗時占比可以得到最根源的耗時函數(shù)所在(見圖3-4、圖3-5)
圖3-5 尋找最根源的耗時函數(shù)節(jié)點
最常見的問題在主線程做長耗時操作,如
· 數(shù)據(jù)庫操作
· 網(wǎng)絡連接等待
· 網(wǎng)絡數(shù)據(jù)等待
· 復雜邏輯計算
· SD卡檢查或讀寫
常用的優(yōu)化方法:
使用子線程做異步操作,如數(shù)據(jù)庫的寫操作,配置網(wǎng)絡拉取等可預加載的提前預加載,例如利用APP打開等待首頁的時間打開網(wǎng)絡長連接,對視頻音頻數(shù)據(jù)做預加載等
能延后處理的異步延后處理,如SD卡檢查,異步發(fā)消息等
Qzone Android:某幾個版本的卡慢發(fā)生率(卡慢發(fā)生率=卡慢發(fā)生人數(shù)/使用人數(shù))
在高速發(fā)展的移動互聯(lián)網(wǎng)時代,運維技術(shù)要適應業(yè)務的變化,本文介紹的手機QQ和手機Qzone的速度優(yōu)化實踐,是騰訊運維利用大數(shù)據(jù)技術(shù)為業(yè)務創(chuàng)造價值的小案例.
我們堅信隨著運維崗位的發(fā)展,不同垂直領(lǐng)域的運維分工也會隨之而生,如何能在不同的業(yè)務形態(tài)上,利用運維技術(shù)和數(shù)據(jù)為業(yè)務帶來更大的價值,用數(shù)據(jù)說話讓數(shù)據(jù)發(fā)聲,將是我們下一步探索的重點方向.
文章出處:高效運維(greatops)
轉(zhuǎn)載請注明本頁網(wǎng)址:
http://www.fzlkiss.com/jiaocheng/4440.html