《Apache Kylin大數(shù)據(jù)分析平臺(tái)的演進(jìn)》要點(diǎn):
本文介紹了Apache Kylin大數(shù)據(jù)分析平臺(tái)的演進(jìn),希望對(duì)您有用。如果有疑問(wèn),可以聯(lián)系我們。
[來(lái)自IT168]
【IT168 專(zhuān)稿】本文根據(jù)2016第七屆中國(guó)數(shù)據(jù)庫(kù)大會(huì)現(xiàn)場(chǎng)演講嘉賓李揚(yáng)老師分享內(nèi)容整理而成.錄音及文字編輯@田曉旭@老魚(yú).
講師簡(jiǎn)介:
李揚(yáng),上海Kyligence聯(lián)合創(chuàng)始人兼CTO,Apache Kylin 聯(lián)合創(chuàng)建者及項(xiàng)目管理委員會(huì)成員(PMC), 主創(chuàng)團(tuán)隊(duì)架構(gòu)師和技術(shù)負(fù)責(zé)人,專(zhuān)注于大數(shù)據(jù)分析、并行計(jì)算、數(shù)據(jù)索引、關(guān)系數(shù)學(xué)、近似算法、壓縮算法等前沿技術(shù).
上海Kyligence聯(lián)合創(chuàng)始人兼CTO 李揚(yáng)
曾任eBay全球分析基礎(chǔ)架構(gòu)部大數(shù)據(jù)資深架構(gòu)師、IBM InfoSphere BigInsights的技術(shù)負(fù)責(zé)人,負(fù)責(zé)Hadoop開(kāi)源產(chǎn)品架構(gòu),“杰出技術(shù)貢獻(xiàn)獎(jiǎng)”的獲獎(jiǎng)?wù)摺⒛Ω康だ笨偛?負(fù)責(zé)全球監(jiān)管報(bào)表基礎(chǔ)架構(gòu).
正文:
我是來(lái)自Kyligence的李揚(yáng),是上海Kyligence的聯(lián)合創(chuàng)始人兼CTO.今天我主要來(lái)和大家分享一下來(lái)Apache Kylin 1.5的新功能和架構(gòu)改變.
Apache Kylin是什么
Kylin是最近兩年發(fā)展起來(lái)的開(kāi)源項(xiàng)目,在國(guó)外的知名度不是很高,但是在中國(guó)廣為人知.Kylin的定位是Hadoop大數(shù)據(jù)平臺(tái)上的多維分析工具,最早是由eBay在上海的研究實(shí)驗(yàn)室孵化的,提供ANSI-SQL接口,支持非常大的數(shù)據(jù)集,未來(lái)期望能夠在秒級(jí)別返回查詢(xún)結(jié)果.Kylin于2014年10月開(kāi)源,現(xiàn)在已經(jīng)成為為數(shù)不多的全部由華人主導(dǎo)的Apache頂級(jí)項(xiàng)目.
1.SQL Interface
大多數(shù)的Hadoop分析工具和SQL是友好的,所以Apache Kylin擁有SQL接口這一點(diǎn)就顯得尤為重要.Kylin的ANSI SQL可以替代HIVE的很大一部分工作,如果不使用HIVE本地方言的話(huà),那么Kylin和HIVE幾乎完全兼容,也是SQL on Hadoop的一員.
Kylin和其它SQL ON Hadoop的主要區(qū)別是離線(xiàn)索引.用戶(hù)在使用之前先選擇一個(gè)HIVE Table的集合,然后在這個(gè)基礎(chǔ)上做一個(gè)離線(xiàn)的CUBE構(gòu)建,CUBE構(gòu)建完了之后就可以做SQL查詢(xún)了.SQL數(shù)據(jù)下的關(guān)系表模型和原本的HIVE Table的一模一樣,所以原來(lái)的HIVE查詢(xún)可以原封不動(dòng)的遷移到Kylin上面直接運(yùn)行.
用離線(xiàn)計(jì)算來(lái)代替在線(xiàn)計(jì)算,在離線(xiàn)過(guò)程當(dāng)中把復(fù)雜的、計(jì)算量很大的工作做完,在線(xiàn)計(jì)算量就會(huì)變小,就可以更快的返回查詢(xún)結(jié)果.通過(guò)這種方式,Kylin可以有更少的計(jì)算量,更高的吞吐量.
2.Big Data
2015年eBay頒布Kylin已經(jīng)有接近千億的數(shù)據(jù)規(guī)模,2016年肯定已經(jīng)穩(wěn)穩(wěn)的超過(guò)千億了.但是這也可能不是Kylin的最大案例,因?yàn)楦鶕?jù)我們?cè)谥袊?guó)移動(dòng)得到的數(shù)據(jù),他們每天可能就有百億的增量數(shù)據(jù)要放到Kylin的系統(tǒng)里面,可能十天就超過(guò)千億了.國(guó)內(nèi)很多一線(xiàn)互聯(lián)網(wǎng)企業(yè)也都在使用Kylin技術(shù)來(lái)進(jìn)行多維數(shù)據(jù)分析.
3.Low Latency
Kylin的查詢(xún)性能相當(dāng)不錯(cuò),這也是當(dāng)初它的設(shè)計(jì)目標(biāo).我們的目標(biāo)是在秒級(jí)別能夠返回查詢(xún)結(jié)果,在實(shí)際生產(chǎn)系統(tǒng)里面,Kylin 90%的查詢(xún)都可以在穩(wěn)定的三秒內(nèi)返回,而且這并不是一條兩條特別的SQL可以做到這個(gè)性能,而是在數(shù)萬(wàn)條不一樣的、在各種復(fù)雜的查詢(xún)下的SQL都可以做到這樣.
從圖中可以看到,在某一天Kylin的查詢(xún)延遲有一個(gè)山峰,所以不是說(shuō)只要用了Kylin所有的查詢(xún)就一定快,但是經(jīng)過(guò)調(diào)優(yōu)大多數(shù)的查詢(xún)都會(huì)很快速.
4.BI工具的集成
Kylin提供了標(biāo)準(zhǔn)的ODBC和JDBC接口,能夠和傳統(tǒng)BI工具進(jìn)行很好的集成.分析師們可以用他們最熟悉的工具來(lái)享受Kylin帶來(lái)的快速.
5.Scalable Throughput
Kylin是用離線(xiàn)計(jì)算來(lái)代替在線(xiàn)計(jì)算,相比于其他的工具,在線(xiàn)計(jì)算量較小,能夠在固定的硬件配置上面擁有更高的吞吐率.
這是在兩條比較復(fù)雜的查詢(xún)下查看Kylin的線(xiàn)性擴(kuò)展能力的實(shí)驗(yàn).我們?cè)谝粋€(gè)比較簡(jiǎn)單的機(jī)器上面增加Kylin的查詢(xún)引擎的個(gè)數(shù),從圖中可以看出Kylin在從一個(gè)實(shí)例加到四個(gè)實(shí)例的過(guò)程中吞吐量是呈線(xiàn)性上漲的,Kylin每秒可以支持大約250個(gè)查詢(xún).當(dāng)然,這個(gè)實(shí)驗(yàn)還沒(méi)有探測(cè)到整個(gè)系統(tǒng)的瓶頸,根據(jù)理論,Kylin系統(tǒng)的瓶頸最后會(huì)落在他的存儲(chǔ)引擎上面.所以,在存儲(chǔ)有保障的前提下,我們可以通過(guò)擴(kuò)展存儲(chǔ)引擎來(lái)擴(kuò)展Kylin的吞吐量.
Apache Kylin 1.5新特性
1.可擴(kuò)展架構(gòu)
Kylin采用的是一個(gè)可擴(kuò)展的架構(gòu).用戶(hù)的數(shù)據(jù)首先是落在HIVE里面,然后根據(jù)META DATA定義的CUBE描述,進(jìn)行離線(xiàn)CUBE構(gòu)建,構(gòu)建完成的CUBE結(jié)果存放在HBase里面.當(dāng)查詢(xún)從頂部過(guò)來(lái)的時(shí)候,不管是SQL接口或者是Rest API接口,查詢(xún)引擎都會(huì)把這個(gè)查詢(xún)引導(dǎo)到構(gòu)建好的CUBE當(dāng)中去返回結(jié)果,不需要再去查原本的HIVE數(shù)據(jù),這種方式大大的提高了系統(tǒng)性能.
所謂可擴(kuò)展的架構(gòu)是指把Kylin三個(gè)依賴(lài)的接口抽象出來(lái),從而在一定程度上替換它們.Kylin的三大依賴(lài)分別是HIVE Source、MapReduce分布式計(jì)算引擎以及存儲(chǔ)引擎HBase,它們都是通過(guò)原數(shù)據(jù)來(lái)驅(qū)動(dòng)的,即需要在CUBE原數(shù)據(jù)上聲明數(shù)據(jù)源、構(gòu)建引擎和存儲(chǔ)系統(tǒng).通過(guò)工廠類(lèi)初始化三個(gè)依賴(lài),它們之間是沒(méi)有關(guān)聯(lián)的,彼此不能夠了解對(duì)方的存在,所以也不能一起工作.后面用個(gè)適配器的模式,想象下面MapReduce Engine作為一個(gè)主板,它有一個(gè)輸入槽和一個(gè)輸出槽,分別用來(lái)連接左側(cè)DataSource和右側(cè)的Storage.從HIVE和HBase分別產(chǎn)生構(gòu)造出一個(gè)適配器部件,把它們插在主板上以后,這三個(gè)部件就聯(lián)通了,數(shù)據(jù)就可以從左側(cè)流到右側(cè),完成實(shí)現(xiàn)整個(gè)CUBE構(gòu)建的過(guò)程.
有了上述的基礎(chǔ),我們就可以在Kylin系統(tǒng)上面來(lái)嘗試不一樣的構(gòu)建引擎、數(shù)據(jù)源以及存儲(chǔ)引擎.我們?cè)?jīng)嘗試將Spark作為Kylin CUBE的構(gòu)建引擎,但是從實(shí)驗(yàn)結(jié)果來(lái)看,Spark引擎暫時(shí)并沒(méi)有帶來(lái)特別高的性能提升.目前,數(shù)據(jù)源除了HIVE以外,現(xiàn)在也可以連接Spark和Kafka.存儲(chǔ)引擎是大家最為關(guān)注的,一開(kāi)始,選用HBase作為Kylin的存儲(chǔ)引擎時(shí),大家都很不解,也有很多人表示為什么不試一下Kudu或者其他的存儲(chǔ)引擎呢,有了這個(gè)可擴(kuò)展架構(gòu),大家可以親自來(lái)嘗試不同的存儲(chǔ)引擎.
整個(gè)可擴(kuò)展架構(gòu)帶來(lái)了很多好處,首先就是自由度,之前Kylin等于是綁死在Hadoop平臺(tái)上面,依賴(lài)HIVE,MapReduce和HBase.有了這個(gè)架構(gòu)以后,就可以嘗試一些不一樣的替代技術(shù).其次是可擴(kuò)展性,系統(tǒng)可以接受各種數(shù)據(jù)源,例如Kafka,也可以接受更好的分布式計(jì)算引擎Spark等.第三是靈活度,不一樣的構(gòu)建算法適合不一樣的數(shù)據(jù)集.有了靈活度以后,就可以在整個(gè)系統(tǒng)中同時(shí)存在很多種不一樣的CUBE構(gòu)建算法,用戶(hù)可以根據(jù)自己數(shù)據(jù)集的特性來(lái)指定當(dāng)中的某一個(gè).
2.Layered Cubing
MRv1是一個(gè)比較老的CUBE的引擎,采用的是一個(gè)非常質(zhì)樸的CUBE構(gòu)建算法.上圖所示是一個(gè)分層的CUBE構(gòu)建的過(guò)程,先Group by A、B、C、D四個(gè)維度,算完了這個(gè)四級(jí)維度的一層以后,再用四級(jí)維度的結(jié)果來(lái)算三級(jí)維度的一層,依此類(lèi)推,分別算出二級(jí)和一級(jí)維度的結(jié)果.
這種分層模式可以利用MapReduce的 shuffling 和 merge sort 做完了很多Aggregation,從而減少開(kāi)發(fā)量.但同時(shí)也帶來(lái)了一些問(wèn)題,因?yàn)锳ggregation都發(fā)生在Reduce端,Map端是直接把原數(shù)據(jù)給扔在網(wǎng)絡(luò)上,然后靠MapReduce的shuffling讓數(shù)據(jù)匯總到Reduce端,所以這就帶來(lái)了很大的網(wǎng)絡(luò)開(kāi)銷(xiāo),而網(wǎng)絡(luò)又偏偏是大多數(shù)Hadoop系統(tǒng)的瓶頸.相關(guān)數(shù)據(jù)顯示了這樣的Layered Cubing給網(wǎng)絡(luò)的壓力相當(dāng)于一百個(gè)CUBE的大小,也就是說(shuō)如果CUBE有10T的話(huà),那么網(wǎng)絡(luò)的壓力可能就是一千個(gè)T.
3.Fast Cubing
如何辦理這個(gè)瓶頸問(wèn)題,下面為大家分享一個(gè)新算法Fast Cubing,它是逆向思考,既然數(shù)據(jù)在Reduce端做聚合會(huì)有很多網(wǎng)絡(luò)壓力,那么可不可以把聚合放到Map端來(lái)做,然后把聚合完的結(jié)果通過(guò)網(wǎng)絡(luò)進(jìn)行傳輸,在Reduce端做最終的聚合,這樣的話(huà),Reduce端收到的數(shù)據(jù)就會(huì)變少,網(wǎng)絡(luò)壓力就會(huì)變輕.目前比較經(jīng)典的多維分析多是用內(nèi)存來(lái)做多維計(jì)算,我們采用類(lèi)似的技術(shù)在Map端分配比較大的內(nèi)存,用比較多的CPU做In-mem cubing,這樣做的效果類(lèi)似于Layered發(fā)生在Map端.這些過(guò)程完成之后得到的是已經(jīng)聚合過(guò)的數(shù)據(jù),再通過(guò)網(wǎng)絡(luò)分發(fā)到Reduce端做最終的聚合.這種方式的缺點(diǎn)是算法較為復(fù)雜,開(kāi)發(fā)和維護(hù)比較困難,但是可以減輕網(wǎng)絡(luò)壓力.
我們把兩個(gè)算法放到實(shí)際的生產(chǎn)環(huán)境當(dāng)中去比較,發(fā)現(xiàn)其實(shí)并不總是Fast Cubing會(huì)更快.我們期望Map端的預(yù)先聚合可以減少網(wǎng)絡(luò)shuffling,但其實(shí)不一定是這樣,因?yàn)檫@取決于數(shù)據(jù)分布.例如我們的期望結(jié)果是李揚(yáng)在十月一號(hào)一共買(mǎi)了多少東西,消費(fèi)總金額是多少,那么這取決于消費(fèi)記錄是只出現(xiàn)在一個(gè)data splits里面還是出現(xiàn)在所有的Map的data splits里面.如果記錄只出現(xiàn)在一個(gè)Map上,那么聚合完的結(jié)果不需要去和其他的Map做第二次的聚合,網(wǎng)絡(luò)分發(fā)比較快.但是如果不幸,交易記錄被均勻分散到了所有的Map上,那么還是要通過(guò)網(wǎng)絡(luò)分發(fā)很多次,然后在Reduce再做第二次的聚合,這樣的話(huà)相比前面的Layered Cubing沒(méi)有多少的改進(jìn).
如果Map的data splits是比較獨(dú)特,每個(gè)Map會(huì)生成不同的CUBE數(shù)據(jù),然后分發(fā)也不會(huì)重復(fù),那么Fast Cubing確實(shí)會(huì)減少網(wǎng)絡(luò)的傳輸.但是反過(guò)來(lái),如果每個(gè)Map的數(shù)據(jù)都有雷同,那么就還是會(huì)造成網(wǎng)絡(luò)的壓力,所以在MRv2里面最后搭載的是一個(gè)混合算法.先對(duì)數(shù)據(jù)做采樣,根據(jù)數(shù)據(jù)樣本來(lái)判斷這個(gè)數(shù)據(jù)集在Map上面的分配是獨(dú)特的還是有重復(fù),然后根據(jù)這樣的特性來(lái)選擇采用Layered Cubing 還是Fast Cubing.我們通過(guò)在500個(gè)不一樣的生產(chǎn)環(huán)境中的測(cè)試發(fā)現(xiàn)這種混合算法要比原來(lái)的MRv1快1.5倍.
4.Parallel Scan
并行掃描是一個(gè)十分直觀的改進(jìn).在之前的Kylin版本里面數(shù)據(jù)聚合完以后密度非常高,而且因?yàn)閿?shù)據(jù)聚合過(guò),返回集很小,不需要掃描太大的數(shù)據(jù)集就能夠返回SQL查詢(xún)的結(jié)果.但是對(duì)于一些比較復(fù)雜或者本身比較慢的查詢(xún),盡管經(jīng)過(guò)了聚合,但是數(shù)據(jù)還是有百萬(wàn)、千萬(wàn)條,那么在運(yùn)行時(shí)候還是要掃描很多數(shù)據(jù),這時(shí)候簡(jiǎn)單的串行掃描顯然就不適合了.如果調(diào)整一下數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu),做一些分區(qū).通過(guò)掃描物化視圖來(lái)產(chǎn)生查詢(xún)結(jié)果,把存在一個(gè)結(jié)點(diǎn)上的物化視圖均勻的分散在多個(gè)結(jié)點(diǎn)上,那么串行掃描就變成了并行掃描.
這個(gè)改進(jìn)可以使慢的查詢(xún)速度提升五到十倍左右,不過(guò)從實(shí)際情況來(lái)看提升并沒(méi)有那么多,因?yàn)樵敬蠖鄶?shù)Kylin的查詢(xún)已經(jīng)比較快了,掃描數(shù)據(jù)本來(lái)就不多.通過(guò)對(duì)一萬(wàn)條左右生產(chǎn)狀態(tài)查詢(xún)結(jié)果的比較,我們發(fā)現(xiàn),引入并行掃描的技術(shù)之后,速度大概會(huì)提升兩倍左右.
5.近實(shí)時(shí)
Apache Kylin 1.5的另一個(gè)特性就是近實(shí)時(shí)的構(gòu)建,它是延續(xù)之前的增量構(gòu)建.Kylin和很多大數(shù)據(jù)系統(tǒng)一樣,在對(duì)數(shù)據(jù)做預(yù)處理的時(shí)候,會(huì)對(duì)數(shù)據(jù)做一個(gè)增量的預(yù)處理,即不是把過(guò)去所有的數(shù)據(jù)每天都算一遍,而是每天只計(jì)算今天的數(shù)據(jù),再去和歷史數(shù)據(jù)做匹配.所以首先要把整個(gè)數(shù)據(jù)集依照時(shí)間線(xiàn)來(lái)做分割,時(shí)間距離最遠(yuǎn)的數(shù)據(jù)會(huì)比較大塊,可能是按年的,中間的可能是按月,最小的一個(gè)數(shù)據(jù)集是今天的.如果要做到近實(shí)時(shí)的話(huà),只需要把每天增量構(gòu)建的時(shí)間力度進(jìn)一步的切小,可以從天縮小到小時(shí),小時(shí)縮小到分鐘,依照這個(gè)思路就可以很順暢的完成近實(shí)時(shí)的CUBE構(gòu)建.
這是我們?cè)?.5里面嘗試的一個(gè)案例,其中數(shù)據(jù)源來(lái)自Kafka的Source,算法使用Fast Cubing .這樣的搭配看起來(lái)很完美,其實(shí)不然,它會(huì)產(chǎn)生很多的CUBE碎片,例如今天的五分鐘就是一個(gè)獨(dú)立的數(shù)據(jù)集,它會(huì)產(chǎn)生一個(gè)獨(dú)立的CUBE碎片.當(dāng)這個(gè)碎片越來(lái)越多的時(shí)候,查詢(xún)性能就會(huì)下降,一個(gè)查詢(xún)命令需要命中很多個(gè)碎片,每一個(gè)都要執(zhí)行存儲(chǔ)層的一次Scan的操作.
解決的辦法也很簡(jiǎn)單,那就是合并CUBE碎片,但是這個(gè)合并是自動(dòng)的常態(tài),不需人為手工來(lái)觸發(fā).新版本里用戶(hù)可以配置自動(dòng)合并,把五分鐘的碎片合并成半小時(shí),半小時(shí)合并到四小時(shí),四小時(shí)合并到一天,天合并到周,周合并到月.
如果五分鐘的近實(shí)時(shí)仍然不滿(mǎn)足需求的話(huà),可以把他近化成一個(gè)Lambda架構(gòu),即在CUBE的存儲(chǔ)之外再配上一個(gè)實(shí)時(shí)的內(nèi)存存儲(chǔ)系統(tǒng)來(lái)記錄最后五分鐘的數(shù)據(jù).CUBE五分鐘近實(shí)時(shí)離真正的實(shí)時(shí)就差五分鐘的數(shù)據(jù),把這些數(shù)據(jù)放在內(nèi)存里面,用一個(gè)混合的查詢(xún)接口來(lái)同時(shí)擊中內(nèi)存引擎和CUBE存儲(chǔ),那么匯總的結(jié)果就是一個(gè)真實(shí)實(shí)施的結(jié)果集了.但是,遺憾的是目前這個(gè)想法還未實(shí)現(xiàn).
在eBay頒布的使用案例里面有一個(gè)Kylin新版本近實(shí)時(shí)CUBE構(gòu)建的案例——SEO Dashboard,它是對(duì)查詢(xún)引擎導(dǎo)入的用戶(hù)流量進(jìn)行監(jiān)控.實(shí)時(shí)監(jiān)控從谷歌或者雅虎進(jìn)來(lái)的消費(fèi)者的記錄,實(shí)時(shí)監(jiān)控流量起伏,一旦發(fā)現(xiàn)用戶(hù)流量在五分鐘內(nèi)有抖動(dòng)的話(huà),立即采取相應(yīng)的措施,從而保證eBay的交易量營(yíng)收的穩(wěn)定.
6.用戶(hù)自定義聚合類(lèi)型
1.5的另外一個(gè)新功能是User Defined Aggregation Types,即用戶(hù)自定義聚合類(lèi)型,以前Kylin有HyperLogLog(近似的Count Distinct算法).在這個(gè)基礎(chǔ)上面,新版本又加入了TopN以及社區(qū)貢獻(xiàn)的基于Big Map的精確Count Distinct和保存最底層原始數(shù)據(jù)的記錄Raw Records.用戶(hù)可以實(shí)現(xiàn)抽象接口擴(kuò)展自己想要的聚合函數(shù).例如,通過(guò)它來(lái)聚合很多用戶(hù)的事件,提取出用戶(hù)的拜訪(fǎng)模型,或者做一個(gè)很多點(diǎn)樣本的一個(gè)聚類(lèi),也可以把他預(yù)計(jì)算好,存成一個(gè)聚合的數(shù)據(jù)類(lèi)型,所以這個(gè)自定義的函數(shù)可以擴(kuò)展到很多領(lǐng)域.
TopN用的是一個(gè)很經(jīng)典的算法,叫SpaceSaving,在很多的流式處理里面都有用到.我們把TopN介入到Kylin里面,定義成一個(gè)自定義的聚合函數(shù).一般的SpaceSaving是一個(gè)單線(xiàn)程的算法,但是Kylin采用的是并行算法.
用戶(hù)TopN的查詢(xún),例如抓取100個(gè)數(shù)據(jù),寫(xiě)成SQL語(yǔ)句如上圖所示.而Kylin會(huì)自動(dòng)適配這樣的SQL來(lái)直接使用預(yù)聚合好的結(jié)果,所以在運(yùn)行時(shí)候Kylin只是把預(yù)先算好的一千個(gè),一萬(wàn)個(gè)item直接返回就好了,這當(dāng)中幾乎就沒(méi)有在線(xiàn)計(jì)算,速度就會(huì)很快.
7.分析工具的集成
在新版本里面Kylin也增加了ODBC的一些接口,主要是實(shí)現(xiàn)了對(duì)Tableau 9的集成,以及和MS Excel、MS Power BI的集成.
Zeppelin 的集成模塊也已經(jīng)共享在Zeppelin 開(kāi)源社區(qū),大家可以在Zeppelin 最新的發(fā)布版里面找到,另外,直接從Zeppelin 里面也可以調(diào)用Kylin的數(shù)據(jù).
總結(jié)
總的來(lái)說(shuō),Apache Kylin 1.5有以下幾個(gè)新亮點(diǎn):1.可擴(kuò)展的架構(gòu),這個(gè)新的架構(gòu)等于是打開(kāi)了Kylin對(duì)于其他的可替換技術(shù)的一個(gè)大門(mén),我們可以選擇除了MapReduce之外的其他并行計(jì)算引擎,比如Spark,也可以選擇不一樣的數(shù)據(jù)源,甚至不一樣的storage.這樣可以保證Kylin可以和其他的并行計(jì)算、大數(shù)據(jù)技術(shù)一起來(lái)演化而不是鎖死在某個(gè)平臺(tái)上面.2.新的CUBE引擎,因?yàn)橐肓艘粋€(gè)新的Fast Cubing的算法,速度提升大概達(dá)到原來(lái)的1.5倍左右,3.并行掃描,存儲(chǔ)結(jié)構(gòu)的改良使查詢(xún)的速度提升了大約兩倍.4.近實(shí)時(shí)分析,盡管還在產(chǎn)品測(cè)試的階段,但是,大家可以來(lái)社區(qū)使用,發(fā)現(xiàn)問(wèn)題可以和我們及時(shí)溝通.5.用戶(hù)自定義聚合類(lèi)型,這個(gè)部分在未來(lái)應(yīng)該有很大的發(fā)展空間.6.集成了更多的分析工具.
以上就是我想和大家分享的內(nèi)容,Kylin是個(gè)開(kāi)源產(chǎn)品,所以歡迎大家有興趣的來(lái)使用,并且跟我們?cè)谏鐓^(qū)上面互動(dòng),有任何問(wèn)題我們社區(qū)都是很樂(lè)意來(lái)幫助大家辦理.
維易PHP培訓(xùn)學(xué)院每天發(fā)布《Apache Kylin大數(shù)據(jù)分析平臺(tái)的演進(jìn)》等實(shí)戰(zhàn)技能,PHP、MYSQL、LINUX、APP、JS,CSS全面培養(yǎng)人才。
轉(zhuǎn)載請(qǐng)注明本頁(yè)網(wǎng)址:
http://www.fzlkiss.com/jiaocheng/13476.html