當(dāng)前位置：維易PHP培訓(xùn)學(xué)院 > 服務(wù)器運(yùn)維 > 內(nèi)容正文

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

作者：VEPHP 時(shí)間 2017-09-18

《平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量》要點(diǎn)：
本文介紹了平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量，希望對(duì)您有用。如果有疑問(wèn)，可以聯(lián)系我們。

作者簡(jiǎn)介：

劉宏霞

平安證券大數(shù)據(jù)測(cè)試組負(fù)責(zé)人

2014年加入平安證券,正值互聯(lián)網(wǎng)金融潮流興起,組織并參與大數(shù)據(jù)自動(dòng)化以及監(jiān)控體系的搭建、應(yīng)用和優(yōu)化.熟悉券商核心業(yè)務(wù),對(duì)數(shù)據(jù)有著濃厚的興趣,并把相關(guān)的技術(shù)應(yīng)用到數(shù)據(jù)質(zhì)量上,不斷地探索券商數(shù)據(jù)質(zhì)量之路.

前言

這兩年對(duì)于大數(shù)據(jù)來(lái)講,大家看到有很多產(chǎn)品出來(lái),很多公司也在利用數(shù)據(jù)做些東西,包括現(xiàn)在的一些電影.

前兩天的時(shí)候,同事給我推薦一部叫做《庭審專家》的美劇,大概花了一天時(shí)間把它看完,故事講的很簡(jiǎn)單：在美國(guó)庭審當(dāng)中包含陪審團(tuán)概念,通過(guò)大數(shù)據(jù)分析陪審團(tuán)行為模式,然后預(yù)測(cè)他們的想法.這樣來(lái)講,大數(shù)據(jù)應(yīng)用完全掌握在擁有數(shù)據(jù)的人身上.

那如果數(shù)據(jù)質(zhì)量本身存在問(wèn)題,就會(huì)導(dǎo)致數(shù)據(jù)分析出現(xiàn)誤差,甚至錯(cuò)誤的預(yù)測(cè)或者誤導(dǎo)性的描述.所以今天我給大家分享的主題是券商的大數(shù)據(jù)保障之道 .

在分享券商大數(shù)據(jù)保障之道之前,我們先看一下平安證券在大數(shù)據(jù)方面都做了哪些.

1、平安大數(shù)據(jù)做些什么

經(jīng)常使用平安證券 APP 炒股的人會(huì)發(fā)現(xiàn),我們平安證券 App 過(guò)去一年變化非常大,在剛剛過(guò)去不久,由證券日?qǐng)?bào)主辦的第十二屆證券市場(chǎng)年會(huì)中,我們平安證券 App 被評(píng)為最佳金融 App 大獎(jiǎng).

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

我們?yōu)橛脩籼峁﹤€(gè)性化的服務(wù),比如 App 功能上有一些千人千面,猜你喜歡的內(nèi)容,推送的一些功能.其中包括資產(chǎn)收益的功能,這些數(shù)據(jù)是來(lái)自用戶大數(shù)據(jù),幫助更好為用戶推薦產(chǎn)品,也幫助用戶更方便獲取信息.

在行情方面我們也會(huì)做一些股價(jià)預(yù)警,智能選股等等,可以幫助用戶化繁為簡(jiǎn),準(zhǔn)確操盤.另外是我們的資訊,炒股人都知道,資訊很重要,幫助用戶獲取最新、最全的金融資訊.

我們還有大數(shù)據(jù)產(chǎn)品,比如牛人牛股,幫助用戶追蹤牛人們?cè)谫I賣什么股票.還有收益類的計(jì)算器,輔助客戶進(jìn)行投資決策.

另外比如客戶不知道要買股票還是買基金,或者買其他產(chǎn)品,我們也會(huì)提供智能化服務(wù),這些都是為客戶提供個(gè)性化的服務(wù),這是一些大數(shù)據(jù)相關(guān)的產(chǎn)品.

除此之外,我們平安證券還會(huì)利用大數(shù)據(jù)為我們的業(yè)務(wù)人員做一些科學(xué)的決策,依據(jù)自動(dòng)化的數(shù)據(jù)平臺(tái).

比如自動(dòng)化報(bào)表平臺(tái),大數(shù)據(jù)自助分析平臺(tái)等.我們做了這么多事情,最大的問(wèn)題是怎么保障這些數(shù)據(jù)的準(zhǔn)確性.

我首先給大家介紹一下系統(tǒng),我們大數(shù)據(jù)的組成部分,其次我們?cè)跍y(cè)試數(shù)據(jù)中面臨哪些挑戰(zhàn),之后是我們解決思路是什么,最后是總結(jié)以及未來(lái)的規(guī)劃.

2、平安大數(shù)據(jù)系統(tǒng)的組成部分

先看一個(gè)最簡(jiǎn)單的情況,比如我現(xiàn)在有一個(gè)需求,西紅柿炒雞蛋,可能大家都比較熟悉這個(gè)場(chǎng)景,我給你一個(gè)需求是西紅柿炒雞蛋,你怎么做?

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

一種方式直接拿了西紅柿和雞蛋放鍋里炒,那這是不是西紅柿炒雞蛋,是的.但是你吃的時(shí)候可能有蛋殼和西紅柿皮.
另外一種方式通過(guò)各種工序,雞蛋和西紅柿清洗干凈,雞蛋加點(diǎn)鹽打散,西紅柿去到蒂部,切成塊,鍋里放油,加入材料,也是一盤西紅柿炒雞蛋；

大家會(huì)吃哪盤西紅柿炒雞蛋也就一目了然了.

同樣的道理,平安證券自己常用的系統(tǒng)大概在50個(gè)左右,另外還有數(shù)據(jù)來(lái)源于平安旗下其他子公司.如果每個(gè)分析人員都根據(jù)自己的需求直接取源數(shù)據(jù),你會(huì)發(fā)現(xiàn)同一個(gè)需求不同的人做,結(jié)果都不對(duì)等的.

另外比如重復(fù)的工作量、低效的工作,無(wú)法快速響應(yīng)業(yè)務(wù)需求等等問(wèn)題,為了解決這些問(wèn)題,我們實(shí)現(xiàn)了統(tǒng)一底層,對(duì)各個(gè)系統(tǒng)提供的數(shù)據(jù)都來(lái)自于統(tǒng)一底層.由統(tǒng)一底層來(lái)保障數(shù)據(jù)的質(zhì)量.

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

看下我們統(tǒng)一底層的框架,從下往上看,最底層是數(shù)據(jù)源,數(shù)據(jù)源來(lái)自平安證券的所有系統(tǒng)(比如賬戶系統(tǒng)、交易系統(tǒng)、基金系統(tǒng)、個(gè)股期權(quán)、融資融券等等)以及部分平安旗下其他子公司的數(shù)據(jù).

RAW 層
所有數(shù)據(jù)的處理都由統(tǒng)一底層進(jìn)行,統(tǒng)一底層分為四層,最底層是raw層,也是數(shù)據(jù)同步層,數(shù)據(jù)采集過(guò)來(lái)會(huì)放到raw,raw層的數(shù)據(jù)與源數(shù)據(jù)一樣,不做任何的操作.
MID 層
數(shù)據(jù)采集完成后,會(huì)到 MID 層,MID 層是數(shù)據(jù)的清洗層,MID 層會(huì)根據(jù)源數(shù)據(jù)的特性做相應(yīng)的清洗,比如：日期類型的轉(zhuǎn)換、身份證15位到18位的轉(zhuǎn)換、空格、null 值等處理.在清洗層對(duì)于常用的清洗方式,我們會(huì)通過(guò)自定義的函數(shù)進(jìn)行清洗,以保證不同的開發(fā)人員清洗后的結(jié)果一致.
BASE 層
數(shù)據(jù)清洗完成后,就到我們的 base 層,base 層是業(yè)務(wù)流水層,base 層根據(jù)主題進(jìn)行設(shè)計(jì),比如客戶主題,交易主題,產(chǎn)品主題等等.
FACT&VIEW層
Fact 層和 view 層是業(yè)務(wù)實(shí)現(xiàn)層,在這個(gè)層級(jí)上根據(jù)業(yè)務(wù)的需求進(jìn)行指標(biāo)的產(chǎn)生、指標(biāo)的聚合、匯總等等.固化的業(yè)務(wù)數(shù)據(jù)在fact層,未固化業(yè)務(wù)數(shù)據(jù)在view層.

我們當(dāng)前已完成指標(biāo)有8萬(wàn)多個(gè),這些指標(biāo)是指以客戶為方向,每個(gè)客戶涉及標(biāo)簽有8萬(wàn)多個(gè),每天還有不斷新增的指標(biāo).

我們重點(diǎn)關(guān)注的是中間這部分,因?yàn)槲覀冎挥斜ＷC這部分?jǐn)?shù)據(jù)準(zhǔn)確性,我們才能保證對(duì)外提供的數(shù)據(jù)準(zhǔn)確.

3、實(shí)施大數(shù)據(jù)面臨的挑戰(zhàn)

那我們?cè)趺幢ＷC中間這一層數(shù)據(jù)準(zhǔn)確性呢?同樣我們也面臨著很大的挑戰(zhàn).

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

挑戰(zhàn)一：指標(biāo)繁多

8萬(wàn)多指標(biāo),僅僅用一年把它全部加進(jìn)去的,對(duì)于我們測(cè)試人員來(lái)講,8萬(wàn)多個(gè)指標(biāo)涉及到業(yè)務(wù),涉及到底層的很多表,那我們?cè)趺催M(jìn)行處理,這是我們面臨的挑戰(zhàn).

挑戰(zhàn)二：數(shù)據(jù)的準(zhǔn)確性

如果數(shù)據(jù)錯(cuò)了,我們往外提供的數(shù)據(jù)就是有問(wèn)題的,如果每天都有業(yè)務(wù)人員跟你講,指標(biāo)好像有問(wèn)題,如果把所有精力都在回答大家的問(wèn)題,根本沒(méi)有精力做測(cè)試.

挑戰(zhàn)三：數(shù)據(jù)穩(wěn)定性

大家可能會(huì)看到,對(duì)于大數(shù)據(jù)來(lái)講,每個(gè)指標(biāo)都是數(shù)據(jù),這個(gè)指標(biāo)你測(cè)試之前可能它都是正確的,但是如果某一天有新的數(shù)據(jù)進(jìn)來(lái),因?yàn)槊刻於紩?huì)有新的數(shù)據(jù)在進(jìn)來(lái)的過(guò)程中,你還能保證你的指標(biāo)結(jié)果的正確性嗎,怎么保證這是我們需要考慮的.

挑戰(zhàn)四：口徑一致性

因?yàn)槲覀儤I(yè)務(wù)人員很多,每個(gè)業(yè)務(wù)人員口徑都是不一樣的,比如場(chǎng)外基金,對(duì)于有些業(yè)務(wù)人員指的場(chǎng)外基金就是場(chǎng)外基金,有些業(yè)務(wù)人員認(rèn)為場(chǎng)外基金就是場(chǎng)外的公募基金,所以我們?cè)趺幢ＷC對(duì)外提供的口徑的一致性.

挑戰(zhàn)五：規(guī)模化服務(wù)

8萬(wàn)多指標(biāo),如果不對(duì)外提供服務(wù),其實(shí)它都是一堆死的東西,沒(méi)有任何意義的,你要讓它產(chǎn)生效益,就要對(duì)接平安所有的平臺(tái).

挑戰(zhàn)六：人力

我們平安證券測(cè)試團(tuán)隊(duì)有一百多人,看起來(lái)人力還是很多的,但是我們這些人力都分散在各個(gè)子系統(tǒng)下,比如交易系統(tǒng)、基金系統(tǒng),這些都是一個(gè)個(gè)的子系統(tǒng),這些人力都分散在各個(gè)子系統(tǒng)上,對(duì)于統(tǒng)一底層僅有十個(gè)人力,十個(gè)人力要對(duì)接8萬(wàn)多個(gè)指標(biāo),這是我們當(dāng)前面臨的挑戰(zhàn).

4、我們的解決思路和方案

4.1 我們的解決思路

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

為了解決這些問(wèn)題,我們的解決思路是：圍繞數(shù)據(jù)本身,需要相關(guān)的規(guī)范和流程去保證每個(gè)環(huán)節(jié)的準(zhǔn)確性,規(guī)范和流程需要工具去管控.

規(guī)范、流程、工具應(yīng)用到開發(fā)、測(cè)試、監(jiān)控各個(gè)環(huán)節(jié)來(lái)保證最后指標(biāo)數(shù)據(jù)的準(zhǔn)確性.

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

在數(shù)據(jù)開發(fā)平臺(tái)會(huì)有 DSP 數(shù)據(jù)服務(wù)平臺(tái),和 CM 公共服務(wù)平臺(tái),這兩個(gè)平臺(tái)保證開發(fā)過(guò)程中數(shù)據(jù)的準(zhǔn)確性；然后數(shù)據(jù)到自動(dòng)化測(cè)試平臺(tái).

我們團(tuán)隊(duì)最初的時(shí)候,三個(gè)人力測(cè)試一百?gòu)埖妆?幾乎花了一周時(shí)間.最后我們狀態(tài)是什么,所有人把表分析完了,再也不想看數(shù)據(jù)了,因?yàn)槟莻€(gè)數(shù)據(jù)看的自己都想吐的過(guò)程.

所以通過(guò)自動(dòng)化平臺(tái)減少我們的重復(fù)勞動(dòng),把精力花在分析數(shù)據(jù)上.數(shù)據(jù)上線后 ,通過(guò)監(jiān)控系統(tǒng)來(lái)每天監(jiān)控?cái)?shù)據(jù)的準(zhǔn)確運(yùn)行.

我們先看一下在開發(fā)平臺(tái)當(dāng)中怎么保證數(shù)據(jù)一致性的,在我們平臺(tái)每天會(huì)運(yùn)行幾千個(gè)腳本,那怎么保證所有開發(fā)人員它的操作是同步一致性的,我們是從這幾個(gè)方面保證的.

4.2 DSP數(shù)據(jù)服務(wù)平臺(tái)解決方案

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

所有開發(fā)人員在創(chuàng)建調(diào)度會(huì)保證創(chuàng)建調(diào)度一致性,調(diào)度創(chuàng)建之后開發(fā)人員進(jìn)行執(zhí)行,執(zhí)行之后會(huì)進(jìn)行比對(duì),比對(duì)完成之后會(huì)由相關(guān)人員進(jìn)行審核,審核完成之后,這些數(shù)據(jù)才能合并到主表當(dāng)中.

4.3 創(chuàng)建調(diào)度如何保證

創(chuàng)建調(diào)度這個(gè)環(huán)節(jié)我們是怎么保證的呢?我們主要分成下面幾個(gè)層面來(lái)處理.

DB 到 RAW 層
數(shù)據(jù)從 DB 到 RAW 層,也就是同步層,我們會(huì)看一下我們的數(shù)據(jù)來(lái)源于哪個(gè)數(shù)據(jù)庫(kù),因?yàn)槲覀冇袔资畟€(gè)數(shù)據(jù)庫(kù).這時(shí)大家都可以選擇相應(yīng)的數(shù)據(jù)庫(kù)和模式,輸入表名,會(huì)自動(dòng)檢測(cè)出來(lái)這張表當(dāng)中有多少字段,以及這些字段轉(zhuǎn)化的類型,數(shù)據(jù)到 RAW 層的時(shí)候,類型是需要處理的.有些開發(fā)人員可能會(huì)發(fā)現(xiàn),生成的字段類型不符合預(yù)期, 是可以修改的.
RAW 層到 MID 層
創(chuàng)建都是自動(dòng)的,只需要點(diǎn)擊一個(gè)按鈕就可以自動(dòng)生成 MID 層,并且生成相應(yīng)的清洗 sql,對(duì)于一些常用的字段會(huì)有一些自定義函數(shù),生成的 sql 會(huì)自動(dòng)套用自定義函數(shù).比如日期類型等.在我們 MID 層,會(huì)統(tǒng)一處理成一樣的方式,比如客戶是十五位身份證,需要把這些身份證做18位轉(zhuǎn)化,這些都是我們通過(guò)自定義函數(shù)在 MID 層做清洗的.

有些開發(fā)人員可能會(huì)覺得有些字段清洗方式還不夠的情況下,你可以在外圍增加清洗的方式,但是不能更改當(dāng)前的清洗方式,這是流程會(huì)監(jiān)控到的.
BASE 層
然后是 BASE 層,BASE 完成之后到 fact 層,對(duì)于指標(biāo)系統(tǒng),我們會(huì)涉及到對(duì)應(yīng)的指標(biāo),以及我需要對(duì)這些指標(biāo)做一些相應(yīng)的聚合、匯總或者求一些值,這些都是在相應(yīng)系統(tǒng)里自動(dòng)配置,然后生成相應(yīng)的腳本,是不存在人工處理的方式.

4.4 測(cè)試如何執(zhí)行

我們?cè)趧?chuàng)建調(diào)度環(huán)節(jié),通過(guò)自動(dòng)化的方式,來(lái)保證我們?cè)陂_發(fā)過(guò)程當(dāng)中,所有的生成的調(diào)度是一樣的.

這時(shí)候調(diào)度創(chuàng)建成功了,需要進(jìn)行驗(yàn)證,也就是我們測(cè)試執(zhí)行的過(guò)程,在這個(gè)過(guò)程當(dāng)中,我們開發(fā)人員需要進(jìn)行自測(cè),因?yàn)檫@個(gè)版本是待上線版本,需要驗(yàn)證,選擇執(zhí)行的日期,比如一些存量表要執(zhí)行一天.

對(duì)于增量表可能需要執(zhí)行很多天,執(zhí)行以后這些數(shù)據(jù)會(huì)放在臨時(shí)位置上,需要對(duì)臨時(shí)數(shù)據(jù)進(jìn)行校驗(yàn).

4.5 測(cè)試如何比對(duì)

我們還有一個(gè)測(cè)試比對(duì)環(huán)節(jié),在測(cè)試比對(duì)環(huán)節(jié)所有模板都已設(shè)置,在模板當(dāng)中我們會(huì)完成哪些功能呢?

第一, 我們字段里表結(jié)構(gòu),這些最基本的,我們會(huì)進(jìn)行全面的驗(yàn)證.

第二, 一些 count、max、min、sum,還有空值、空格、NULL 值,長(zhǎng)度、頻度診斷,還有數(shù)據(jù)比對(duì).

這樣我們?cè)谡麄€(gè)開發(fā)流程當(dāng)中,可以保證 RAW、MID 層不用再轉(zhuǎn)測(cè)試,BASE 層和 fact 層,因涉及業(yè)務(wù)邏輯,需要測(cè)試人員進(jìn)行驗(yàn)證.

4.6 我們的測(cè)試方法

在我們測(cè)試的時(shí)候,常用的方法有很多,最重要的一點(diǎn)是我們需要對(duì)源數(shù)據(jù)進(jìn)行分析,這就是數(shù)據(jù)診斷過(guò)程.

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

我們會(huì)進(jìn)行 DT 分布診斷,比如對(duì)于全量表,dt 分布應(yīng)該是曲線上升的,如果某天變成曲線波動(dòng),就說(shuō)明出現(xiàn)了問(wèn)題.
我們會(huì)做重復(fù)觀測(cè)診斷,重復(fù)觀測(cè)診斷可以判斷,來(lái)確定這張表的組件是什么,如果數(shù)據(jù)主鍵存在重復(fù)數(shù)據(jù)的情況下,就要確認(rèn)這張表是不是遷移的時(shí)候就有問(wèn)題還是源數(shù)據(jù)有問(wèn)題,這是需要分析的.
單變量診斷,這里有頻度、長(zhǎng)度、截取前XX位的.
數(shù)據(jù)類型分布診斷,有 sum、均值、標(biāo)準(zhǔn)差、max、min、分位數(shù)、中位數(shù)等.

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

其次,我們會(huì)做業(yè)務(wù)診斷.我們對(duì)業(yè)務(wù)診斷過(guò)程中,大家會(huì)發(fā)現(xiàn)對(duì)于底層表可能有幾十個(gè),我們需要分析字段和字段之間存在一對(duì)一,還是一對(duì)多,還是多對(duì)一的關(guān)系,避免數(shù)據(jù)虛增；

數(shù)據(jù)關(guān)系映射,表間映射關(guān)系,診斷通過(guò)哪些字段進(jìn)行關(guān)聯(lián)；

另外我們還會(huì)進(jìn)行表間 HITRATE 診斷,不同表間 ID 類字段的匹配率,來(lái)確定哪張表是主表.

只有通過(guò)診斷,才能發(fā)現(xiàn)哪些數(shù)據(jù)或者業(yè)務(wù)存在問(wèn)題,不是說(shuō)業(yè)務(wù)告訴我什么樣子就是什么樣的情況.大家可能會(huì)很奇怪,你們做這么多診斷,你們?cè)陧?xiàng)目中是怎么做的.

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

舉個(gè)例子,經(jīng)常使用平安證券 App 的人會(huì)知道,我們頁(yè)面上會(huì)有收益額,比如收益額 = 期末市值 – 期初市 + 賣出 – 買入.

因?yàn)榻灰滋幚矸绞绞遣灰粯拥?比如晚上我們要做清算,可能有些公司不是這樣的情況,我們要跟交易所做清算,跟 TA 公司做清算等,這些清算規(guī)則也是不一樣的,不同基金清算方式不一樣的.

并且我們數(shù)據(jù)來(lái)自不同系統(tǒng),比如賬戶系統(tǒng)、交易系統(tǒng)、基金系統(tǒng)、融資融券等.

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

我們看算一個(gè)收益指標(biāo)是怎么做的.

DT分布
先是 RAW 層和 MID 層,這兩個(gè)層的數(shù)據(jù)基本與原數(shù)據(jù)保持一致的,唯一不同是我們的清洗層會(huì)對(duì)相應(yīng)數(shù)據(jù)進(jìn)行處理,比如 dt 分布診斷.可以判斷每天的數(shù)據(jù)是不是存在問(wèn)題.另外還可以判斷底層為了上層進(jìn)行匯總的時(shí)候,第一天數(shù)據(jù)起始日期是否一致,因?yàn)閿?shù)據(jù)來(lái)源于不同系統(tǒng),而且我們所有系統(tǒng)開始日期都是不一樣的.

比如交易股票,可能很早之前就有數(shù)據(jù)了,但是我們場(chǎng)外基金是最近幾年才有的,如果拉歷史數(shù)據(jù)少拉一年或者少拉一天數(shù)據(jù),算出客戶最終收益都是不對(duì)的.

只有把底表歷史數(shù)據(jù)拉出來(lái)以后看開始日期是不是正確的,這樣才能保證上層匯總的數(shù)據(jù)是不是正確的.
重復(fù)觀測(cè)
重復(fù)觀測(cè),比如一個(gè)客戶同一天有多筆交易,需要判斷客戶是因?yàn)橘I了這么多次交易,還是因?yàn)榻灰琢魉旧沓霈F(xiàn)問(wèn)題,客戶是否是一模一樣的交易記錄,這兩種方式最終處理方式是不一樣的.
單變量的診斷
我們會(huì)做單變量的診斷,一般情況下,業(yè)務(wù)人員或者研發(fā)人員會(huì)告訴你市值從哪里獲取,但是獲取的時(shí)候會(huì)發(fā)現(xiàn)市值有空的情況,那就要分析這個(gè)客戶有沒(méi)有股票,如果客戶有股票,市值為空的話,那就是有問(wèn)題,就需要重新在判斷.
數(shù)據(jù)診斷
數(shù)據(jù)診斷,如果說(shuō)不對(duì)數(shù)據(jù)進(jìn)行診斷,就不清楚這個(gè)業(yè)務(wù)什么樣子,可能有些人會(huì)認(rèn)為,業(yè)務(wù)人員都很資深的,對(duì)這些都很了解,那是否還知道十年前的數(shù)據(jù)是什么樣的嗎,只有通過(guò)深入分析,才能對(duì)數(shù)據(jù)上層進(jìn)行匯總,保證它的質(zhì)量.以我的資金為例,可以看到這個(gè)客戶的資金流水是在哪個(gè)范圍之內(nèi),才能確保上層匯總出來(lái)的數(shù)據(jù)是否正確.如果已經(jīng)對(duì)客戶總資產(chǎn)算出來(lái)一個(gè)范圍,在上層匯總的時(shí)候,發(fā)現(xiàn)明顯有大的變化,那只能說(shuō)明在實(shí)現(xiàn)業(yè)務(wù)的過(guò)程中數(shù)據(jù)數(shù)出現(xiàn)了問(wèn)題.
業(yè)務(wù)診斷
業(yè)務(wù)診斷,另外還有根據(jù)業(yè)務(wù)的行為,確認(rèn)上層怎么進(jìn)行匯總.經(jīng)過(guò)診斷之后,才能根據(jù)這樣的情況做上層,就是 BASE 層,BASE 會(huì)根據(jù)客戶和產(chǎn)品粒度進(jìn)行匯總,比如客戶買了哪支股票,他的收益額是什么情況,或者不同的股票,不同的基金等等.BASE 層匯總,還是一樣要做相關(guān)的數(shù)據(jù)診斷和業(yè)務(wù)診斷,我們也會(huì)根據(jù)原始業(yè)務(wù)診斷結(jié)果,確定上層業(yè)務(wù)場(chǎng)景是不是做了全部覆蓋.

BASE 層之后是業(yè)務(wù)實(shí)現(xiàn)層,這時(shí)候就比較簡(jiǎn)單了,我們可以根據(jù)客戶粒度進(jìn)行匯總,客戶收益是什么樣的,這種情況下,除了做診斷之外,還會(huì)做一些比較,只有這樣才能算出真正收益是什么樣的.

只有在不同層級(jí)保證之后,才能保證最頂層數(shù)據(jù)是不是正確的.那要做這么多數(shù)據(jù)診斷,純粹靠人工做是不現(xiàn)實(shí)的事情.

所以搭建了自動(dòng)化平臺(tái),會(huì)對(duì) RAW、MID、BASE 層做各種診斷,把相應(yīng)的診斷sql錄入到自動(dòng)化平臺(tái),后續(xù)所有執(zhí)行都是由自動(dòng)化平臺(tái)執(zhí)行的,執(zhí)行出來(lái)的結(jié)果再作分析.比如現(xiàn)在有一個(gè)新的指標(biāo),需要對(duì)哪些字段進(jìn)行相應(yīng)診斷的時(shí)候,只要運(yùn)行下自動(dòng)化腳本,看一下結(jié)果圖就可以了.

這樣大大方便了測(cè)試人員,降低了手工測(cè)試成本,只需要維護(hù)測(cè)試腳本就可以了.在運(yùn)行結(jié)果之后,可以看到這次運(yùn)行多少個(gè),失敗多少個(gè),看下失敗的是什么造成的.

5、平安大數(shù)據(jù)監(jiān)控平臺(tái)

除了測(cè)試,數(shù)據(jù)是要進(jìn)行上線的,上線之后不可能每天再進(jìn)行測(cè)試,也沒(méi)有那么多精力,對(duì)已經(jīng)上線的指標(biāo)通過(guò)監(jiān)控平臺(tái)進(jìn)行監(jiān)控?cái)?shù)據(jù)運(yùn)行情況.

監(jiān)控平臺(tái)主要從幾個(gè)方面進(jìn)行監(jiān)控.

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

我們會(huì)對(duì)每個(gè)層級(jí)進(jìn)行監(jiān)控,監(jiān)控主要分為幾個(gè)部分.

一是,調(diào)度監(jiān)控,因?yàn)樗写髷?shù)據(jù)實(shí)現(xiàn)的業(yè)務(wù)邏輯都是通過(guò)調(diào)度實(shí)現(xiàn)的,我們就會(huì)對(duì)調(diào)度進(jìn)行監(jiān)控.

二是,數(shù)據(jù)相關(guān)的監(jiān)控指標(biāo),對(duì)數(shù)據(jù)指標(biāo)進(jìn)行監(jiān)控.

三是,還有業(yè)務(wù)口徑相關(guān)的監(jiān)控指標(biāo),這個(gè)是IT人員業(yè)務(wù)口徑.

四是,還有是業(yè)務(wù)人員自己要監(jiān)控的一些業(yè)務(wù)指標(biāo),通過(guò)設(shè)置要監(jiān)控的參數(shù),放到監(jiān)控平臺(tái)里面.

如果說(shuō)每天跑完之后,有異常數(shù)據(jù),會(huì)由告警平臺(tái)發(fā)出相關(guān)郵件,通知大家要進(jìn)行相應(yīng)的處理.

我們現(xiàn)在看一下調(diào)度監(jiān)控都會(huì)監(jiān)控哪些東西?

5.1 任務(wù)狀態(tài)運(yùn)行的監(jiān)控

目前我們運(yùn)行的調(diào)度大概在1300多個(gè),每天都會(huì)監(jiān)控運(yùn)行的情況,還有一部分存在依賴關(guān)系的調(diào)度,如果之前調(diào)度沒(méi)有運(yùn)行完的話,會(huì)定時(shí)發(fā)送郵件告訴開發(fā)人員調(diào)度是延時(shí)了,這是業(yè)務(wù)運(yùn)行狀態(tài)進(jìn)行監(jiān)控.

可能很多人會(huì)覺得,一個(gè)調(diào)度運(yùn)行一個(gè)小時(shí),兩個(gè)小時(shí)覺得是很正常的事情.但在我們平臺(tái)上,一個(gè)調(diào)度運(yùn)行超過(guò)十分鐘就要分析,這個(gè)調(diào)度的代碼是否是有問(wèn)題的.

有些開發(fā)人員可能說(shuō)寫的結(jié)果是對(duì)的,它能夠跑出結(jié)果就可以.但是調(diào)度運(yùn)行時(shí)間長(zhǎng)了,往往會(huì)影響到后面整個(gè)運(yùn)行的過(guò)程,那就會(huì)導(dǎo)致今天一天數(shù)據(jù)可能都沒(méi)有辦法算完.

所以我們對(duì)于每個(gè)腳本運(yùn)行時(shí)間是有限制的,如果超過(guò)十分鐘,開發(fā)人員就要檢測(cè)是不是代碼是否存在問(wèn)題.

5.2 依賴關(guān)系監(jiān)控

我們還有一種監(jiān)控,就是依賴關(guān)系監(jiān)控,大家可以看出,我們一個(gè)調(diào)度可能你的上層依賴很多調(diào)度,你的下層也依賴很多調(diào)度,那調(diào)度和調(diào)度之間是存在依賴關(guān)系的,一個(gè)調(diào)度失敗可能會(huì)影響到其他調(diào)度的失敗.

那么怎么監(jiān)控?我們會(huì)監(jiān)控到你上層依賴多少調(diào)度,下層依賴多少調(diào)度,因?yàn)檫@個(gè)腳本比較特殊,依賴特別多,原因它是我們最后一個(gè)調(diào)度,它需要向我們數(shù)據(jù)庫(kù)推送8萬(wàn)個(gè)指標(biāo)的,所以它的依賴特別大.

在我們調(diào)度依賴會(huì)有一些設(shè)置,如果它依賴的上層調(diào)度或者下層調(diào)度存在問(wèn)題的話,就會(huì)立即停止運(yùn)行,由運(yùn)維人員進(jìn)行處理.

5.3 數(shù)據(jù)規(guī)則監(jiān)控

另外是對(duì)于數(shù)據(jù)規(guī)則的監(jiān)控,一個(gè)是基本規(guī)則的監(jiān)控,第二自定義規(guī)則監(jiān)控,基本規(guī)則監(jiān)控相對(duì)比較簡(jiǎn)單,大家在測(cè)試和開發(fā)過(guò)程當(dāng)中會(huì)做的一些長(zhǎng)度診斷或者頻度診斷等,這是作為基本功能的監(jiān)控.

我們會(huì)在監(jiān)控平臺(tái)進(jìn)行設(shè)置,還有一些是測(cè)試人員,或者我們業(yè)務(wù)人員他有自己的想法,他不想按照常規(guī)的方式,可能常規(guī)方式也不符合需求,因?yàn)檫@是大體上的監(jiān)控,并不能保證里面的數(shù)據(jù)是不是存在問(wèn)題.

5.4 自定義監(jiān)控

在自定義監(jiān)控上,開發(fā)人員和業(yè)務(wù)人員可以根據(jù)自己的需求設(shè)置相應(yīng)的指標(biāo),這個(gè)平臺(tái)相對(duì)而言,它靈活性比較高一些,可以被我們所有相關(guān)人員進(jìn)行使用,根據(jù)需求進(jìn)行監(jiān)控.

除了數(shù)據(jù)監(jiān)控之外,我們業(yè)務(wù)人員會(huì)根據(jù)自己的需求,從業(yè)務(wù)角度制定相關(guān)的監(jiān)控.比如一些核心指標(biāo),可以在監(jiān)控平臺(tái)進(jìn)行設(shè)置,也可以通過(guò)報(bào)表的方式進(jìn)行監(jiān)控,關(guān)注了哪些指標(biāo),這是業(yè)務(wù)人員可以根據(jù)自己的方式進(jìn)行相關(guān)監(jiān)控.

6、總結(jié)

最后總結(jié)下,我們是從開發(fā)階段、測(cè)試階段、監(jiān)控階段,來(lái)保證大數(shù)據(jù)的數(shù)據(jù)準(zhǔn)確性,在開發(fā)階段主要是一站式服務(wù),從創(chuàng)建到執(zhí)行,到比對(duì),開發(fā)階段完成之后,才能夠轉(zhuǎn)測(cè)試,在測(cè)試階段,我們會(huì)進(jìn)行數(shù)據(jù)診斷,自動(dòng)化測(cè)試.

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

自動(dòng)化測(cè)試完成后確認(rèn)腳本沒(méi)有問(wèn)題之后,可以上線,測(cè)試人員評(píng)審,評(píng)審?fù)ㄟ^(guò)之后,就意味著調(diào)度是可以進(jìn)行上線的,就發(fā)布到預(yù)上線過(guò)程,通知運(yùn)維人員調(diào)度已經(jīng)完成測(cè)試,可以進(jìn)行上線,后面的操作就會(huì)由運(yùn)維人員進(jìn)行處理.

上線之后監(jiān)控平臺(tái)監(jiān)控調(diào)度、數(shù)據(jù)、業(yè)務(wù)是否存在問(wèn)題,如果存在問(wèn)題,就會(huì)快速通知到相關(guān)的開發(fā)人員或者運(yùn)維人員進(jìn)行相應(yīng)的處理,這是目前已經(jīng)實(shí)現(xiàn)的情況.

對(duì)于未來(lái)我們有什么考慮呢?第一我們會(huì)考慮平臺(tái)互通,目前我們開發(fā)平臺(tái)、測(cè)試平臺(tái)、監(jiān)控平臺(tái),都是相對(duì)獨(dú)立的.

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

目前開發(fā)平臺(tái)和監(jiān)控平臺(tái)之間還有一些關(guān)聯(lián)關(guān)系,但是我們自動(dòng)化平臺(tái)是沒(méi)有跟它們進(jìn)行打通的.后面會(huì)考慮,比如說(shuō)開發(fā)完一個(gè)調(diào)度之后,自動(dòng)到自動(dòng)化平臺(tái)進(jìn)行運(yùn)行,可以快速保證,完成測(cè)試的過(guò)程.

另外還有一個(gè)部分,我們會(huì)考慮自動(dòng)化平臺(tái)和監(jiān)控平臺(tái)打通,打通的目的比如一個(gè)指標(biāo)出現(xiàn)問(wèn)題,可能并不清楚是哪個(gè)客戶指標(biāo)出現(xiàn)問(wèn)題了,如果和監(jiān)控打通的話,快速知道是哪個(gè)客戶的指標(biāo)出現(xiàn)問(wèn)題.

第二部分,我們會(huì)對(duì)我們的平臺(tái)進(jìn)行豐富,后續(xù)我們會(huì)把很多東西加入到自動(dòng)化平臺(tái)來(lái),真正的產(chǎn)品化.另外是監(jiān)控體系,目前監(jiān)控體系有一部分是由數(shù)據(jù)分析人員分析出來(lái)一些值和數(shù)據(jù)提供給我們,進(jìn)行監(jiān)控.

但是這些是被動(dòng)的,我們后期會(huì)把一些統(tǒng)計(jì)分析其機(jī)器學(xué)習(xí)方法運(yùn)用到監(jiān)控當(dāng)中,豐富監(jiān)控指標(biāo).

另外當(dāng)前我們做的數(shù)據(jù)都是離線數(shù)據(jù),每天晚上交易結(jié)束之后,會(huì)把數(shù)據(jù)進(jìn)行遷移,對(duì)于實(shí)時(shí)數(shù)據(jù)目前沒(méi)有驗(yàn)證,后續(xù)我們也要考慮怎么保證實(shí)時(shí)數(shù)據(jù)的準(zhǔn)確性.

原文來(lái)自——微信公眾號(hào)(高效運(yùn)維)

轉(zhuǎn)載請(qǐng)注明本頁(yè)網(wǎng)址：
http://www.fzlkiss.com/jiaocheng/4320.html

標(biāo)簽：

乱爱性全过程免费视频/午夜毛片视频/中文字幕av三区/一级视频网址

PHP教程

WEB前端開發(fā)

數(shù)據(jù)庫(kù)

WEB服務(wù)器

APP開發(fā)

LINUX學(xué)習(xí)

后端開發(fā)課程

前端開發(fā)課程

數(shù)據(jù)庫(kù)課程

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

作者簡(jiǎn)介：

劉宏霞

平安證券大數(shù)據(jù)測(cè)試組負(fù)責(zé)人

前言

1、平安大數(shù)據(jù)做些什么

2、平安大數(shù)據(jù)系統(tǒng)的組成部分

3、實(shí)施大數(shù)據(jù)面臨的挑戰(zhàn)

挑戰(zhàn)一：指標(biāo)繁多

挑戰(zhàn)二：數(shù)據(jù)的準(zhǔn)確性

挑戰(zhàn)三：數(shù)據(jù)穩(wěn)定性

挑戰(zhàn)四：口徑一致性

挑戰(zhàn)五：規(guī)模化服務(wù)

挑戰(zhàn)六：人力

4、我們的解決思路和方案

4.1 我們的解決思路

4.2 DSP數(shù)據(jù)服務(wù)平臺(tái)解決方案

4.3 創(chuàng)建調(diào)度如何保證

4.4 測(cè)試如何執(zhí)行

4.5 測(cè)試如何比對(duì)

4.6 我們的測(cè)試方法

5、平安大數(shù)據(jù)監(jiān)控平臺(tái)

5.1 任務(wù)狀態(tài)運(yùn)行的監(jiān)控

5.2 依賴關(guān)系監(jiān)控

5.3 數(shù)據(jù)規(guī)則監(jiān)控

5.4 自定義監(jiān)控

6、總結(jié)

同類教程排行

特輯教程

乱爱性全过程免费视频/午夜毛片视频/中文字幕av三区/一级视频网址

PHP教程

WEB前端開發(fā)

數(shù)據(jù)庫(kù)

WEB服務(wù)器

APP開發(fā)

LINUX學(xué)習(xí)

后端開發(fā)課程

前端開發(fā)課程

數(shù)據(jù)庫(kù)課程

平安證券劉宏霞：教你如何保障大數(shù)據(jù)質(zhì)量

作者簡(jiǎn)介：

劉宏霞

平安證券 大數(shù)據(jù)測(cè)試組負(fù)責(zé)人

前言

1、平安大數(shù)據(jù)做些什么

2、平安大數(shù)據(jù)系統(tǒng)的組成部分

3、實(shí)施大數(shù)據(jù)面臨的挑戰(zhàn)

挑戰(zhàn)一：指標(biāo)繁多

挑戰(zhàn)二：數(shù)據(jù)的準(zhǔn)確性

挑戰(zhàn)三：數(shù)據(jù)穩(wěn)定性

挑戰(zhàn)四：口徑一致性

挑戰(zhàn)五：規(guī)模化服務(wù)

挑戰(zhàn)六：人力

4、我們的解決思路和方案

4.1 我們的解決思路

4.2 DSP數(shù)據(jù)服務(wù)平臺(tái)解決方案

4.3 創(chuàng)建調(diào)度如何保證

4.4 測(cè)試如何執(zhí)行

4.5 測(cè)試如何比對(duì)

4.6 我們的測(cè)試方法

5、平安大數(shù)據(jù)監(jiān)控平臺(tái)

5.1 任務(wù)狀態(tài)運(yùn)行的監(jiān)控

5.2 依賴關(guān)系監(jiān)控

5.3 數(shù)據(jù)規(guī)則監(jiān)控

5.4 自定義監(jiān)控

6、總結(jié)

同類教程排行

特輯教程

平安證券大數(shù)據(jù)測(cè)試組負(fù)責(zé)人