注:近日,九章云極聯(lián)合創(chuàng)始人兼CEO方磊博士在天堂硅谷信息技術(shù)閉門會(huì)上做了精彩發(fā)言,以下根據(jù)其講話實(shí)錄整理而成。
謝謝大家,要不就先解釋名字是怎么來的吧,主要是當(dāng)時(shí)想的《九章算術(shù)》是我們國家第一個(gè)講究數(shù)學(xué)或者算法的經(jīng)典著作,所以選了“九章”;然后創(chuàng)立公司的時(shí)候,我們覺得云計(jì)算是未來,我自己也是在09年最早一批開始做云計(jì)算的,所以也取了個(gè)“云”字;“極”字其實(shí)是取了一個(gè)漢字里面的一個(gè)很大的數(shù)字,大家知道我們有千、萬、億、兆、京、垓很多單位,“極”就是其中一個(gè)單位,是10的48次方,是個(gè)很大的數(shù),我們就把“九章云極”串在了一起。
我今天想給大家分享的是數(shù)據(jù)科學(xué)平臺(tái),九章云極從2013年開始我們一直在做這件事,我們叫數(shù)據(jù)科學(xué)平臺(tái),但是很遺憾Gartner對(duì)于這個(gè)賽道的定義是2017年2月份才出來。所以在那之前,我們到處去跟別人交流,有一點(diǎn)不受待見,別人問你這到底是干嘛的?
我們到底是干什么的呢?這個(gè)疑問從我們公司成立伴隨著我們一直到現(xiàn)在,雖然疑問開始變少了,但相對(duì)還是挺多的,所以到底什么是數(shù)據(jù)科學(xué)平臺(tái)?
我簡單說明一下,我們對(duì)數(shù)據(jù)傳統(tǒng)認(rèn)知有三大塊:第一塊我們叫數(shù)據(jù)倉庫,就是把所有數(shù)據(jù)都收集起來,是相對(duì)成熟的一個(gè)行業(yè),我們?nèi)タ碐artner的象限和報(bào)告是很成熟的。第二塊我們叫數(shù)據(jù)治理,這個(gè)行業(yè)在中國主要是以咨詢公司為主,來治理數(shù)據(jù),那么在美國也有一些偏AI的公司也進(jìn)入這個(gè)領(lǐng)域。剛才高總也提到數(shù)據(jù)庫里1萬張表,可能每個(gè)字段都說是客戶,但名字都不一樣,我只能把它拆出來,這些其實(shí)也是屬于數(shù)據(jù)治理的一個(gè)范疇。
第三塊傳統(tǒng)的叫法是BI,你可以理解成,第一塊是把數(shù)據(jù)存起來,第二塊是弄清楚數(shù)據(jù)在業(yè)務(wù)里的含義到底是什么,比如125是訂單的金額,還是賣掉貨品的數(shù)量。BI這個(gè)詞用的非常早,但事實(shí)上在過去絕大部分BI就是在做可視化。當(dāng)把數(shù)據(jù)倉庫里的數(shù)字含義弄明白以后,用可視化的方式展現(xiàn)給不同的人,可能是偏業(yè)務(wù)的,也可能是說偏運(yùn)營的或者是偏領(lǐng)導(dǎo)層的,不同人看到的dashboard是不一樣的。這里面產(chǎn)生了很多特有的市場,在中國大屏就是個(gè)很大的市場。因?yàn)轭I(lǐng)導(dǎo)都需要看大屏,或者很多地方都需要有一個(gè)讓人參觀的地方,就有很多大屏,這也是BI的范疇。
2017年2月份Gartner加入了第四塊,他們叫作數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)。簡單來說,數(shù)據(jù)的一些value的出口在BI上,主要還是以可視化的方式來展示的,那么在數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí),數(shù)據(jù)value的主要體現(xiàn)方式是做模型。大家可以認(rèn)為從傳統(tǒng)的比較簡單的回歸的模型,到稍微經(jīng)典的機(jī)器學(xué)習(xí)的模型,再到比較復(fù)雜的深度學(xué)習(xí)的模型,都屬于這個(gè)范疇,所以我們是用模型來體現(xiàn)數(shù)據(jù)的價(jià)值,當(dāng)然模型絕大部分時(shí)候是來做預(yù)測的。
這跟以前是不一樣的,舉一個(gè)非常簡單的例子:一個(gè)信用卡中心,有過去的所有的客戶還款記錄,如果你做一個(gè)BI的項(xiàng)目,看到的是當(dāng)月有多少還款,還了多少錢,有什么人不還;那么你做一個(gè)所謂數(shù)據(jù)科學(xué)的項(xiàng)目,most likely去做一個(gè)模型,預(yù)測下個(gè)月誰不還款,下個(gè)月誰不還款這個(gè)模型叫預(yù)測模型。
但是他業(yè)務(wù)價(jià)值還不明顯,那么如果體現(xiàn)在業(yè)務(wù)價(jià)值上,我有數(shù)據(jù),比如所有還款的記錄,然后我有一些算法,這些算法當(dāng)然可能是各種各樣的算法,然后我有個(gè)人叫數(shù)據(jù)科學(xué)家,或者說一個(gè)懂一些數(shù)據(jù)的人,那么這個(gè)業(yè)務(wù)價(jià)值是什么?業(yè)務(wù)價(jià)值可能是說,這個(gè)模型預(yù)測下個(gè)月誰可能不還款,然后這個(gè)人如果來申請(qǐng)調(diào)額,我就拒絕他。因?yàn)楹枚嗳擞X得下個(gè)月刷爆了,那就再調(diào)一下,再多刷一點(diǎn),反正下個(gè)月還不出來,那么這個(gè)月的業(yè)務(wù)上銀行是有事實(shí)的錢的損失的,那么業(yè)務(wù)價(jià)值就是說,銀行拒絕一些調(diào)額人的請(qǐng)求來減少損失,那他用到的可能就是一個(gè)預(yù)測模型,這個(gè)算法是在過去的歷史上判斷出每個(gè)人的還款概率。
數(shù)據(jù)科學(xué)簡而言之就是說有數(shù)據(jù)了,然后有一個(gè)人來做個(gè)算法都會(huì)對(duì)業(yè)務(wù)有個(gè)價(jià)值,其實(shí)我們剛才說了很多事情,前面幾位我覺得大家都說的,可能跟這個(gè)是有些重疊的,在這個(gè)里面,為了做到剛才說的那些對(duì)業(yè)務(wù)的各個(gè)場景,我們稱為數(shù)據(jù)應(yīng)用的話,你需要一個(gè)相對(duì)平臺(tái)性的東西,我們就是在做這個(gè)平臺(tái)性的東西的廠商。
所以看一下歷史是怎么發(fā)展過來的,其實(shí)中美有一個(gè)很大的差別在于,在數(shù)據(jù)分析這個(gè)行業(yè),中文的“分析”這個(gè)詞一聽就比較小,當(dāng)然很多投資人一聽做分析,就感覺不太行了,市場不是很大,但是在英文里說“analytics”這是個(gè)巨大的行業(yè)。大家中文里說的很大部分所謂AI行業(yè)、人工智能行業(yè),其實(shí)都是屬于analytics這里面的,所以整個(gè)大的分析行業(yè),如果說用全球的視角來看,其實(shí)是很大的一個(gè)市場。
那么在最開始的階段我們稱之為semantic data,就是說一些數(shù)據(jù)的基本的匯總,其實(shí)到今天為止,這個(gè)也做得很差,說老實(shí)話,在數(shù)據(jù)中臺(tái)可能還要補(bǔ)一些這樣的課,因?yàn)橛泻芏鄶?shù)據(jù)庫里面很多含義對(duì)不上,就這一塊階段主要是一些數(shù)據(jù)庫的出現(xiàn)。到了2000年以后,大家慢慢的都有數(shù)據(jù)倉庫了,這個(gè)時(shí)候就進(jìn)入了我們今天認(rèn)為的BI時(shí)代,analytics這些廠商基本上還是圍繞著可視化展示為核心來做,還有一些我們說探索的能力,比如說你可以自由的去發(fā)問,問過去三個(gè)月江浙滬什么女性買了傘,一共多少人。它可能不是一個(gè)預(yù)先定義好的報(bào)表,它可能是一個(gè)自由的查詢。到2015年以后,我們進(jìn)入一個(gè)增強(qiáng)分析的時(shí)代,這個(gè)時(shí)候其實(shí)出現(xiàn)了新的品類叫數(shù)據(jù)科學(xué)平臺(tái),更多的是讓你可以用機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的方式開始構(gòu)建模型了,我們進(jìn)入了模型的時(shí)代。所以總結(jié)來說,數(shù)據(jù)科學(xué)這個(gè)事,就是數(shù)據(jù)的價(jià)值的出口主要是以模型的角度來體現(xiàn)的。數(shù)據(jù)科學(xué)平臺(tái)最核心的事情是做模型,當(dāng)然這個(gè)做模型本身在很多時(shí)候還要人做的,我們叫他們數(shù)據(jù)科學(xué)家。
現(xiàn)在我們處在2015后面的增強(qiáng)分析的時(shí)代里,我們看一下國際上有哪些廠商,他們都是在不同的年代成立的。我剛才說有些公司成立比較早,比如說Alteryx,它是2009年成立,2017年就上市了,現(xiàn)在大概市值60億到70億之間波動(dòng),它是一個(gè)典型的數(shù)據(jù)科學(xué)平臺(tái)的廠商。同時(shí)也有一些別的廠商,比如Dataiku,Datarobot。我舉這三個(gè)廠商的例子,它們代表了三種不同的方式,我稱為三劍客,Alteryx成立的比較早,那時(shí)候建模的方式主要還是在數(shù)據(jù)準(zhǔn)備上,建模本身是以編碼來實(shí)現(xiàn),那么到Dataiku成立的時(shí)期,建模更多的時(shí)候被我們稱為拖拉拽,現(xiàn)在覺得大家對(duì)這個(gè)說法都已經(jīng)有點(diǎn)審美疲勞了,就拖拖拽拽,然后就出來一個(gè)類似于工作流的東西,然后跑出一個(gè)模型來。那么到了Datarobot,它雖然在2013年成立,但真正開始發(fā)力是2016年,拿了AZ16的融資,它主打叫自動(dòng)機(jī)器學(xué)習(xí)。
所以可以看到其實(shí)整個(gè)的軸線在數(shù)據(jù)科學(xué)平臺(tái)上是圍繞著建模,把建模的壁壘越降越低。編碼建模肯定需要程序員甚至高級(jí)程序員;那么到拖拉拽建模,一些我們叫平民數(shù)據(jù)科學(xué)家或者不是那么熟悉編碼的人,而不是一個(gè)機(jī)器學(xué)習(xí)專家都可以使用;到了自動(dòng)建模,偏業(yè)務(wù)的人員都可以使用。技術(shù)的軸線,其實(shí)整個(gè)所謂的IT業(yè)就是不停的來降低技術(shù)的壁壘。
這三個(gè)廠商其實(shí)體現(xiàn)了三種不同的建模風(fēng)格,那么今天的趨勢(shì)是建模方式都融合了,大家都會(huì)去做自動(dòng)建模,大家都有些拖拉拽這個(gè)功能和編碼建模,我們稱為“三位一體”,就是各種建模方式對(duì)于不同能力的人都會(huì)輸出。然后我們自己吹一下自己,確實(shí)九章云極在國內(nèi)是比較早的專注的來做這一塊的公司,我們一開始就給自己定位了,我們的數(shù)據(jù)科學(xué)平臺(tái)叫DataCanvas,就是油畫、畫布的意思。
經(jīng)過這么幾年,我們也服務(wù)了一些客戶,我們是比較專注的在提供一個(gè)數(shù)據(jù)科學(xué)平臺(tái),讓數(shù)據(jù)科學(xué)家可以在上面去構(gòu)建各種各樣的模型,這樣的模型就是能夠去賦能各種各樣的業(yè)務(wù)場景。那么要一個(gè)數(shù)據(jù)科學(xué)平臺(tái),主要干什么事情?數(shù)據(jù)科學(xué)平臺(tái)就是建模型的,所以你有一個(gè)業(yè)務(wù)場景就來建一個(gè)模型。比如說一個(gè)保險(xiǎn)公司的業(yè)務(wù)場景,車輛發(fā)生剮蹭后車主要去發(fā)一個(gè)claim,然后你要上傳一張剮蹭照片,上傳照片以后,其實(shí)后面是有一個(gè)模型在處理的。因?yàn)樘詫毶螾照片特別便宜,所以保險(xiǎn)公司有一個(gè)模型判斷一下剮蹭照片是不是被ps過,人肉眼很難分辨,但是用一些比較簡單的深度學(xué)習(xí)的網(wǎng)絡(luò)去訓(xùn)練一下,就很容易的發(fā)現(xiàn)它是不是ps的圖片。這種情況下保險(xiǎn)公司的科技團(tuán)隊(duì)的人,或者說一個(gè)核賠的部門的人,就是做這樣一個(gè)事情。
所以說首先它可能得有個(gè)人做這個(gè)事,其次它有業(yè)務(wù)目標(biāo)——要判斷一個(gè)圖片是不是P過——然后把自動(dòng)模型放到整個(gè)業(yè)務(wù)流程里面的某個(gè)地方去調(diào)用它。這樣一個(gè)過程其實(shí)基本上會(huì)經(jīng)歷這么幾個(gè)階段,首先得有數(shù)據(jù),數(shù)據(jù)有可能需要我們中臺(tái)去讀,或者說什么接口,拿這個(gè)數(shù)據(jù)來以后,可能有的是有標(biāo)注的,有的是沒有標(biāo)注的,我們要套用一些算法訓(xùn)練它,訓(xùn)練完這個(gè)模型,我們會(huì)把它上線,上線來調(diào)用它,并且持續(xù)的更新。你可以理解這個(gè)數(shù)據(jù)科學(xué)平臺(tái),就是內(nèi)部或者外部的數(shù)據(jù)科學(xué)家用它去構(gòu)建一個(gè)個(gè)數(shù)據(jù)應(yīng)用,去做一個(gè)個(gè)數(shù)據(jù)科學(xué)項(xiàng)目。
核心的建模方式其實(shí)就那么幾種,我可以共享一個(gè)我們自己看到的數(shù)字。在我們?cè)粕系臏y試環(huán)境里面,有很多用戶開了很多賬號(hào),用戶測試的時(shí)候很喜歡開個(gè)賬號(hào)用公開數(shù)據(jù)來試一試。在這些賬戶里面能編碼建模的,就我們看到的3%都不到,所有賬號(hào),你別忘了這些賬號(hào)已經(jīng)是有一定的bias,因?yàn)樗信d趣才來的,不是大街上隨便抓的人。那么能夠拖拉拽建模的人,其實(shí)也就5-6%。但是有60%的人能夠完成自動(dòng)建模,可能沒搞十分清楚,但他們也完成了,所以自動(dòng)建模對(duì)壁壘的降低還是很顯著的。但是真正要實(shí)現(xiàn)業(yè)務(wù)價(jià)值,其實(shí)并不是降低建模難度就可以,待會(huì)我會(huì)分享一下我們的一些觀點(diǎn)。所以大家可以看到能夠明顯降低壁壘的,就是自動(dòng)機(jī)器學(xué)習(xí)。
自動(dòng)機(jī)器學(xué)習(xí)其實(shí)還是有很多步驟要去做,因?yàn)樽鲆粋€(gè)模型你可能要準(zhǔn)備數(shù)據(jù),那數(shù)據(jù)準(zhǔn)備是不是自動(dòng)化的,然后你的算法是不是自動(dòng)化的,算法調(diào)參是不是自動(dòng)化的,總的來說這里面很多的門類,后面我有一個(gè)例子,大家會(huì)看到,怎么去做這樣一個(gè)事情。自動(dòng)機(jī)器學(xué)習(xí)像自動(dòng)駕駛,聽起來很好的,其實(shí)沒那么靠譜,如果當(dāng)自動(dòng)駕駛的這個(gè)L1、L2、L3、L4、L5這么來看,我覺得現(xiàn)在有個(gè)L2.5也差不多了,可能達(dá)不到那么非常完美的程度,特別是對(duì)于一些業(yè)務(wù)高度相關(guān)的一些地方。其實(shí)自動(dòng)機(jī)器學(xué)習(xí)能做的事情,相對(duì)比較有限。過去五年是數(shù)據(jù)科學(xué)發(fā)展比較快的五年,我們能看到整個(gè)業(yè)界不管是技術(shù)的革新,產(chǎn)品的革新,還有包括我們?cè)趦?nèi)的國內(nèi)外的一些廠商,所有事情,核心在于降低壁壘。
做模型上線這個(gè)事情,很多人對(duì)它的理解可能是比較淺的,比如說我做了個(gè)模型,判斷照片是不是P過,假設(shè)這個(gè)模型做出來挺準(zhǔn),那就調(diào)用它。但是其實(shí)在傳統(tǒng)的企業(yè)架構(gòu)里面,去運(yùn)行一個(gè)學(xué)習(xí)模型這個(gè)事是不存在的,因?yàn)橐郧暗腂I,很多時(shí)候它是到了一個(gè)大屏幕上去展示,它并不在那持續(xù)的運(yùn)行,它不是生產(chǎn)環(huán)境的,就是整個(gè)持續(xù)運(yùn)營的生產(chǎn)系統(tǒng)的一部分。交易是每時(shí)每刻發(fā)生的,但是你可能1天才跑一個(gè)報(bào)表。但是如果說這個(gè)模型假設(shè)是每秒鐘都有可能APP的請(qǐng)求進(jìn)來,都是去調(diào)動(dòng)它,所以這個(gè)環(huán)境要運(yùn)行它,那么這個(gè)事情按高大上的說法,不是叫做模型生產(chǎn)化,它叫productionize AI,我覺得實(shí)際點(diǎn)說,就是說怎么把模型運(yùn)行起來,所以當(dāng)你做完一個(gè)模型運(yùn)行模型,其實(shí)也是IT再往前革新的一個(gè)很重要的一個(gè)窗口機(jī)會(huì)。美國有一些創(chuàng)業(yè)公司,其實(shí)都在做這一塊模型生產(chǎn)化的工作,因?yàn)槟阈枰粋€(gè)新的IT架構(gòu)讓它持續(xù)的運(yùn)行、迭代、上線、下線做這樣一些管理工作,這一塊原來在整個(gè)企業(yè)的服務(wù)數(shù)據(jù)架構(gòu)就是不太存在的,所以這是很大的一個(gè)需求。
我們看到有些做模型運(yùn)維的人,現(xiàn)在為什么要模型運(yùn)維,因?yàn)榻灰紫到y(tǒng)是有業(yè)務(wù)運(yùn)行,它不能壞。其實(shí)這個(gè)模型一直在被運(yùn)行,一直在被調(diào)用,模型也有需求。做數(shù)據(jù)科學(xué)最可怕的事情,他需要是個(gè)雜家,我們公司現(xiàn)在有人來面試完,第二天卻不想來了,他覺得要學(xué)的東西太多,壓力太大了。因?yàn)槟阋恍?shù)據(jù)的事,然后也希望懂一些機(jī)器學(xué)習(xí),甚至你在業(yè)務(wù)上也會(huì)溝通,有的人技術(shù)很好,他很不愿意去理解業(yè)務(wù)的一些問題,但他也很難在這里去做一些深入的工作,所以你也可能是會(huì)一些編碼,同時(shí)還懂一些分析的概念。比如當(dāng)你發(fā)現(xiàn)這個(gè)數(shù)據(jù)大量是缺失的,missing value很高,那么數(shù)據(jù)都這么少,你怎么去補(bǔ)充一些數(shù)據(jù)。有的時(shí)候你也沒辦法,你也不可能退回去讓業(yè)務(wù)重新給你更多的數(shù)據(jù),因?yàn)闅v史上積累的就那么些數(shù)據(jù)。所以對(duì)整體而言,我覺得我們產(chǎn)品大幅降低了這些各個(gè)崗位的人的要求,降低了對(duì)數(shù)據(jù)科學(xué)的要求和依賴。
舉個(gè)簡單的例子,是一個(gè)城市商業(yè)銀行簡單的客戶流失預(yù)警。客戶流失按照最簡單的定義,就是三個(gè)月內(nèi)整體資產(chǎn)下降超過60%。整體資產(chǎn)包括他的理財(cái)、存款、一些信貸產(chǎn)品等等。這個(gè)銀行如果做一個(gè)預(yù)警的話,利用自動(dòng)機(jī)器學(xué)習(xí),在這個(gè)案例里幾百個(gè)變量幾十萬條原始記錄,很快就做完了,所以看到自動(dòng)機(jī)器學(xué)習(xí)確實(shí)讓一個(gè)偏業(yè)務(wù)的人,能夠很快去構(gòu)建這個(gè)模型,甚至都不再去需要立項(xiàng),去重新經(jīng)過一個(gè)很復(fù)雜的采購流程,不然可能也得花個(gè)幾十萬。他能做出來模型,這是個(gè)非常重要的,然后下一步是怎么去用它,怎么看效果,其實(shí)也是個(gè)挺復(fù)雜的過程,但不管怎么樣,它把第一步已經(jīng)大大的簡化。
這個(gè)例子大家可以想象一下,剛剛說了要有數(shù)據(jù),就是以前所有歷史上流失的客戶,那么這個(gè)案例非常簡單的原因在什么?大家能看出來,它的歷史數(shù)據(jù)都是有標(biāo)注的,因?yàn)闅v史數(shù)據(jù)已經(jīng)告訴你誰流失了,所以他的標(biāo)注是非常簡單的。其次它的定義也非常明確,就是三個(gè)月從開頭到最后的余額一減,超過60%,就標(biāo)注了,所以你訓(xùn)練它也很簡單,然后經(jīng)過去驗(yàn)證,其實(shí)準(zhǔn)確率是相對(duì)比較高。以往銀行做完這個(gè)流失模型以后,他們會(huì)用推薦理財(cái)來挽救,比如現(xiàn)在余額是五六萬,預(yù)測要流失了,銀行給他推個(gè)7萬起的理財(cái)產(chǎn)品,讓他再轉(zhuǎn)一點(diǎn)進(jìn)來,這個(gè)叫拉新,做業(yè)務(wù)人都知道,讓他能多投一點(diǎn)錢進(jìn)來。有意思的是,這個(gè)模型用的好好的,然后遇到P2P瘋狂爆雷了,P2P一爆雷不保底了,所有人都在去銀行排隊(duì)買大額存單了,所以根本就不需要推薦理財(cái),因此流失預(yù)警模型在那個(gè)時(shí)期也用不到了。你就發(fā)現(xiàn)模型是高度依賴于業(yè)務(wù)的。
大家可以看到,原來很多時(shí)候,我們?nèi)绻f去看一個(gè)軟件或者一個(gè)可視化東西,很多時(shí)候不是運(yùn)營驅(qū)動(dòng)的,而是管理驅(qū)動(dòng)的,包括監(jiān)管報(bào)送,比如在銀行里做的比較完善的監(jiān)管報(bào)送的報(bào)表,它其實(shí)也是管理驅(qū)動(dòng)的。但是其實(shí)像數(shù)據(jù)科學(xué)的一些項(xiàng)目,很多是運(yùn)營驅(qū)動(dòng),運(yùn)營驅(qū)動(dòng)的特點(diǎn)就是說它多變,經(jīng)常會(huì)調(diào)整,所以對(duì)一些客戶來說,他為什么需要一個(gè)數(shù)據(jù)科學(xué)平臺(tái),也是有這個(gè)原因。
這個(gè)在金融行業(yè)比較明確的例子,其實(shí)我們看到了,它是利用平臺(tái)降低了壁壘,這個(gè)平臺(tái)就是讓數(shù)據(jù)科學(xué)家或者說我們叫水平基礎(chǔ)的數(shù)據(jù)科學(xué)家,我們叫60分的人,90分的人都能夠更快速低門檻、高效率來構(gòu)建模型。
今天的主題,一定要說從技術(shù)到場景,那么在數(shù)據(jù)科學(xué),我覺得新技術(shù)出現(xiàn)的特征,第一個(gè)就是對(duì)非結(jié)構(gòu)化的處理能力,這是很顯然的,其實(shí)非結(jié)構(gòu)化處理的能力在保險(xiǎn)行業(yè)的應(yīng)用是非常廣的,不論是從保單還是到核賠的過程,其實(shí)我感覺比銀行還要廣。
因?yàn)殂y行的好多數(shù)據(jù)是高度結(jié)構(gòu)化,相反保險(xiǎn)數(shù)據(jù)的結(jié)構(gòu)化程度要差一些的,所以非結(jié)構(gòu)化數(shù)據(jù)出現(xiàn)了,技術(shù)對(duì)于這些場景都產(chǎn)生了巨大的變化。如果說哪個(gè)技術(shù)出現(xiàn)導(dǎo)致了一個(gè)巨大的場景,不知道大家直覺感覺是什么?我再舉個(gè)例子,這個(gè)例子體現(xiàn)了一個(gè)微小的技術(shù)進(jìn)展帶來了巨大場景變化,這個(gè)就是PageRank。我們知道informationretrieval這門學(xué)問教書教了30年了,但搜索引擎并沒有出現(xiàn),因?yàn)樵诠雀璋l(fā)明PageRank之前,對(duì)于全文檢索這么一門放在圖書館系里教的課,最高級(jí)的算法叫BM25,如果學(xué)過的大家都知道,文章稍微長一點(diǎn)或者文章稍微多一點(diǎn),使用就非常困難,但google發(fā)明了PageRank這么一個(gè)算法,讓全網(wǎng)的搜索引擎,立馬成為了現(xiàn)實(shí)。
這是個(gè)簡化的說法,但毋庸置疑PageRank的一個(gè)算法,我覺得其實(shí)這個(gè)技術(shù)核心讓我們搜索引擎這個(gè)時(shí)代成為可能,所以有的時(shí)候,技術(shù)上一個(gè)比較看起來感覺不那么大的事,最后是能長個(gè)蒼天大樹的。說回來,剛剛說的結(jié)構(gòu)化,結(jié)構(gòu)化的處理能力,這些深度學(xué)習(xí)的算法就帶來新的一些機(jī)會(huì),還有一個(gè)就是實(shí)時(shí)的事情,做數(shù)據(jù)的人,基本上說大家腦子里下意識(shí)還是跑批一些概念,實(shí)時(shí)這一塊是非常弱的。
實(shí)時(shí)能力的進(jìn)展,主要是流數(shù)據(jù)、內(nèi)存數(shù)據(jù)庫這樣一些技術(shù)的進(jìn)展,讓一些非常實(shí)時(shí)的反欺詐、資金異動(dòng),甚至說反洗錢都成為可能。這個(gè)也是一個(gè)技術(shù)進(jìn)展帶來的。然后下面包括還有算法門檻的降低,還有說數(shù)據(jù)量的一些情況,我就不一一贅述了,我先說兩個(gè)具體的例子,大家也能感覺到一些技術(shù)進(jìn)步對(duì)一些具體場景的影響。
先說一個(gè)IOT的場景,其實(shí)這個(gè)里面剛才從上午的華為云一直到后來可能明略這邊都提到了IOT。我說的是非常實(shí)際的場景,就在一個(gè)油田里,大概有4萬口井,每口井都有很多傳感器,把數(shù)據(jù)收回來,收回來之后,他們?yōu)榱送瓿蔁o人值守這么一個(gè)業(yè)務(wù)目標(biāo),需要構(gòu)建一些時(shí)序異常的模型檢測。我給大家看一下,時(shí)序異常檢測其實(shí)是一個(gè)非常廣的模型,那么在這個(gè)里面會(huì)做很多事情,像數(shù)字信號(hào)處理,這一塊基本上在端上完成了,因?yàn)橛写罅康恼駝?dòng),還有很多壓力的東西在線上,所以那些東西會(huì)導(dǎo)致你的數(shù)據(jù)有很多漂移,所以有些算法在端上會(huì)計(jì)算,提取完了信號(hào)以后,再發(fā)回云上或者端上的時(shí)候是比較干凈的,這個(gè)時(shí)候,后臺(tái)會(huì)跑一個(gè)我們產(chǎn)品跑出來的模型。這個(gè)時(shí)序數(shù)據(jù)很有特點(diǎn),一列是時(shí)間,一列是值,這條曲線是隨著時(shí)間變化的一條曲線,那么在這個(gè)曲線上面,你想通過一些訓(xùn)練數(shù)據(jù),來非監(jiān)督學(xué)習(xí)或者有監(jiān)督的學(xué)習(xí),人工標(biāo)注的,來判斷哪些是異常,有的你不用標(biāo)注也能判斷出異常。在這個(gè)里面你可以通過一些算法,被監(jiān)督的算法、深度學(xué)習(xí)的算法或者有監(jiān)督學(xué)習(xí)的一些算法來訓(xùn)練它,訓(xùn)練完之后就會(huì)產(chǎn)生一個(gè)模型,這個(gè)模型在平臺(tái)中訓(xùn)練的過程中,它會(huì)使用一些資源,訓(xùn)練出來這個(gè)模型會(huì)幫你在里面去預(yù)測到一些異常的點(diǎn)。可以看到我們自動(dòng)機(jī)器學(xué)習(xí)對(duì)于時(shí)序異常檢測這一塊,其實(shí)做的還相對(duì)比較易用的,對(duì)于一個(gè)不是特別懂機(jī)器學(xué)習(xí)的人可以很容易地把這個(gè)模型構(gòu)建出來。你可以看出來在構(gòu)建的過程當(dāng)中,他就會(huì)開始對(duì)一些形勢(shì)預(yù)測,通過比如說上面的可能用的是算法A,下面的是算法B,他們發(fā)現(xiàn)了異常點(diǎn)不完全一致,那他可能還要做多種算法的自動(dòng)組合,組合完了以后,能看到哪些點(diǎn)是異常的點(diǎn)。
剛剛提到有些是無監(jiān)督的,有些是有監(jiān)督,總而言之,就是把這些異常點(diǎn)都發(fā)現(xiàn)出來。在技術(shù)層面看是一個(gè)深度學(xué)習(xí),那就是無監(jiān)督學(xué)習(xí)、有監(jiān)督的一個(gè)組合,讓你判斷一個(gè)實(shí)際數(shù)據(jù)的異常點(diǎn),這是對(duì)一個(gè)技術(shù)人員的話,然后對(duì)一個(gè)經(jīng)理的話,就是說AI落地的場景,能判斷異常的工作狀態(tài),那么對(duì)領(lǐng)導(dǎo)層的話叫無人值守,就是將來五年、十年的一個(gè)大的方向,因?yàn)槊棵腌娔敲炊鄶?shù)據(jù),數(shù)據(jù)收回來了以后,你總得有個(gè)人看,但你不能派那么多人去看它。
另一個(gè)例子,我想說的是將來五年的一個(gè)事情,剛才說的都是降低壁壘、降低門檻,你就很容易把模型做出來。將來其實(shí)一個(gè)更大的挑戰(zhàn)在于說怎么把行業(yè)知識(shí)融合進(jìn)去,就是knowhow,其實(shí)門檻降到足夠低,有數(shù)據(jù)還是不一定能把模型做好。我說一個(gè)信貸風(fēng)控的模型的例子,在這個(gè)模型里面對(duì)于小微風(fēng)控來說,其實(shí)是用各種維度的數(shù)據(jù)來判斷這個(gè)人貸款或償貸的風(fēng)險(xiǎn)變化,比如法院判決他欠了100萬,這個(gè)數(shù)據(jù)進(jìn)來以后,它的風(fēng)險(xiǎn)立馬就變了,所以有很多外部數(shù)據(jù)。
那么這是一個(gè)銀行用的一個(gè)風(fēng)險(xiǎn)模型,它有這么幾個(gè)維度,一共是2400個(gè)特征,這2400個(gè)特征之上,它構(gòu)建了這個(gè)模型。我給大家舉一個(gè)例子,就是大家想象的機(jī)器學(xué)習(xí)比較簡單,比如說內(nèi)部數(shù)據(jù),頭70個(gè)特征可能一般長成這樣,是內(nèi)部數(shù)據(jù),那么假設(shè)外部數(shù)據(jù)、工商數(shù)據(jù)82個(gè)特征可能長成這樣,大家覺得這2000多個(gè)特征放進(jìn)去,經(jīng)過升維、降維,最后這個(gè)模型應(yīng)該很棒,其實(shí)不是這樣的,做完之后你會(huì)發(fā)現(xiàn)效果真的不太行,所以原因是什么?對(duì)于一個(gè)高度專業(yè)性的場景,其實(shí)你是需要很多行業(yè)知識(shí),比如對(duì)于一個(gè)企業(yè)來說,可能就是隱形負(fù)債的風(fēng)險(xiǎn),第一個(gè)就是銀行間往來流水大額資金的民間借貸,像這種東西每個(gè)信貸員都知道,但我們機(jī)器學(xué)習(xí)模型是很難捕捉的。
所以你要把這些東西加工成增強(qiáng)的特征,它放到你的模型里去才能做得很好,所以這里很依賴于一個(gè)優(yōu)秀的數(shù)據(jù)科學(xué)家,這個(gè)人不一定是我們公司提供的,但是我們的產(chǎn)品會(huì)提供一些方式,它來構(gòu)建一些特征庫或者一些衍生的方式。這些很多都是我們業(yè)務(wù)知識(shí)knowhow,能大大提升模型的質(zhì)量。
所以總結(jié)來說,數(shù)據(jù)科學(xué)平臺(tái)就是拿著這些算法,有個(gè)人降低門檻解決業(yè)務(wù)問題,將來發(fā)展趨勢(shì)可能不只是降低門檻,降低門檻做得還可以了,但是把行業(yè)知識(shí)怎么結(jié)合進(jìn)去,這是一個(gè)很大的挑戰(zhàn),所以我們的產(chǎn)品DataCanvas,就是要引領(lǐng)的這個(gè)事情,我們四個(gè)倉庫就是特征倉庫、模型倉庫、模板倉庫,還有一個(gè)自動(dòng)機(jī)器學(xué)習(xí)的倉庫,利用這些方式來解決一些知識(shí)融合的問題。知識(shí)融合是一個(gè)非常重要的點(diǎn),以后能夠極大的決定這個(gè)業(yè)務(wù)之后的成敗。
所以最后小結(jié)一下,到底技術(shù)帶來一些什么樣的新的涵義,第一個(gè)就是說降低門檻以后,會(huì)帶來很多標(biāo)準(zhǔn)化的數(shù)據(jù)產(chǎn)品,第二個(gè)如果真的能夠把知識(shí)融合做好,可能會(huì)帶來一個(gè)很強(qiáng)的積累效應(yīng),就A用的模型很快能放到B上去,第三個(gè)如果對(duì)一些再新的技術(shù),有可能會(huì)帶來一些網(wǎng)絡(luò)效應(yīng),今天因?yàn)闀r(shí)間不太多,我就不贅述了,大家有問題就問我或者咱們接下來交流。