注:近日,海致星圖CEO楊娟在天堂硅谷信息技術閉門會上做了精彩發言,以下根據其講話實錄整理而成。
在2018年和2019年Gartner的新興技術曲線當中,連續兩年出現對知識圖譜的評估。知識圖譜仍然處于促動期(Technology Trigger)。Gartner的預計是5年之后,知識圖譜將進入實質生產的高峰期((Plateau of Productivity)。作為知識圖譜這個領域的資深從業者,我認為這是對知識圖譜這門技術的一個非常客觀的評價。2016年,海致星圖成為國內將知識圖譜應用于金融領域的先行者。百度出身的創始團隊和擁有IBM、阿里云等產業背景的運營團隊聯手之下,海致星圖短短三年間發展迅速:從招行打開局面后,現如今已經服務于四十余家金融機構,覆蓋銀行、券商、證券交易所、保險等場景。
眾所周知,知識圖譜被譽為認知智能的核心技術。然而認知智能之路,遠比計算智能、感知智能要漫長,知識圖譜這門技術也在不斷演進之中。在過去幾年當中,知識圖譜較為成熟的落地場景主要集中在圖相關的領域,知識圖譜的極大魅力在于它的圖結構,可以在知識圖譜上運行搜索、隨機游走、網絡流等大規模的圖算法,使得知識圖譜與圖論、概率圖等碰撞出火花,解決了面向復雜關系的分析與發掘的難題,在企業股權關系透析、欺詐團伙發現、客戶親密度檢測等領域釋放出巨大價值,得到金融機構的廣泛認可。這些在過去傳統數據技術條件下無法實現的智能化分析,依靠知識圖譜得到了解決。例如,在招商銀行信用卡中心,海致星圖知識圖譜平臺之上構建了一張20億節點、300億條邊的客戶網絡,在網絡上運行了數十個面向關系挖掘的業務模型,在精準營銷、貸中預警、貸后失聯修復等領域釋放出巨大的業務價值。
隨著時間的推移,知識圖譜的相關技術也在不斷發展。在技術層面,知識圖譜技術和方法除了進一步與自然語言處理技術深度融合,另外一個更加明顯的趨勢是和深度學習在更多層面形成互補,通過表示學習的手段把知識圖譜中的離散符號(實體、屬性、關系、值等)用連續型數值進行表示,從而提升深度神經網絡的可解釋性,以及將圖神經網絡方法應用于知識圖譜的推理與挖掘分析,利用知識圖譜里面所蘊含的豐富關聯性知識幫助減少少樣本和零樣本學習的難題。
具體到行業應用層面,體現在金融因果關聯圖譜的精細化構建及深入應用,包括圍繞事件構建事理知識圖譜、利用事件抽取技術提升新聞事件識別的敏感度、建立事件因果推理知識庫、利用事理圖譜分析技術對事件影響力傳導進行深度分析等,挖掘事件之間隨著時間推移的相互影響,基于動態的事件本體構建以及關系抽取、動態推理,來進行違約概率關聯波動、授信客戶欠息/逾期關聯代償效應、風險事件傳導強度估計與傳染廣度等分析。
事件的影響分析有兩個維度,一是事件回測,二是事件傳播影響。事件回測是對歷史上同類事件的發生做一個數據統計分析,對于上市公司而言,回測的目標可以是設定為行情的收益率、波動率或者某個金融工程的具體模型,目的是看歷史上同類事件發生后,對于相關公司會有什么樣的影響。事件傳播影響則是通過事件識別命中某個事件主體,將該主體關聯到圖譜里,可以查看跟這個事件相關的企業鏈信息、股權鏈信息和產業鏈信息。事件自身的正負面、影響度、熱度會沿著知識圖譜實體的關系網絡進行傳播,對這個傳播影響進行定型或者定量的分析。例如深圳證券交易所與上海證券交易所均與海致星圖合作構建了風險事件傳導推理平臺,對于市場突發事件,例如p2p暴雷、中美貿易摩擦等,通過知識圖譜量化預測它的影響范圍、影響力、傳染路徑,加強對上市公司的監管。
隨著金融監管政策以及數據隱私保護政策的不斷加強,數據智能技術在個人消費領域應用進入了平穩期,而在產業端的廣闊應用前景則被剛剛打開。在工業制造及能源領域,針對設備智能化運營的知識圖譜正在蓬勃興起,例如在“設備一致,網架統一,關系聯通”的總體原則下,構建變電站、線路、變壓器、桿塔、通道、用戶、電能表等實體的關系網絡,實時檢測線損相關的電量異常數據,并確保各設備橫向保持一致且縱向關聯無斷點,提升輸電線路工程建設和巡檢的智能化、自動化水平。
產業端的復雜程度較之消費端呈指數級上升,對復雜事物的理解與認知,需要融會貫通機器知識與專家知識,實現真正的“人機通行”,這正是知識圖譜應用的最佳領域。我們相信,知識圖譜應用的最好時代正在來臨。