大數據在金融業的應用 |小課堂

北京新浪網 (2017-05-14 14:30)

正如馬雲在一次演講中提到的:

「很多人還沒搞清楚什麼是PC互聯網,移動互聯網來了,我們還沒搞清楚移動互聯的時候,大數據時代又來了。」?

毫無爭議的,我們已經進入到大數據時代。而金融業無疑又是大數據的最重要的應用領域之一。今天,我們就來簡單談談大數據在金融業的應用,未盡事宜,可以留言(訂閱號:洪言微語)討論交流。

什麼是大數據

關於這個,已經了比較標準的答案,就不在贅述了。所謂大數據,是指多個來源和多種格式的大量結構化和非結構化數據。有兩個關鍵點:

一是大。即數據量要非常多,數量少了不叫大數據。在實踐中,一般至少要有10TB(1TB等於1024GB,想想你32G的蘋果手機,可以裝多少數據?)的數據量才能稱之為大數據,而在類似蘇寧金融等互金巨頭,基本都沉澱了PB級(1PB約等於105萬GB,相當於3.3萬個32G的U盤,截止目前,人類生產的所有印刷材料的數據量也不過200PB)的數據量。

大數據科學家JohnRauser就提到一個簡單的定義:大數據就是任何超過了一台計算機處理能力的龐大數據量。啪菠蘿·畢加索的定義是,大數據就是多,就是多,原來的設備存不下、算不動。這裏強調的便是大。

二是數據來自多種數據源,數據種類和格式豐富,不僅包括結構化數據,還包括半結構化和非結構化數據。意味著,即便數據量很大,但如果局限於單個領域,也不能稱之為大數據。因為大數據的一個重要作用就是利用不同來源、不用領域的數據進行非線性地分析,用於未來的預測。

比如,《大數據時代》在作者Sch?nberger的對大數據的定義就是,「大數據,不是隨機樣本,而是所有數據;不是精確性,而是混雜性;不是因果關係,而是相關關係」。這裏強調的便是數據的多樣性。

有了大數據,自然就要有大數據技術,即從各種各樣類型的巨量數據中,快速獲取有價值信息的技術,強調快,這是大數據技術與傳統數據挖掘技術的重要區別。

從巨量數據中提取的有價值信息,即是大數據在各個領域的具體運用,比如基於大數據進行客群的細分,進而提供定製化服務;基於大數據模擬現實環境,進而進行精準評估和預測;基於大數據進行產品和模式創新,降低業務成本、提升經營效率等等。

不過,關於大數據的應用,有一個廣為流傳的段子,即:

「Big Data is like teenage sex: Everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it too .」

正如這個段子所講,很多領域的大數據應用,還只是停留在想像的層面。

金融大數據數據領域應用邏輯

說道大數據在金融領域的應用,一般認為有精準營銷和大數據風控兩個方面。

精準營銷就不說了,基於行為數據去預測用戶的偏好和興趣,繼而推薦合適的金融產品,相比傳統的簡訊群發模式,不知要先進了多少倍,這個大家都容易理解。

而對於大數據風控,其邏輯便在於「未來是過去的重複」,即用已經發生的行為模式和邏輯來預測未來。

統計學規律告訴我們,在實驗條件不變的條件下,重複實驗多次,隨機事件的頻率等於其概率。意味著,隨著隨機事件的大量發生,我們是可以發現其內在規律的。而大數據裡麵包含的海量數據,就為我們發覺隱藏在隨機事件後面的規律提供了條件。

大數據風控的兩個應用,信用風險和欺詐風險,背後都是這個邏輯,通過分析歷史事件,找到其內在規律,建成模型,然後用新的數據去驗證和進化這個模型。

以美國主流的個人信用評分工具FICO信用分為例,FICO分的基本思路便是:

借款人過去的信用歷史資料與資料庫中的全體借款人的信用習慣相比較,檢查借款人的發展趨勢和經常違約、隨意透支、甚至申請破產的各種陷入財務困境的借款人的發展趨勢是否相似。

FICO評分是傳統金融機構對大數據的運用,再來看看典型互金機構ZestFinance對大數據的運用,ZestFinance的客群主要就是FICO評分難以覆蓋的人群,要麼是在FICO得分過低金融機構拒絕放貸的人,要麼是FICO得分適中,金融機構同意放貸但利率較高的人。

大數據在金融業的應用小課堂01

在ZestFinance的評分模型中,會大量應用到非徵信數據(50%-70%左右),在其官方宣傳中,提到會用到 3500 個數據項,從中提取 70,000 個變數,利用 10 個預測分析模型,如欺詐模型、身份驗證模型、預付能力模型、還款能力模型、還款意願模型以及穩定性模型,進行集成學習或者多角度學習,並得到最終的消費者信用評分。

大數據在金融業的應用小課堂02

而欺詐風險的防控,本質上也是通過對歷史欺詐行為的分析,不斷梳理完善風險特徵庫,比如異地登錄、非常用設備登錄等行為,都是一種風險信號,建立一系列的風險規則判定集,預測用戶行為背後的欺詐概率。

幾個待解決的問題

第一個就是數據共享的問題。大數據的應用,前提是要有大數據,而在很多金融機構而言,並沒有所謂的大數據,何談應用呢。我們知道,在次級類用戶的信用評價中,非徵信數據發揮著重要的作用,但是要獲得有價值的數據並不容易。

一般來講,盈利性質的商業公司和企業都不會輕易泄露自己的數據、建模方法和分析過程,這個無可厚非,但客觀上便產生了這樣一種效果,幾大互聯網巨頭變成了數據黑洞,用戶的數據進得去、出不來,可以為企業自身而用,但不能為整個行業或社會而用。此外,散落在稅務、公積金、海關、工商等領域的數據梳理和整合,也是漫長的過程。

第二個便是數據保護的問題。正如我在之前的一篇文章《在上市平台信而富財報中,我找到了四個行業秘密》中提到,

「沒錯,數據是核心驅動力。但問題是,在數據保護和用戶隱私等相關法律框架最終明確落地之前,對互金平台而言,數據既是寶貴的資產,也可能演變成為聲譽風險、合規風險、用戶訴訟風險等各類問題的潛在來源,是福是禍,尚是未知之數。」

資料來源:http://news.sina.com.tw/article/20170514/22144720.html

my

謝老師Q

謝邦昌主任

醫管系生技EMBA大數據所生統中心