技術人生系列——新趨勢:圖技術賦能貸款資金流向追蹤
日期:2020-05-18
人民銀行開出“天價”罰單
今年年初,某銀行因為被人行開出超兩千萬元的“天價”罰單上了熱搜而被廣泛討論。它被處罰的主要原因為未對客戶進行盡調,并涉及房地產資金運作行為違法違規。
事實上,人行對資金流入房地產的嚴管已經持續多年,僅過去兩年就有4家銀行及金融機構因為涉及相關問題而被處以千萬元的罰款。
種種事實都在釋放著這樣的信息:資金追溯是每一家銀行和金融機構都必須去面對和解決的問題。
本期技術人生,我們就來解析一下這種新趨勢:圖技術賦能貸款資金流向追蹤。
海量資金流水數據,傳統方法難以追蹤
傳統的關系型數據庫以表格的方式儲存和呈現數據,十分抽象。
銀行流水示意
銀行每月交易流水都達百萬到百億的數量級。使用傳統的查詢方法在茫茫數據中搜尋蛛絲馬跡,不僅耗時耗力,最終結果也未必理想,這成為了許多銀行等金融機構開展資金追蹤的障礙。
圖技術+規則:追蹤資金流向新思路
1、簡單直觀的圖數據庫
而圖分析則能很好地解決數據不直觀、難以追蹤的問題。假設在關系型數據庫中有下表所示的一段交易流水:
序號 |
…… |
轉出方 |
收入方 |
金額(RMB) |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
XXXX |
…… |
公司A |
公司a |
2,000,000.00 |
…… |
XXXX |
…… |
公司A |
公司b |
3,000,000.00 |
…… |
XXXX |
…… |
公司A |
公司c |
3,000,000.00 |
…… |
XXXX |
…… |
公司a |
公司B |
1,980,000.00 |
…… |
XXXX |
…… |
公司b |
公司B |
2,960,000.00 |
…… |
XXXX |
…… |
公司c |
公司B |
2,980,000.00 |
…… |
…… |
…… |
…… |
…… |
…… |
…… |
關系型數據庫存儲數據示意
這些數據在圖分析中,將有完全不同的存儲方式。
以TigerGraph圖分析為例:將交易過程中的每一個實體(銀行或公司)作為節點、每一條交易流水作為兩點之間的一條邊,我們便能構建一張包含所有交易數據的關聯圖,其中的數據將被存儲在圖數據庫中。
圖數據庫存儲數據示意
可以看到數據中的“公司A”、“公司B”都從三條數據合并為了一個節點,轉賬行為成為了帶數據的有向邊,利用點邊關系即可清晰地描述實體間的交易行為。
并且通過構建圖,我們發現公司A轉出的金額和公司B收入的金額接近,有助于業務人員對兩公司之間的交易行為進行進一步甄別和判斷,而這在傳統的關系型數據庫中是很難直接看出的。
人腦天生就對圖更加敏感。以圖的形式進行數據存儲,構建實體之間的關聯關系,這樣的方法符合人類認知數據的直覺。
2、基于圖的資金流向追蹤
我們利用TigerGraph圖技術,構建知識圖譜(以圖的形式存儲)并設置業務規則以進行資金流向查詢和追蹤。
存儲實體和交易數據的圖分析示意
假設根據業務人員的經驗,如果申請貸款的公司在貸款發放后的短時間內(例如3天內)就將款項大部分(例如80%以上)轉出公司,那么這家公司極有可能將款項用于購買房產:
采用圖技術,我們可以將以上這項特征總結為一條規則,將它編寫為查詢:
在全景知識圖譜上設置查詢條件:1、發放貸款與轉出交易的時間差為3天內;2、轉出的金額總額大于等于貸款發放金額的80%。編寫代碼后在知識圖譜上運行,就能輸出我們想要的結果。
3、基于圖的優勢
相比基于關系型數據庫的查詢,TigerGraph圖查詢的條件設置直觀且簡便,無論從圖形上還是業務邏輯上,都有較強的可解釋性。
關系型數據庫目前尚無法解決數據不足的問題。而利用圖技術,即使是在數據量不足的情況下,我們也能將業務人員的經驗總結為更多的規則,編寫多種查詢,使查詢輸出的結果具有更高的覆蓋度,有利于業務人員進行資金的追蹤和監控。
圖技術在各場景中的應用探索
除了追蹤資金流向,圖還能有效地搜索鏈路、回路等結構,對反金融欺詐場景的業務應用具有天然的優勢。在發現洗錢鏈路、套現團伙等場景中,圖都有出色的表現。
發現洗錢資金回路示意
在信用卡的套現偵測案例中,我們采取多部圖及高密子圖偵測等方法,基于百萬級的數據量進行查詢代碼的運行。相比傳統查詢方法,圖技術將代碼運行時間從2-3周縮短為1小時,輸出結果覆蓋的黑樣本從總量的58%提高到77%,運行效率和結果覆蓋率都有顯著提升。
近些年,我們在基于圖的算法研發和深度學習挖掘方面做了諸多探索,它們能夠發現一些人工無法歸納的特征和結構。結合業務人員的經驗,從而得出更多有用的結論。
我們還將持續推出圖技術在各類應用場景中的深度解析,歡迎持續關注!