近日,信也科技聯(lián)合浙江大學(xué)正式公開(kāi)發(fā)布大規模動(dòng)態(tài)圖數據集DGraph,旨在服務(wù)圖神經(jīng)網(wǎng)絡(luò )、圖挖掘、社交網(wǎng)絡(luò )、異常檢測等方向的研究人員,為之提供真實(shí)場(chǎng)景的大規模應用數據,幫助推動(dòng)整個(gè)圖領(lǐng)域的發(fā)展。
1.場(chǎng)景真實(shí)
值得注意的是,DGraph 的源數據來(lái)源于信也科技的真實(shí)金融業(yè)務(wù)場(chǎng)景,并由信也科技對外開(kāi)放共享給對圖領(lǐng)域感興趣的研究者。其構建邏輯貼近工業(yè)落地,為數據集的使用者提供了探索如何將圖模型擴展到金融領(lǐng)域落地應用的機會(huì )。DGraph一方面可以作為驗證相關(guān)圖模型性能的標準數據,用于解決不平衡節點(diǎn)分類(lèi)、鏈接預測、圖分類(lèi)等各種典型任務(wù),另一方面可用于開(kāi)展用戶(hù)畫(huà)像、網(wǎng)絡(luò )分析等研究工作。
2.結構動(dòng)態(tài)
信也科技相關(guān)負責人透露:“像此次DGraph公開(kāi)的如此大規模、真實(shí)的動(dòng)態(tài)圖數據,據我們所知,在金融領(lǐng)域還是第一次?!盌Graph作為一個(gè)有向無(wú)權的動(dòng)態(tài)圖,包含超過(guò)370萬(wàn)個(gè)節點(diǎn)和430萬(wàn)條動(dòng)態(tài)邊,支持大規模圖模型的研究與評估。其用戶(hù)關(guān)系采樣自橫跨27個(gè)月的業(yè)務(wù)場(chǎng)景,且網(wǎng)絡(luò )結構會(huì )隨著(zhù)時(shí)間發(fā)生演化,為當前的動(dòng)態(tài)圖模型與挖掘研究提供了結構動(dòng)態(tài)的數據支持。
3.規模龐大
此外,DGraph 中包含超過(guò)200萬(wàn)個(gè)“背景節點(diǎn)”,即并非分類(lèi)或分析對象但實(shí)際存在、對業(yè)務(wù)邏輯有間接影響的節點(diǎn)。這些節點(diǎn)對于維持網(wǎng)絡(luò )的連通性有著(zhù)重要作用,在工業(yè)界廣泛存在,可支持研究者深入探索背景節點(diǎn)的性質(zhì)。合理處理背景節點(diǎn)可以在大規模數據場(chǎng)景下有效提升數據的存儲空間和模型的運行效率。
如下圖所示,DGraph中的節點(diǎn)表示信也科技服務(wù)的用戶(hù),有向邊表示用戶(hù)關(guān)系,每個(gè)節點(diǎn)包含脫敏后的屬性特征,以及表示是否為金融詐騙用戶(hù)的標簽。
DGraph動(dòng)態(tài)圖數據
研究團隊此前發(fā)布的論文《DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection》從圖異常檢測的角度出發(fā),對DGraph進(jìn)行了深入的數據分析與實(shí)驗,結果闡明DGraph具有巨大潛力推動(dòng)圖異常檢測的發(fā)展,同時(shí)DGraph所包含的多種廣泛存在的工業(yè)特點(diǎn)值得更進(jìn)一步探索。
信也科技相關(guān)負責人表示:“目前DGraph網(wǎng)站已吸引了一批來(lái)自清華大學(xué)、中科大、上海交大、同濟大學(xué)等國內外知名高校的研究者?!逼渲?清華大學(xué)計算機系知識工程研究室基于他們最新的圖學(xué)習框架CogDL,為DGraph數據集提供了多種圖算法的Baseline。
當前,信也科技圍繞著(zhù)DGraph舉辦的第七屆信也科技杯圖算法大賽正面向全社會(huì )開(kāi)放報名,國內外高等院校、科研院所、互聯(lián)網(wǎng)企業(yè)等均可報名參賽,角逐共計31萬(wàn)人民幣獎金。期待結合賽事契機,DGraph公開(kāi)數據網(wǎng)站的發(fā)布能夠幫助激發(fā)更多相關(guān)領(lǐng)域研究,并融入拓展更多其他領(lǐng)域的數據和實(shí)際應用,從而支持對于圖領(lǐng)域特性和跨領(lǐng)域算法的研究,攜手共建開(kāi)放的數字生態(tài)。