9月1日,由人民網(wǎng)·人民數據主辦的“數據要素發(fā)展座談會(huì )暨數據要素公共服務(wù)平臺上線(xiàn)儀式”活動(dòng)在人民日報社成功舉辦。
在主題演講環(huán)節,中國信息通信研究院云計算與大數據研究所所長(cháng)何寶宏發(fā)表《數據要素技術(shù)概覽》主題演講。
圖為中國信息通信研究院云計算與大數據研究所所長(cháng)何寶宏發(fā)表演講
何寶宏表示,數據市場(chǎng)發(fā)展幾十年來(lái),技術(shù)一直在變化。在過(guò)去20年,大數據時(shí)代讓所有的數據能夠管起來(lái)、用起來(lái),把原始數據提煉成數據資源,但仍然面臨“用得不夠好、價(jià)值釋放不夠”的難題。從大數據到數據要素時(shí)代的目標,是讓數據資源向數據資產(chǎn)發(fā)展,從能存、能算到釋放價(jià)值、對外流通,真正進(jìn)入數據3.0時(shí)代。
何寶宏指出,圍繞數據資產(chǎn)化過(guò)程主要有三大類(lèi):第一是數據管理,當前的數據管理的工具和智能化不夠,人為介入比較高,應該更技術(shù)化;第二是數據安全,原來(lái)數據安全主要靠防火墻的邊界,只有在邊界內才是安全可控的,數據要素要求在流通中解決安全問(wèn)題,就要將邊界安全變?yōu)閿祿膬壬踩?;第三?lèi)是數據流通,致力于從“流通即失控”變?yōu)椤翱捎貌豢梢?jiàn)”。
何寶宏認為,數據管理技術(shù)應達到好用、易用的技術(shù)需求。易用,即靈活應對各類(lèi)需求;好用,即數據質(zhì)量全面提升。數據管理的基礎性技術(shù)現已成熟,而創(chuàng )新融合還在繼續。面向數據質(zhì)量自動(dòng)化管理的AI技術(shù)方案已基本成熟,有待進(jìn)一步推廣應用;針對“讓數據更好地找到人,而不是讓人找數據”的問(wèn)題,融合各類(lèi)技術(shù)進(jìn)行數據管理以實(shí)現“數據主動(dòng)找人”的數據編織技術(shù)正在快速興起,但目前處于概念期;數據倉庫和數據湖技術(shù)已得到廣泛應用,融合數據倉庫、數據湖各自?xún)?yōu)勢的湖倉一體技術(shù)有待進(jìn)一步提高性能。
何寶宏指出,數據安全保護技術(shù)已相對成熟,全生命周期的模式創(chuàng )新不斷。數據安全技術(shù)方面,應從數據存儲、訪(fǎng)問(wèn)、使用和流通安全及數據的分級分類(lèi)幾個(gè)方面實(shí)現數據的有效保護和有力控制。建立“規則+AI識別”是當前常用的數據安全保護技術(shù)路線(xiàn),分類(lèi)分級、防泄露、零信任驗證等均在一定程度上依賴(lài)相應規則的設置和人工智能的精準度;基于“持續驗證,永不信任”理念的零信任技術(shù)架構進(jìn)一步適應不斷突破邊界的云、網(wǎng)環(huán)境,進(jìn)一步推動(dòng)數據安全對全生命周期的覆蓋。
何寶宏表示,數據流通的技術(shù)需求:確權、轉移和定價(jià)。數據流通中的問(wèn)題主要是確權、轉移和定價(jià)在法律法規的基礎上需要相應技術(shù)手段的支持。在確權方面要解決聲明技術(shù)和共識:聲明權利可通過(guò)在數據內嵌入標識、憑證以聲明權利的數字水印等技術(shù)來(lái)實(shí)現;權利獲得共識且不可篡改則可通過(guò)數據各類(lèi)權利共識存證、不可篡改、可追溯的區塊鏈/web3等技術(shù)來(lái)實(shí)現。
何寶宏認為,數據轉移則是核心問(wèn)題,涉及到很多的相關(guān)技術(shù)。API接口和數據脫敏是目前最常用的兩個(gè)技術(shù),兩者經(jīng)常會(huì )結合使用。何寶宏指出,這兩者當前也存在一定的局限性。首先,API接口只提供數據集中的部分記錄、字段,數據脫敏改變了原始數據的形態(tài),原始數據的全量信息均受到損失,價(jià)值較原始數據大幅降低;其次,通過(guò)API或脫敏給出的數據已不再受數據提供方掌控,容易被濫用,或通過(guò)其他關(guān)聯(lián)反推原始數據。何寶宏表示,基于加密隱藏的多方安全計算技術(shù)是數據轉移的另一個(gè)重要技術(shù),其需要去中心化及支持通用計算,目前計算效率還較低、開(kāi)發(fā)難度較大,應用性距產(chǎn)業(yè)化推廣還需要一個(gè)過(guò)程;另一方面,傳遞建模中間信息隱藏原始數據的聯(lián)邦學(xué)習日趨發(fā)展成熟,廣泛適用于風(fēng)控、營(yíng)銷(xiāo)、政務(wù)、醫療、互聯(lián)網(wǎng)金融等應用場(chǎng)景,但這項技術(shù)的局限性在于目前缺乏嚴謹的安全證明機制,參與方可能通過(guò)交互的中間數據反推出原始數據,還易受到數據投毒和模型攻擊等攻擊方式;另外,聯(lián)合建模往往需要多輪迭代,在多方參與情況下,由于計算資源不同會(huì )造成數據聚合不同步,從而影響整體性能;再者,該技術(shù)目前尚缺乏相關(guān)法律法規的支持。何寶宏還提到,智能合約則能實(shí)現數據流通使用限量、限目的、不可篡改,實(shí)現完全數字原生的合約,數字原生的定價(jià)機制等,但目前總體處于初步發(fā)展階段,理論和技術(shù)手段還不太成熟。隱私計算的“可用不可見(jiàn)”——企業(yè)在控制所持數據的基礎上,讓數據“來(lái)去自由”,成為自主可控的數據資產(chǎn),已經(jīng)可以產(chǎn)業(yè)化應用了。
何寶宏指出,定價(jià)問(wèn)題的技術(shù)需求則是多方合作時(shí)的數據價(jià)值貢獻度量。對于多方聯(lián)合參與計算的場(chǎng)景,每方所提供數據的價(jià)值衡量需要技術(shù)支持,即在聯(lián)合計算的過(guò)程中通過(guò)算法公平合理地衡量數據價(jià)值貢獻度,作為收益分配的依據。數據定價(jià)在多方參與聯(lián)合建模的場(chǎng)景中,綜合運用博弈論、人工智能模型、信息論等技術(shù),探討數據價(jià)值與決策模型精度的關(guān)系,可以為度量各數據方的貢獻度、進(jìn)一步分配收益提供依據。何寶宏認為,目前其應用的場(chǎng)景相對比較局限、產(chǎn)業(yè)化不足,新的應用場(chǎng)景還不多。
何寶宏表示,總體而言,圍繞著(zhù)數據要素需要更多的新技術(shù),也需要相關(guān)法律法規的密切配合,目前依然面臨著(zhù)嚴峻考驗。
來(lái)自29個(gè)中央部委相關(guān)部門(mén)負責人,湖北、河南、黑龍江、安徽、內蒙古等省區的地方政府部門(mén)負責人,以及各地大數據交易所、大數據企業(yè)的代表500多人出席會(huì )議。