DeepSeek爆火背后,底層數字技術(shù)也在求索與AI的深度結合。
3月7日,清華大學(xué)、騰訊云、intel在北京宣布啟動(dòng)“數據庫AI聯(lián)合創(chuàng )新計劃”,圍繞數據庫與大模型的交叉技術(shù)展開(kāi)深度研究,推動(dòng)數據庫智能化升級,同時(shí)為AI應用構建高效數據基礎設施。
這也是國內首個(gè)數據庫AI領(lǐng)域的產(chǎn)學(xué)研聯(lián)動(dòng)項目。
(圖:清華大學(xué)、騰訊云、intel聯(lián)合啟動(dòng)“數據庫AI聯(lián)合創(chuàng )新計劃”)
隨著(zhù)大語(yǔ)言模型技術(shù)爆發(fā),數據庫系統面臨從“被動(dòng)存儲”向“主動(dòng)服務(wù)”轉型的挑戰。傳統數據庫依賴(lài)人工編寫(xiě)復雜查詢(xún)語(yǔ)句,而大模型的自然語(yǔ)言交互能力可大幅降低使用門(mén)檻;另一方面,AI訓練與推理所需的海量數據處理,也亟需數據庫在分布式架構、緩存管理等環(huán)節實(shí)現性能躍升。
針對這一趨勢,本次合作規劃了兩大技術(shù)攻堅路徑:一方面研發(fā)基于大模型的智能查詢(xún)生成與優(yōu)化系統(Text2SQL),讓用戶(hù)通過(guò)自然語(yǔ)言直接操作數據庫,實(shí)現艱深的數據庫技術(shù)也能聽(tīng)懂“人話(huà)”;另一方面打造面向大模型推理的分布式緩存產(chǎn)品,解決AI任務(wù)調度、存儲資源分配等核心難題。
在Text2SQL方向,項目組提出端到端技術(shù)框架,重點(diǎn)突破語(yǔ)義理解、模式匹配、SQL驗證等關(guān)鍵環(huán)節。通過(guò)大模型微調、強化學(xué)習(DPO)與檢索增強(RAG)技術(shù),系統可將用戶(hù)提問(wèn)拆解為多級子任務(wù),并動(dòng)態(tài)匹配數據庫表結構,最終生成高準確率SQL語(yǔ)句。
面向大模型推理加速,項目組設計了分布式緩存系統,通過(guò)兩階段任務(wù)調度、KVCache優(yōu)化及GPU直連存儲技術(shù),顯著(zhù)降低計算資源浪費。
作為合作的重要支撐,騰訊云在數據庫AI領(lǐng)域已有不少積淀。據騰訊云數據庫副總經(jīng)理羅云透露,騰訊云數據庫以AI for DB和DB for AI作為技術(shù)發(fā)展的戰略方向,在多產(chǎn)品中已集成自適應運維與故障診斷、數據庫智能優(yōu)化、自然語(yǔ)言驅動(dòng)數據分析等能力,同時(shí)依托騰訊云向量數據庫千億級向量規模和500萬(wàn) QPS 峰值能力,為3000多家企業(yè)構建了AI時(shí)代的數據樞紐。
此次合作也凸顯了“產(chǎn)學(xué)研”深度融合的創(chuàng )新模式。清華大學(xué)數據庫科研組在學(xué)術(shù)領(lǐng)域連續多年位列 CSRankings 全球第一,騰訊云則擁有業(yè)界領(lǐng)先的工程落地能力。雙方合作將加速技術(shù)研究從實(shí)驗室到企業(yè)生產(chǎn)環(huán)境的進(jìn)度。
清華大學(xué)數據庫科研組表示:“未來(lái)的數據庫不僅是存儲工具,更是 AI 產(chǎn)業(yè)鏈的數據大腦。我們期待通過(guò)這次合作,為全球數據庫技術(shù)發(fā)展提供中國方案?!?/p>