中國移動(dòng)集團首席科學(xué)家馮俊蘭博士日前出席在成都舉辦的AI for Life Science研討會(huì ),并發(fā)表題為《向內核要未來(lái)——從AI for Science 到 AI for Industry》的邀請報告。
科研范式的變化
當前,AI技術(shù)正以驚人的速度發(fā)展,科研成果的發(fā)布周期顯著(zhù)縮短。AI技術(shù)之所以能夠快速迭代主要得益于三大因素:資本與人才的匯聚、數據與算力的突破,以及研究范式的變化。AI展現出強大的穿透能力,帶來(lái)全新的用戶(hù)體驗,并開(kāi)辟了全新的可能性。例如,以前的語(yǔ)音交互系統,包含了前端噪聲和回音去除、語(yǔ)音識別、轉文字、文字理解及功能實(shí)現等多個(gè)環(huán)節,而現在的AI技術(shù)可以將所有環(huán)節全部壓縮到一個(gè)模型,實(shí)現端到端的學(xué)習和優(yōu)化,這種穿透性也帶來(lái)了“AI+”的范式變革。
從‘+AI’到‘AI+’的轉變,并非僅僅是表述上的調整,而是標志著(zhù)核心主體的根本性變化?!?AI”范式下,行業(yè)或科研主體流程基本不變,通過(guò)融入AI技術(shù)來(lái)提升效率和解決難題。隨著(zhù)AI基座模型的突破,核心主體變成了AI,基座平臺和模型成為穩態(tài)底座,行業(yè)的業(yè)務(wù)、流程和工具向底座靠近,效率得以大幅提升。AI for Science(AI4S)作為當前一個(gè)重要研究方向,是AI和科研兩個(gè)方向的相遇,AI最初被設計用來(lái)模擬生命體,做生命體能做的事情,現在A(yíng)I開(kāi)始反向使能生命科學(xué)的研究。
當代AI技術(shù)的特征將加速科研效率的提升
隨著(zhù)新成果的快速涌現,當前,科學(xué)家在研究中正面臨多重挑戰:知識量龐大且更新迅速,其復雜度、廣度及深度均大幅提升;同時(shí),從海量數據中,如實(shí)驗數據和生命科學(xué)表征數據中推理出模式難,加之實(shí)驗周期長(cháng)、潛在研究路徑眾多,無(wú)疑增加了研究的難度。
大模型技術(shù)帶來(lái)的本質(zhì)改變并不是參數量規模的變化,而是相較于小模型只能完成一個(gè)或幾個(gè)特定任務(wù),大模型具有完成無(wú)限任務(wù)、探索更多可能性的潛力。針對科學(xué)研究中面臨的挑戰,當代AI技術(shù)可以從以下五個(gè)方面提供解決思路:
一是強大的知識表征與深度思考能力。簡(jiǎn)單的注意力機制在知識吸收、產(chǎn)出和發(fā)現相互作用方面具有巨大的潛力,大模型技術(shù)通過(guò)用更大的參數量和更復雜得多模態(tài)組合將知識融合和表征出來(lái),并發(fā)現多層多域的復雜相關(guān)關(guān)系,這為科學(xué)研究帶來(lái)很大的自由度,以往依賴(lài)直覺(jué)的研究現在可以交給AI來(lái)發(fā)現。
二是結構化數據大模型??茖W(xué)研究與行業(yè)生產(chǎn)非常相似的地方是都會(huì )產(chǎn)生大量的結構化數值數據,以通信行業(yè)為例,每天產(chǎn)生的網(wǎng)絡(luò )數據壓縮后有12PB。結構化數據大模型通過(guò)對歷史數據、代碼、文字解釋之間相關(guān)關(guān)系的學(xué)習,能夠知道從哪些角度去分析這些巨量的數據,這種對大量結構化數據的分析能力可以有效使能科研人員的研究工作。
三是智能體協(xié)同,谷歌最新推出的虛擬科學(xué)家合作伙伴AI co-scientist,是基于Gemini 2.0構建的多智能體AI系統,通過(guò)使用一系列專(zhuān)業(yè)化的智能體,在3個(gè)關(guān)鍵的生物醫學(xué)應用中探究了 AI co-scientist 生成的假設和研究建議。
四是集約化的訓推技術(shù)。當前,人工智能平臺通過(guò)集中算力、數據、模型等資源、優(yōu)化大規模分布式訓練和推理效率、共享底層軟硬件基礎資源等,為科學(xué)研究提供集約化的訓練和推理技術(shù)以及自動(dòng)化工具和標準化流程,可以使科研人員專(zhuān)注于專(zhuān)業(yè)領(lǐng)域的探索與創(chuàng )新,提升科學(xué)研究效率。
五是數據生成與環(huán)境模擬技術(shù)。智能的來(lái)源主要有兩種,數據和環(huán)境。數據中包含的“本質(zhì)的密度”決定了數據的價(jià)值,比如要研究一個(gè)球在空間中的運動(dòng)規律,可以用幾個(gè)攝像機把運動(dòng)的視頻拍下來(lái),也可以直接測量它的空間位置隨時(shí)間的變化,這兩者包含的本質(zhì)信息是一樣的,當代生成式大模型技術(shù)可以通過(guò)生成類(lèi)數據解決核心數據不足的問(wèn)題。在生命科學(xué)領(lǐng)域,通過(guò)應用各種人工智能最新技術(shù),可以探索和找到真正表征研究問(wèn)題的數據,以及實(shí)現數據生成和快速迭代的方法。環(huán)境是智能的另一個(gè)主要來(lái)源。每個(gè)行業(yè)都需要構建大型的模擬器,例如通信網(wǎng)的實(shí)驗需要構建符合電磁波時(shí)空傳輸特性的模型,在模擬環(huán)境中進(jìn)行仿真并產(chǎn)生大量的動(dòng)態(tài)實(shí)驗數據,觀(guān)察參數改變對網(wǎng)絡(luò )性能的影響。這對生命科學(xué)研究的啟發(fā)是,除了構建模型,還需要構建一些具備與基座模型對話(huà)、提供動(dòng)態(tài)反饋的模擬環(huán)境。DeepSeek R1突破的一個(gè)關(guān)鍵就在于它為基座模型找到了兩個(gè)反饋非常精準的領(lǐng)域:數學(xué)和代碼,只要反饋足夠精確,即便數據量不大,也能獲得顯著(zhù)的推理能力提升。
生命科學(xué)領(lǐng)域本質(zhì)性問(wèn)題的突破,可能依賴(lài)于新型模型架構的構建和創(chuàng )新性方法的提出,在當前階段,充分挖掘并最大化利用現有人工智能技術(shù)的潛力,無(wú)疑是推動(dòng)研究進(jìn)程的關(guān)鍵策略之一。
人工智能基座平臺賦能科學(xué)研究全流程
隨著(zhù)人工智能軟硬件技術(shù)的快速發(fā)展,“模型+平臺”構成了“AI+”范式中的核心基座,但 AI 的基礎設施規模愈加龐大且模型架構愈加復雜。每當AI新技術(shù)出現時(shí),各公司或團隊需要在短時(shí)間內快速復現、測試與更新,把最新的技術(shù)帶到應用、工作和科研當中,這需要大量專(zhuān)業(yè)的開(kāi)發(fā)和測試工程師,同時(shí)算力底座與數據平臺的建設運維也依賴(lài)大規模團隊。
對于大多數科研團隊而言,其成員多非計算機專(zhuān)業(yè)出身,難以獨立開(kāi)展 AI for Science工作。此時(shí),人工智能基座平臺就顯得尤為重要。一方面,基座平臺要能夠講“科學(xué)家的語(yǔ)言”??茖W(xué)研究涉及生命科學(xué)、材料學(xué)等多個(gè)領(lǐng)域,基座平臺通過(guò)提供直觀(guān)、易用的界面和工具,讓科研人員能夠以他們熟悉的方式與AI交互。例如,借助自然語(yǔ)言處理技術(shù),平臺能夠精準捕捉科研人員的需求,迅速轉化為可操作的AI任務(wù);同時(shí),可視化工具讓科研人員得以直觀(guān)探索數據、輕松調試模型,無(wú)需深陷復雜算法細節的泥潭。另一方面,基座平臺全面覆蓋科研全流程,在數據治理方面,有效整合、清洗多源異構數據,確保數據的精準與可用;其數據探索功能則助力科研人員深挖數據背后的規律,發(fā)掘潛在價(jià)值。同時(shí),平臺需要集成各學(xué)科的常用工具和機理模型,提供豐富的AI模型和仿真套件,形成“數據-模型-仿真”的科學(xué)研究閉環(huán),幫助科研人員快速驗證假設、優(yōu)化實(shí)驗設計。
因此,基座平臺要和科研團隊緊密融合,建立一種新的閉環(huán)合作范式,類(lèi)似于谷歌和斯坦福合作推出AI co-scientist,英偉達、Arc研究所、斯坦福合作推出Evo-2。
從AI for Science到AI for Industry
當前,人工智能基座發(fā)展迎來(lái)了重要時(shí)刻,并帶來(lái)了應用范式落地的改變,2025年,人工智能對各個(gè)行業(yè)的發(fā)展將迎來(lái)兩個(gè)趨勢:向規模要價(jià)值、向內核要未來(lái)。
向規模要價(jià)值:“AI+”能否成功,取決于其帶來(lái)的價(jià)值是否遠超投入,近年來(lái),人工智能技術(shù)能力取得了顯著(zhù)提升,然而,在規?;瘍r(jià)值的創(chuàng )造上尚未實(shí)現突破性進(jìn)展,當前,探索AI在產(chǎn)業(yè)中規?;瘍r(jià)值實(shí)現的路徑仍面臨諸多挑戰。
向內核要未來(lái):內核是每個(gè)產(chǎn)業(yè)之所以存在的靈魂,內核的智能化和效率提升是決定該產(chǎn)業(yè)能否持續占據領(lǐng)先地位的關(guān)鍵因素。當前各行各業(yè)的內核就是科學(xué),我們在依托平臺加速科研效率的同時(shí),也將會(huì )加速產(chǎn)業(yè)內核的升級。
中國移動(dòng)AI4S能力與實(shí)踐
中國移動(dòng)具備完善的智算中心基礎設施和人工智能基座,包括算力底座、AI平臺、數據處理平臺、九天系列模型,可以支撐模型訓練,支持數據清洗、標注、優(yōu)化,匯聚各類(lèi)模型,支持模型優(yōu)化,以及應用模型規?;牟渴?。中國移動(dòng)的九天結構化數據大模型,成功將結構化數據分析應用至大規模生產(chǎn)實(shí)踐;同時(shí),九天模型的數據處理能力也為眾多央企的復雜文獻數據識別提供了強大支持,能夠精準識別并輸出復雜公式表達。九天的慢思考能力可以用于設計生物實(shí)驗以及輔助醫療診斷。
去年中國移動(dòng)推出了AI4S科學(xué)實(shí)驗裝置,提供面向科學(xué)領(lǐng)域的公共科研開(kāi)放創(chuàng )新平臺。該裝置集合了科研模型研發(fā)基礎工具集、科學(xué)模型服務(wù)平臺、生物蛋白等科學(xué)領(lǐng)域工具套件,提供端到端極簡(jiǎn)科研開(kāi)發(fā)流程,讓科學(xué)家專(zhuān)注自身專(zhuān)業(yè)領(lǐng)域,提升科研模型研發(fā)效率,賦能和加速?lài)腋呔饪茖W(xué)問(wèn)題研究。當前AI4S科學(xué)裝置已入駐國內頂尖材料科學(xué)、蛋白質(zhì)預測等科研團隊,開(kāi)展RNA等大模型RESM訓練,助力疫苗等藥物研發(fā)。
面向未來(lái),中國移動(dòng)誠邀國內更多科研團隊入駐AI4S科學(xué)裝置,共研生物蛋白、化學(xué)材料、原子物理等領(lǐng)域的科學(xué)模型,利用AI技術(shù)探索解決基因、生物、航天、海洋等場(chǎng)景化科學(xué)問(wèn)題,沉淀智能科研工具能力套件,共拓AI賦能交叉學(xué)科前沿新方向。