北大學(xué)生團隊打造感知生成一體化多模態(tài)大模型系統,讓亞運會(huì )展現AI的溫度

熱點(diǎn)
TIME
2023-10-12 18:05
科技在線(xiàn)
分享

  在最近的杭州亞運會(huì )期間,一位智能“導游”吸引了很多的目光。它可不是一般人,它外觀(guān)看上去像一輛小車(chē),四個(gè)輪子在地面上快速靈活地移動(dòng)。上面安裝了機械臂,整體約一人高,機械臂上配有攝像頭,以及語(yǔ)音和顯示界面等交互設施,使其能夠對周?chē)h(huán)境和需要執行的任務(wù)進(jìn)行識別與理解。

  據悉,這臺“導游”機器人系統是由北京大學(xué)計算機學(xué)院HMI團隊研發(fā),它結合了當前最前沿的AI技術(shù)——多模態(tài)大模型和具身智能,在亞運會(huì )期間,為視障人士提供引領(lǐng)和導航等幫助,并可解析視障人士的需求并完成相應任務(wù),如幫助他們撿拾掉落的物品等,以其獨特的方式,為亞運會(huì )的成功舉辦貢獻了力量。

【圖說(shuō)】北京大學(xué)團隊研發(fā)的多模態(tài)智能愛(ài)心助手在亞運會(huì )期間服務(wù)

  「我們研發(fā)的這款多模態(tài)智能愛(ài)心助手,是基于團隊自研的感知生成一體化多模態(tài)大模型,該系統能夠精準地感知與理解視覺(jué)場(chǎng)景,生成準確豐富的語(yǔ)言描述,實(shí)現從人類(lèi)復雜指令到具體行動(dòng)的轉化,并基于端云協(xié)作大小模型的協(xié)同高效微調,提升模型的泛化性,使其可以快速適應新場(chǎng)景?!贡本┐髮W(xué)計算機學(xué)院仉尚航研究員介紹。

  「多模態(tài)大模型能夠根據語(yǔ)言、2D、3D等多種輸入模態(tài),解析接收到的指令與周?chē)h(huán)境,進(jìn)行任務(wù)拆解并生成相應動(dòng)作,完成服務(wù)任務(wù)。希望我們的研究可以用科技創(chuàng )新賦能弱勢群體,讓更多人感受未來(lái)科技的溫暖,體驗到亞運會(huì )的精彩?!?/p>

  「多模態(tài)大模型+具身智能」系統首次落地大型體育賽事

  「亞運會(huì )上有很多尖端科技的應用,很大程度上增強了運動(dòng)員的比賽體驗和觀(guān)眾的觀(guān)賽體驗?!贡本┐髮W(xué)學(xué)生莊棨寧表示:「但在深入研究和觀(guān)察后,我們發(fā)現對于特定的觀(guān)眾群體,如少數民族和殘疾人士,當前的技術(shù)并沒(méi)有充分滿(mǎn)足他們的需求。少數民族的觀(guān)眾可能面臨語(yǔ)言障礙,而殘疾人士可能需要更多的輔助工具或特別的服務(wù),以便更好地享受比賽?!?/p>

  為了解決這一問(wèn)題,團隊便萌生了研發(fā)一個(gè)專(zhuān)門(mén)服務(wù)殘障人士觀(guān)賽的AI系統的想法?!付嗄B(tài)大模型是我們課題組的重點(diǎn)研究方向,我們就在想有沒(méi)有可能把多模態(tài)大模型和具身智能結合起來(lái),為機器人賦予更加智能的大腦,使其可以將人類(lèi)復雜需求轉化為具體行動(dòng)指令?!?/p>

  「這樣,我們的愛(ài)心助手可以更好地與用戶(hù)互動(dòng),理解他們的需求,并快速做出有針對性的響應,更好地為亞運會(huì )弱勢觀(guān)眾群體服務(wù),也讓更多人能夠親身體驗到AI科技所帶來(lái)的變革與溫暖?!?/p>

  在仉尚航研究員的指導和支持下,學(xué)生們迅速行動(dòng)起來(lái),并且追求了一種創(chuàng )新的路徑,即設計「感知生成一體化的多模態(tài)大模型」,以實(shí)現對各種視覺(jué)場(chǎng)景的精準地感知與理解,并生成準確豐富的語(yǔ)言描述。

【圖說(shuō)】:仉尚航研究員(一排左四)和學(xué)生團隊成員

  同時(shí),團隊還將多模態(tài)大模型與具身智能相結合,由于機器人將面對不同場(chǎng)景,需要具備快速適應新場(chǎng)景的泛化能力,為此,團隊設計了基于端云協(xié)作的大小模型協(xié)同高效微調,提升模型的泛化性,使其可以持續適應不同的場(chǎng)景。

  在本次亞運會(huì )期間大顯身手的多模態(tài)愛(ài)心助手,基于團隊自研的感知生成一體化通用多模態(tài)大模型,其核心是一個(gè)參數量為7B/13B的多模態(tài)大模型,該模型集成了視覺(jué)基礎模型的泛化感知能力和大語(yǔ)言模型的涌現能力。

  例如,聽(tīng)到用戶(hù)說(shuō)「我渴了」之后,機器人能自動(dòng)轉身去拿過(guò)桌上的一瓶水送到用戶(hù)手中。在這個(gè)看似簡(jiǎn)單的過(guò)程中,實(shí)際上涉及了一系列復雜的子任務(wù):

  . 機器人首先需要捕獲有人說(shuō)「我渴了」這個(gè)語(yǔ)音信號,然后通過(guò)語(yǔ)音識別技術(shù)將其轉換為文字。

  . 機器人需要理解「我渴了」這句話(huà)的含義,也就是說(shuō),理解說(shuō)話(huà)者此時(shí)需要水。

  . 然后,機器人需要知道在哪里能找到水,而這需要它對環(huán)境有一個(gè)良好的感知,利用計算機視覺(jué)技術(shù),識別和定位瓶裝水。

  . 在確定了瓶裝水的位置后,機器人需要規劃一條到達那里的路徑,這涉及到路徑規劃算法。

  . 完成路徑規劃后,機器人需要控制自身的動(dòng)作,移動(dòng)到瓶裝水的位置。

  . 到達水瓶的位置后,機器人需要準確抓取瓶裝水,這涉及視覺(jué)檢測、機器人控制系統和抓取的相關(guān)技術(shù)。

  . 抓取到水后,機器人需要規劃返回的路徑并控制自身的動(dòng)作,將水送到說(shuō)話(huà)者的手中。

  每一個(gè)子任務(wù)都需要大量的研究和工程實(shí)踐。不僅如此,機器人還需要能夠處理在訓練數據中未曾出現過(guò)的新情況,也就是說(shuō),模型需要具有強大的泛化能力,能夠在新的、未知的環(huán)境中有效地工作。

  為了提升機器人在開(kāi)放環(huán)境下的持續性泛化能力,團隊構建了一個(gè)端云協(xié)作的持續學(xué)習系統。這一系統的設計旨在兼顧終端計算的個(gè)性化、隱私保護和低通信成本等優(yōu)勢,同時(shí)也充分利用云端計算的大規模計算資源、大量標注數據以及卓越的泛化能力。通過(guò)高效的數據傳輸和合理的資源分配,實(shí)現了高度泛化的大小模型協(xié)同學(xué)習。

  仉尚航研究員表示,「在終端設備上,我們部署了經(jīng)過(guò)壓縮的多模態(tài)模型,該模型在進(jìn)行推理時(shí)能夠同時(shí)進(jìn)行不確定性估計。這一智能策略允許我們主動(dòng)篩選出不確定性較高的樣本,并將它們傳送回云端。這些高不確定性的樣本通常涉及新的數據分布,來(lái)自新場(chǎng)景、新環(huán)境或新事件等情況,這些都是在開(kāi)放環(huán)境下需要特別重點(diǎn)識別和理解的情形?!?/p>

  團隊成員劉家銘同學(xué)也提及,「一旦這些高不確定性樣本到達云端,我們利用未壓縮的多模態(tài)大模型對它們進(jìn)行深度分析和學(xué)習。通過(guò)知識蒸餾和高效微調等技術(shù)手段,我們將從這些難例樣本中提取的知識傳授給終端上的壓縮模型。這個(gè)過(guò)程大幅度提高了壓縮后的多模態(tài)模型的泛化能力,使機器人在開(kāi)放世界中能夠不斷適應和理解各種場(chǎng)景?!?/p>

  團隊提出的端云協(xié)作持續學(xué)習系統,在設計和研發(fā)上充分發(fā)揮了云端和終端計算的優(yōu)勢,通過(guò)智能的樣本篩選和知識傳遞,實(shí)現了機器人在開(kāi)放環(huán)境中持續學(xué)習和適應的目標。這一創(chuàng )新的方法顯著(zhù)提升了多模態(tài)大模型的泛化性與高效性,為開(kāi)放環(huán)境中的機器人系統賦予了更強的智能。

  科技創(chuàng )新賦能弱勢群體,讓亞運會(huì )展現「AI的溫度」

  深度學(xué)習大模型技術(shù)的突破式發(fā)展帶來(lái)了人工智能研究的革命性變化。預訓練大模型,如 ChatGPT和 GPT-4,成為 AIGC 系統的核心。在基礎設施支撐、頂層設計優(yōu)化、下游需求旺盛三輪驅動(dòng)下,人工智能大模型迎來(lái)了良好的發(fā)展契機。

  不過(guò),大模型研究仍處于研究的初期階段,仍存在關(guān)鍵科學(xué)難題和卡脖子技術(shù)亟待解決,包括如何同時(shí)處理多種輸入模態(tài),如何進(jìn)行大規模參數和高效訓練,如何進(jìn)行遷移學(xué)習和大模型微調,如何進(jìn)行多模態(tài)和多任務(wù)學(xué)習,如何進(jìn)行跨語(yǔ)言融合,如何進(jìn)行人機協(xié)作等。

  團隊這次自研的感知生成一體化通用多模態(tài)大模型,已經(jīng)展現出卓越的一體化處理能力,包括:視覺(jué)問(wèn)答(VQA),能夠對圖像進(jìn)行自然語(yǔ)言問(wèn)答;Captioning,能夠為圖像生成描述性文本;行為決策與規劃,具備基于圖像和文本信息進(jìn)行決策和規劃的能力;以及目標檢測,能夠識別圖像中的特定目標或特征。

  「多模態(tài)大模型是我們組研究的核心,」北京大學(xué)計算機學(xué)院博士后王冠群介紹說(shuō):「目前也取得了一定的成果,除了這次自研的感知生成一體化通用多模態(tài)大模型、大小模型協(xié)同訓練與部署,我們還關(guān)注多模態(tài)生成式大模型Agent設計、大模型記憶機制設計、面向多場(chǎng)景的智能醫療多模態(tài)大模型集群、通用大模型適配器等?!?/p>

  據悉,團隊研發(fā)的一體化大模型工具鏈(X-Accessory),旨在降低大模型使用門(mén)檻,促使各行業(yè)從業(yè)者能輕松調試大模型,在各自專(zhuān)有領(lǐng)域進(jìn)化大模型的能力以靈活適配專(zhuān)有需求?!肝覀冊谟布洗钶d高算力一體機,同時(shí)提供直通云端調取云算力服務(wù)的選項,軟件上搭載X-Accessory工具鏈,為用戶(hù)提供靈活的大模型調試和應用環(huán)境。該工具鏈可用于訓練和部署各類(lèi)任務(wù),包括但不限于金融知識問(wèn)答、交通任務(wù)調度、醫療推薦等垂直領(lǐng)域的專(zhuān)有任務(wù)?!?/p>

  基于多模態(tài)大模型,在北京大學(xué)計算機學(xué)院黃鐵軍教授及仉尚航研究員的指導下,團隊還為本次亞運會(huì )研發(fā)了一款智能AI賽事解說(shuō)系統。黃鐵軍教授提出了「脈沖連續攝影原理」,直接用每個(gè)像素的定額積分時(shí)間表達光強,相機速度取決于電路能夠實(shí)現的最短信號讀取時(shí)間,顛覆了持續近兩個(gè)世紀的定時(shí)曝光成像原理,解決了傳統相機不能兼顧超高速、高動(dòng)態(tài)的問(wèn)題,被中國電子學(xué)會(huì )鑒定認為是「超高速成像和機器視覺(jué)領(lǐng)域的重大原始創(chuàng )新,超高速成像技術(shù)達到國際領(lǐng)先水平」。有了高速脈沖相機,就能夠同時(shí)實(shí)現超高速、高動(dòng)態(tài)、全畫(huà)幅連續成像。在此基礎上,團隊通過(guò)自研的 X-Accessory一體化大模型工具鏈,設計了多模態(tài)多語(yǔ)種視頻解說(shuō)系統,在亞運會(huì )期間用于乒乓球、跆拳道、跳水、體操等賽事。這個(gè)解說(shuō)系統的特點(diǎn)在于,它不僅能夠理解和分析正在進(jìn)行的比賽,生成實(shí)時(shí)的解說(shuō)內容,還可以根據觀(guān)眾的喜好提供個(gè)性化的解說(shuō)服務(wù),包括將解說(shuō)內容翻譯成多種語(yǔ)言,包括維吾爾語(yǔ)、阿拉伯語(yǔ)等,從而為全球各地的觀(guān)眾提供豐富的觀(guān)賽體驗。

【圖說(shuō)】北京大學(xué)團隊研發(fā)的智能賽事解說(shuō)系統

  在高速脈沖相機的加持下,能夠清晰成像高速運動(dòng)場(chǎng)景,捕捉比賽中的關(guān)鍵時(shí)刻,針對賽場(chǎng)畫(huà)面進(jìn)行多個(gè)語(yǔ)種的解說(shuō)和報道,讓更多的人了解亞運,特別是提升國內少數民族及國外多語(yǔ)種國家的賽事體驗。

  除此之外,團隊還進(jìn)行多模態(tài)生成式大模型Agent設計。當前,多數模型都是單模態(tài)的,無(wú)法有效地結合視覺(jué)、聽(tīng)覺(jué)和文本等多種模態(tài)信息。這種局限性在復雜的實(shí)際場(chǎng)景,如虛擬助手、機器人交互和智慧城市中,可能導致效果并不理想?!敢虼?我們開(kāi)發(fā)了一種多模態(tài)生成式大模型Agent,將各種模態(tài)的優(yōu)點(diǎn)結合起來(lái),例如視覺(jué)的細節捕捉能力、聽(tīng)覺(jué)的時(shí)序特性和文本的結構化知識。這樣的綜合性設計將有助于推動(dòng)生成式模型向更加實(shí)用和高效的方向發(fā)展,滿(mǎn)足未來(lái)多種復雜應用場(chǎng)景的需求?!?/p>

  在更復雜的應用場(chǎng)景,團隊還研究過(guò)面向多場(chǎng)景的智能醫療多模態(tài)大模型集群。他們設計和實(shí)現了一組智能醫療多模態(tài)大模型集群,包括面向患者的個(gè)性化醫療知識問(wèn)答多模態(tài)時(shí)序大模型、面向醫生的臨床影像報告生成多模態(tài)大模型和面向導診場(chǎng)景的檢索增強大語(yǔ)言模型,使大模型技術(shù)適配臨床場(chǎng)景,滿(mǎn)足患者-醫生-醫院多方訴求,解決行業(yè)痛點(diǎn),推動(dòng)大模型在醫療領(lǐng)域的落地應用。

  在這個(gè)科技日新月異的時(shí)代,團隊以其深厚的專(zhuān)業(yè)知識和創(chuàng )新精神,為亞運會(huì )提供了強大的科技支持,也為弱勢群體帶來(lái)了實(shí)質(zhì)性的幫助。

  未來(lái),團隊將繼續秉持科技向善的原則,不斷深化在多模態(tài)大模型的研究和實(shí)踐,將AI技術(shù)的潛力最大限度地發(fā)揮出來(lái),為解決社會(huì )問(wèn)題、改善人們的生活提供更強大的支持。


THE END
免責聲明:本文系轉載,版權歸原作者所有;刊載之目的為傳播更多信息,如內容不適請及時(shí)通知我們。

相關(guān)熱點(diǎn)

  據路透社12日報道,日本東芝公司宣布,該公司股票將于12月20日從東京證券交易所退市?! |芝公司周四表示,將于11月22日召開(kāi)特別股東大會(huì ),批準其股票合并,該公司將于12...
企業(yè)
  記者11日從財政部了解到,為進(jìn)一步優(yōu)化福利彩票游戲結構,促進(jìn)彩票市場(chǎng)健康發(fā)展,“六六順”等41款即開(kāi)型福利彩票游戲將停止銷(xiāo)售?! 「鶕斦抗嫉膶徟庖?jiàn),財政部...
消費

相關(guān)推薦

1
3
人人狠狠综合久久亚洲88_国产超薄丝袜足底脚交国产_日本wvvw高清中文字幕_97国产品香蕉在线观看