數據顯示,我國現在約有2780萬(wàn)聽(tīng)障人士,每年還有大量聽(tīng)障新生兒不斷增加中。隨著(zhù)社會(huì )的發(fā)展和進(jìn)步,聽(tīng)障人士的權利意識、參與意識和平等意識都在不斷增強,他們對信息的知情愿望、與健聽(tīng)人士的交流愿望也隨之增強。盡管隨著(zhù)科技的發(fā)展,越來(lái)越多的聽(tīng)障人群可以通過(guò)語(yǔ)音轉文字來(lái)溝通,然而,手語(yǔ)依然是聾人之間的首要溝通語(yǔ)言。
手語(yǔ)是聽(tīng)障人群交流的一種特殊表達方式和主要溝通工具,以手的動(dòng)作、手指指式、身體姿態(tài)及面部表情的變化為表意或表音手段,進(jìn)行交際的一種符號系統。不同于聽(tīng)覺(jué)語(yǔ)言,手語(yǔ)是一種視覺(jué)語(yǔ)言,由于表達和語(yǔ)法邏輯與健聽(tīng)人所學(xué)習的不同,大部分健聽(tīng)人看不懂手語(yǔ)的表達。所以,對于聽(tīng)障人士來(lái)說(shuō),獲取信息是一方面,他們最渴望的,還是內心的表達,被“看懂”、被“理解”。
9月10日下午,天津市人工智能計算中心200P人工智能算力上線(xiàn)儀式在天津市河北區舉行。會(huì )上,天津市殘疾人聯(lián)合會(huì )、天津理工大學(xué)、天津市人工智能計算中心、華為技術(shù)有限公司聯(lián)合簽約,基于昇騰AI算力及昇騰全場(chǎng)景AI框架昇思MindSpore,各方將共同研發(fā)“海河·爾語(yǔ)”聾人手語(yǔ)理解大模型,打造更精準的“手語(yǔ)-漢語(yǔ)”翻譯產(chǎn)品,幫助聽(tīng)障人群更便捷、更準確的表達、傳遞信息,拓寬與外界的交流通道。
圖:四方將共同研發(fā)“海河·爾語(yǔ)”聾人手語(yǔ)理解大模型
天津理工大學(xué)聾人工學(xué)院是天津市政府和中國殘聯(lián)合辦、我國第一所面向全國招收聾人的高等工科特殊教育學(xué)院,也是國內最早面向聽(tīng)障學(xué)生開(kāi)設“全納”(聽(tīng)障學(xué)生進(jìn)入健聽(tīng)班級隨班就讀、跨學(xué)院聯(lián)合培養)教育本科專(zhuān)業(yè)的高校。該學(xué)院在積極探索和構建面向聽(tīng)障生的融合育人培養體系的同時(shí),也在持續探索如何構建并使用海量手語(yǔ)數據資源,提升聽(tīng)障人士生活和學(xué)習質(zhì)量,促進(jìn)聾健融合,通過(guò)人工智能技術(shù)力量助力國家無(wú)障礙建設。
圖:天津理工大學(xué)聾人工學(xué)院副院長(cháng)袁甜甜介紹手語(yǔ)大模型
然而,手語(yǔ)大模型的構建時(shí)存在以下難點(diǎn):1、手語(yǔ)語(yǔ)料庫收集困難,需要熟悉標準的手語(yǔ)的模特示范,專(zhuān)業(yè)攝影及視圖處理;2、手語(yǔ)語(yǔ)料數據普遍質(zhì)量不高,需要多次收集、嚴格比對優(yōu)化;3、缺少手語(yǔ)語(yǔ)言學(xué)語(yǔ)法分析體系,且缺失自動(dòng)標注智能模型和手語(yǔ)表達的多樣性,需要大量的人工標注和不斷修正迭代;4、單信道手語(yǔ)識別準確率低,多信道手語(yǔ)數據融合難,手語(yǔ)視圖需要結合人物表情、動(dòng)作幅度、周?chē)h(huán)境等多模態(tài)信道。
為解決以上難題,天津市殘疾人聯(lián)合會(huì )、天津理工大學(xué)攜手華為T(mén)ECH4ALL數字包容團隊,依托天津市人工智能計算中心提供的澎湃AI算力,基于華為昇騰AI基礎軟硬件平臺,特別是全場(chǎng)景AI框架昇思MindSpore,共同研發(fā)“海河·爾語(yǔ)”聾人手語(yǔ)理解大模型,共同致力于打造更精準的“手語(yǔ)-漢語(yǔ)”翻譯產(chǎn)品。
圖:袁甜甜介紹手語(yǔ)大模型帶來(lái)的優(yōu)勢和應用場(chǎng)景
“海河·爾語(yǔ)”大模型為國內首個(gè)自主可控聾人手語(yǔ)理解大模型,以聾人手語(yǔ)視圖為藍本,結合動(dòng)作幅度、速度、人物表情及周?chē)h(huán)境,深度、準確理解聾人手語(yǔ)表達的含義,并轉換為健全人能理解的語(yǔ)音與文字,在國內獨樹(shù)一幟。超過(guò)百萬(wàn)的手語(yǔ)數據集將“喂”給“海河·爾語(yǔ)”大模型,經(jīng)過(guò)模型與算法處理,便能高效地生成手語(yǔ)多模態(tài)模型,可以支持超過(guò)10億的數據標注手語(yǔ)到漢語(yǔ)的翻譯與訓練。
未來(lái),“海河·爾語(yǔ)”聾人手語(yǔ)理解大模型研究成果更有望走向更廣闊的社會(huì )范疇,應用于智慧城市、智慧教育、智慧醫療、智慧養老、智能出行及公益項目等多個(gè)領(lǐng)域。
打破溝通障礙,讓生活更有溫度,科技從未停止探索的腳步。聽(tīng)障人群是我國社會(huì )不可忽視的重要組成部分,準確、及時(shí)的獲取聽(tīng)障人士的表達、將信息傳遞給更多聽(tīng)障人士和健聽(tīng)人,是我國建設和諧社會(huì )、生態(tài)文明發(fā)展的重要需求。華為T(mén)ECH4ALL數字包容團隊將繼續攜手更多合作伙伴,共同助力聽(tīng)障人士更加便捷的融入社會(huì ),讓數字世界更平等可持續。