如果在你的愛(ài)車(chē)里,有一款能像人一樣表達情緒的智能車(chē)載語(yǔ)音助手,它媲美人聲,不用反復喚起就能流暢對話(huà),會(huì )對你說(shuō)“好滴”而不是“好的”,這樣的語(yǔ)音助手你會(huì )心動(dòng)嗎?
不久前,小鵬汽車(chē)P7車(chē)型進(jìn)行了一次重要的OTA(Over-The-Air,遠程空中下載)系統升級,其中語(yǔ)音助手小P媲美人聲的更新,再次拉高了智能汽車(chē)語(yǔ)音助手的水平線(xiàn)。
“耗時(shí)十個(gè)月上線(xiàn),這是一次汽車(chē)界對車(chē)載語(yǔ)音的前沿探索?!毙※i汽車(chē)AI產(chǎn)品高級專(zhuān)家郝超說(shuō)道。
對于車(chē)載語(yǔ)音來(lái)說(shuō),“媲美人聲”為什么很重要,小P的更新到底高明在什么地方?我們跟郝超以及微軟云計算與人工智能事業(yè)部產(chǎn)品總監丁秉公聊了聊關(guān)于車(chē)載語(yǔ)音的那些事兒。
車(chē)載語(yǔ)音“媲美人聲”為什么很重要?
不知道大家有沒(méi)有這種感覺(jué),在手機上或者智能音箱上聽(tīng)機器人播新聞,好像總沒(méi)有真人主播播得痛快;特別是無(wú)聊的時(shí)候,想跟語(yǔ)音助手逗個(gè)樂(lè ),三兩句話(huà)下來(lái),總會(huì )無(wú)奈地自言自語(yǔ)一句:“它真的好傻啊?!?/p>
在業(yè)界,這種同語(yǔ)音助手互動(dòng)不流暢帶來(lái)的不適感,可以用“聽(tīng)覺(jué)疲勞”來(lái)形容。而相對于家常環(huán)境場(chǎng)景下的語(yǔ)音互動(dòng),如在長(cháng)時(shí)間開(kāi)車(chē)的場(chǎng)景下,車(chē)主很大程度上會(huì )放大對聽(tīng)覺(jué)疲勞的感知。換句話(huà)說(shuō),車(chē)主對語(yǔ)音助手語(yǔ)音流暢度、自然度敏感性更高,對車(chē)載語(yǔ)音助手更逼近人聲的需求也更高。
“小P升級后,很多車(chē)主半夜蹲點(diǎn)兒去車(chē)里搶先試聽(tīng)新聲音?!焙鲁f(shuō)起小P剛更新時(shí)一些車(chē)主的反應。
這與車(chē)載語(yǔ)音產(chǎn)品不斷追求“媲美人聲”的效果,形成了一種默契?!霸瓉?lái)我們可能只追求讓大家把聲音聽(tīng)懂就行,后來(lái)我們認為不僅要聽(tīng)懂,還要像人聲一樣更加自然,最后我們覺(jué)得自然還不夠,還想用多情感的聲音來(lái)代替單調的聲音?!倍”硎?。
因此早在2018年,為了讓人工智能的聲音更自然,微軟就已經(jīng)在神經(jīng)網(wǎng)絡(luò )語(yǔ)音合成技術(shù)上做了很多工作。最近兩年來(lái),該技術(shù)的不斷創(chuàng )新使合成聲音錯誤率進(jìn)一步減少、顯著(zhù)提升了句子韻律的合成質(zhì)量和語(yǔ)音的高保真度。
數據顯示,經(jīng)行業(yè)公認的、專(zhuān)業(yè)評估語(yǔ)音自然度的MOS(Mean Opinion Score平均意見(jiàn)評分)測試,微軟AI語(yǔ)音評分4.49分(真人錄音得分 4.5分),這證明在音質(zhì)、發(fā)音、說(shuō)話(huà)準確性和清晰度等方面,合成語(yǔ)音已經(jīng)能夠與真人錄音樣本相媲美。
這種更自然的合成聲音也推動(dòng)了車(chē)載語(yǔ)音場(chǎng)景的應用的落地,小鵬汽車(chē)在這個(gè)過(guò)程中成了那個(gè)率先吃螃蟹的人。
不過(guò)需要強調的是,微軟提供的神經(jīng)網(wǎng)絡(luò )語(yǔ)音合成技術(shù)、及其背后的語(yǔ)音模型,都是平臺化的可匹配多行業(yè)的通用產(chǎn)品,要將這種通用產(chǎn)品與小鵬汽車(chē)的特定場(chǎng)景融合,雙方還要在“車(chē)載”場(chǎng)景上做很多融合。
“車(chē)規級”語(yǔ)音需要克服哪些難點(diǎn)?
有人可能會(huì )說(shuō),車(chē)載語(yǔ)音不就是語(yǔ)音交互嗎,現在不管是手機還是音箱,但凡帶點(diǎn)“智能”,讓它“說(shuō)話(huà)”似乎并不是什么難事。這種質(zhì)疑并沒(méi)有什么問(wèn)題,但仔細想來(lái),就像芯片也有車(chē)規級一樣,汽車(chē)的語(yǔ)音交互系統也在不斷追求“車(chē)規級”的完美。
據郝超和丁秉公介紹,車(chē)規級語(yǔ)音需要克服的挑戰主要有3個(gè):
第一,應對汽車(chē)移動(dòng)狀態(tài)下的網(wǎng)絡(luò )抖動(dòng),在保證聲音保真率的情況下盡量壓縮對流量及硬件性能的消耗,同時(shí)還要解決合成語(yǔ)音上比較難的歧義、分詞問(wèn)題。
為了應對網(wǎng)絡(luò )抖動(dòng),小鵬汽車(chē)采取了多級緩存的方法,把好的聲音提前進(jìn)行各級緩存然后下發(fā),盡量減少對網(wǎng)絡(luò )的依賴(lài)?!氨热缦到y判斷前方500米有攝像頭,該播報了,但可能在‘前方’兩個(gè)字播出之后會(huì )因為網(wǎng)絡(luò )抖動(dòng)導致這句話(huà)播不全,那系統會(huì )啟動(dòng)語(yǔ)意動(dòng)態(tài)等待?!焙鲁f(shuō),“等個(gè)1-2秒,網(wǎng)絡(luò )抖動(dòng)過(guò)去,再播報。雖然多開(kāi)了兩米,但在可接受范圍內?!辈贿^(guò),像“前方右轉”等這類(lèi)特殊情況除外,系統則不會(huì )啟動(dòng)動(dòng)態(tài)等待。
第二個(gè)比較大的難點(diǎn)是語(yǔ)音高保真度帶來(lái)的連鎖挑戰。
一般情況下,大部分車(chē)載語(yǔ)音系統的語(yǔ)音采樣率為16k HZ(一秒鐘有1萬(wàn)6千個(gè)采樣點(diǎn)),量化水平在8比特(每個(gè)采樣點(diǎn)數據量為8比特)。而小鵬汽車(chē)使用的語(yǔ)音模型在采樣率上達到了24k HZ,量化水平為16比特,這也就意味著(zhù)一秒鐘的信息量是幾十KB,那么一分鐘可能就是幾十兆,一小時(shí)可能就是接近一個(gè)G,一天就是幾十G。不壓縮的話(huà),這么大流量的壓力是非常大的。
“除了剛才談到的多級緩存,云計算在這里也起到了很大的作用。這些高質(zhì)量的聲音與微軟云相結合,在不降低聲音質(zhì)量的情況下,能夠實(shí)現用戶(hù)對高保真語(yǔ)音體驗上的實(shí)時(shí)傳輸?!倍”硎?。
高保真的聲音也增加了對整車(chē)CPU的資源占用。因此,在實(shí)踐過(guò)程中,小鵬汽車(chē)盡量不占用本地的計算資源,在網(wǎng)絡(luò )條件好的情況下盡量對在線(xiàn)模型發(fā)起請求,而不是依賴(lài)本地,盡量平衡單位周期內對CPU的占用。
另外一個(gè)挑戰是解決合成語(yǔ)音中歧義的問(wèn)題。中文的分詞,多音字,數字讀法等都有歧義問(wèn)題。一個(gè)典型的例子是比如“南京市長(cháng)江大橋”,合成語(yǔ)音可能斷句為“南京 市長(cháng) 江大橋”,這類(lèi)烏龍在A(yíng)I合成語(yǔ)音中目前仍然很常見(jiàn)?!霸诓煌膱?chǎng)景下,受眾對歧義的容忍度有很大差別。因此我們希望針對合成語(yǔ)音的使用場(chǎng)景進(jìn)行優(yōu)化,減少歧義對用戶(hù)體驗的影響?!倍”珡娬{。
比如,還是上文談到的人工智能播新聞的場(chǎng)景,這個(gè)時(shí)候AI分詞出現錯誤最嚴重可能就是對某個(gè)句子聽(tīng)不懂,但在車(chē)載場(chǎng)景下可能直接影響到車(chē)主的車(chē)況。這些都要在車(chē)載端做優(yōu)化,保證車(chē)主在開(kāi)得比較快、噪音比較大的聽(tīng)音環(huán)境下也能夠聽(tīng)到高保真的聲音。這也是車(chē)規級語(yǔ)音同我們日常用的智能手機語(yǔ)音助手、智能音箱助手比較大的不同。
車(chē)載語(yǔ)音“媲美人聲”是壁壘還是趨勢?
技術(shù)在產(chǎn)業(yè)落地的過(guò)程,往往被看作是技術(shù)尋找場(chǎng)景的過(guò)程。場(chǎng)景找到了,技術(shù)是否高深、前沿便顯得沒(méi)那么重要。
小鵬汽車(chē)的媲美人聲的車(chē)載語(yǔ)音助手也正是運用了微軟的通用語(yǔ)言模型才達到了當前的效果。但對于使用了通用技術(shù)的小鵬來(lái)說(shuō),小P的煉成是一次前沿技術(shù)的探索,還是通用技術(shù)落地的其中一環(huán)呢?
對于這個(gè)問(wèn)題,郝超的答案更偏向于前者?!爱敶蠹也恢繟I能做什么事情的時(shí)候,可能認為,找場(chǎng)景更重要。把現有的這些技術(shù)落地到某一個(gè)場(chǎng)景,可能就有AI了。這是因為大家對這個(gè)事情理解不深?!彼f(shuō),“當對整個(gè)車(chē)載場(chǎng)景,或者對出行有足夠深的理解的話(huà),就會(huì )發(fā)現這里面有太多太多的問(wèn)題要解決?!?/p>
郝超認為,智能汽車(chē)非常依賴(lài)高精尖技術(shù),甚至現在很多技術(shù)做不到的事情,他們也希望能?chē)L試通過(guò)技術(shù)來(lái)解決。也就是說(shuō),對于新技術(shù)的應用,小鵬汽車(chē)的思路是,不是有這樣一個(gè)技術(shù)能用到什么樣的場(chǎng)景,而是我們看到這樣一個(gè)場(chǎng)景,去探索、尋找有沒(méi)有更好的技術(shù)來(lái)解決。
“作為一個(gè)造車(chē)新技術(shù)的探索者,可能踩的坑會(huì )比較多,甚至成本也很高,但其實(shí)我們一直是希望探索明白了之后,路趟平了之后,告訴業(yè)內同行們,這個(gè)方向用戶(hù)是認可的。以此推動(dòng)整個(gè)行業(yè)的進(jìn)步?!焙鲁偨Y。
事實(shí)證明,小P的上線(xiàn)確實(shí)達到了這樣的效果。
當下,作為提供通用技術(shù)平臺的微軟也正在將小鵬汽車(chē)對于語(yǔ)音模型的應用經(jīng)驗,反哺到通用語(yǔ)音模型中。
“從技術(shù)上面,我們其實(shí)想大道至簡(jiǎn),用一套模型可以服務(wù)所有的用戶(hù)?!倍”f(shuō)道。他認為,微軟在不同行業(yè)里的積累,正在擴大微軟的模型能力,觸類(lèi)旁通后,使得像小鵬這樣的企業(yè)能夠在他們的基礎模型上,享受到平臺級的AI模型紅利。(本文首發(fā)鈦媒體App,作者 | 秦聰慧)