語(yǔ)種
中文簡(jiǎn)體 中文繁體 English
營(yíng)業(yè)廳
網(wǎng)上營(yíng)業(yè)廳 掌上營(yíng)業(yè)廳
返回頂部
首個(gè)支持30種方言混說(shuō)語(yǔ)音大模型發(fā)布!中國電信人工智能研究院用AI守護方言
2024-05-25 中國電信
分享:
   

“唔該查嚇電話(huà)費吖”“儂幫阿拉查下話(huà)費好伐?”粵語(yǔ)、上海話(huà)、四川話(huà)······中國電信萬(wàn)號智能客服每天接到幾百萬(wàn)通電話(huà),其中很大比例用方言撥打,尤其是“老少邊窮”地區,一些老人習慣說(shuō)方言,甚至只會(huì )說(shuō)方言,智能客服及人工客服都難以理解,溝通效率難免大打折扣。據統計,全國仍有約20%人口未普及普通話(huà),他們常常被隔絕在智能信息服務(wù)之外,難以享受到AI時(shí)代的便利。

近日,中國電信人工智能研究院(TeleAI)發(fā)布業(yè)內首個(gè)支持30種方言自由混說(shuō)的語(yǔ)音識別大模型——星辰超多方言語(yǔ)音識別大模型,打破單一模型只能識別特定單一方言的困境,可同時(shí)識別理解粵語(yǔ)、上海話(huà)、四川話(huà)、溫州話(huà)等30多種方言,是國內支持最多方言的語(yǔ)音識別大模型。中國電信人工智能研究院用最前沿的語(yǔ)音識別技術(shù),讓溝通更加自然流暢,極大解決老年人及“老少邊窮”地區人們的信息服務(wù)無(wú)法觸達的問(wèn)題,為人們搭建一條通往AI時(shí)代的溝通橋梁。

用AI守護方言,讓語(yǔ)言文化煥發(fā)生命力

方言是中國文化多樣性的瑰寶,傳承豐富的歷史文化內涵;方言也是不同區域文化的靈魂,凝聚人們鄉情的根源,具有豐富的人文價(jià)值。然而,很多方言卻在社會(huì )經(jīng)濟快速發(fā)展中不斷消亡,保護方言傳承語(yǔ)言文化已迫在眉睫。

AI正在為傳承語(yǔ)言文化注入全新生命力。方言語(yǔ)料采集、記錄和歸納后,需保證能被后人正確理解。中國幅員遼闊,“百里不同俗,十里不同音”各種方言語(yǔ)法語(yǔ)音特征各不相同,傳統的方言研究依賴(lài)于調查者主觀(guān)感知標注,人力工程量巨大且難以系統標注。而AI能夠更高效、系統地對方言進(jìn)行整理歸納,對方言保護和傳承意義重大。

構建高質(zhì)量方言數據庫,是方言保護和研究的基礎。當前,中國電信人工智能研究院已構建超30種,超30萬(wàn)小時(shí)的高質(zhì)量方言數據庫,方言數據庫在豐富性和高質(zhì)量等層面均居于業(yè)內前列。

中國電信人工智能研究院(TeleAI)堅持自主研發(fā)創(chuàng )新,在中國電信CTO、人工智能研究院院長(cháng)李學(xué)龍帶領(lǐng)下,推出了星辰語(yǔ)音大模型,通過(guò)超大規模語(yǔ)音預訓練和多方言聯(lián)合建模,率先實(shí)現單一模型支持30種方言自由混說(shuō)語(yǔ)音識別,是國內支持最多方言、覆蓋人口最多的語(yǔ)音大模型;研發(fā)團隊首創(chuàng )“蒸餾+膨脹”聯(lián)合訓練算法,解決超大規模多場(chǎng)景數據集和大規模參數條件下,預訓練坍縮的問(wèn)題,實(shí)現1B參數80層模型穩定訓練;星辰語(yǔ)音大模型也是業(yè)內首個(gè)開(kāi)源的基于離散語(yǔ)音表征的語(yǔ)音識別大模型,通過(guò)“從語(yǔ)音到token再到文本”的建模新范式,將推理時(shí)語(yǔ)音傳輸比特率降低數十倍。

星辰語(yǔ)音大模型以絕對領(lǐng)先的性能,斬獲多個(gè)國際權威賽事冠軍。在權威國際語(yǔ)音頂會(huì )INTERSPEECH2024離散語(yǔ)音單元建模挑戰賽上,憑借星辰語(yǔ)音識別大模型的領(lǐng)先技術(shù),中國電信人工智能研究院語(yǔ)音團隊斬獲語(yǔ)音識別賽道冠軍。在業(yè)內知名的多方言語(yǔ)音識別數據集KeSpeech任務(wù)上,星辰語(yǔ)音大模型打破紀錄,領(lǐng)先之前最優(yōu)結果20%,以高達92.97%的準確率刷新最優(yōu)結果。同時(shí)在NIST(美國國家標準與技術(shù)研究院)組織的Babel低資源語(yǔ)音識別項目電話(huà)粵語(yǔ)賽道上,刷新紀錄取得目前業(yè)內最好成績(jì)。極佳的性能保證用戶(hù)與星辰語(yǔ)音大模型對話(huà),無(wú)需刻意切換普通話(huà),也無(wú)需提高音量放慢語(yǔ)速,可以像和家人講話(huà)一樣自然地暢所欲言。

勇?lián)肫笫姑?,中國電信搭建AI時(shí)代溝通橋梁

隨著(zhù)AI技術(shù)高速發(fā)展,人們享受著(zhù)智能化、無(wú)人化服務(wù)的便利。然而,“老少邊窮”地區及很多老人,由于方言限制,正逐漸被AI時(shí)代拋棄。中國電信堅定地承擔央企責任,用AI搭建溝通的橋梁,讓每一個(gè)人都能享受AI時(shí)代便利。同時(shí),中國電信有幾億用戶(hù)和豐富應用場(chǎng)景,天然具備數據飛輪飛速轉動(dòng)的優(yōu)勢,無(wú)疑將促進(jìn)技術(shù)更快進(jìn)步,更好地服務(wù)每一個(gè)人。

據悉,星辰語(yǔ)音大模型已廣泛應用落地。星辰語(yǔ)音大模型已在福建、江西、廣西、北京、內蒙古等地的中國電信萬(wàn)號智能客服試點(diǎn)應用,接入星辰大模型以后,萬(wàn)號智能客服秒懂30種方言,自然流暢地服務(wù)用戶(hù),實(shí)現日均處理約200萬(wàn)通電話(huà);智能客服翼聲平臺接入星辰大模型的語(yǔ)音理解和分析能力,實(shí)現31省份全覆蓋,每天處理125萬(wàn)通客服電話(huà)。此外,星辰語(yǔ)音大模型還落地多地市的12345平臺,賦能客服人員秒懂30種方言,更自然流暢理解更多市民需求,提升溝通效率,助力政務(wù)工作智能化升級,更高效、便捷地為每一位市民提供服務(wù)。

在中國國際大數據產(chǎn)業(yè)博覽會(huì )上,星辰語(yǔ)音大模型讓數字人“能聽(tīng)會(huì )說(shuō)”,數字人“數數”,聲音甜美生動(dòng),與康輝同臺主持,中英文隨意切換,交流對話(huà)自然流暢,廣受好評。

星辰語(yǔ)音大模型現已對外開(kāi)源,攜手合作伙伴及個(gè)人開(kāi)發(fā)者,開(kāi)發(fā)面向更多場(chǎng)景的應用,共同守護方言、傳承語(yǔ)言文化,助力AI普惠。未來(lái),中國電信人工智能研究院將持續深耕研發(fā)創(chuàng )新,不斷提高支持方言的數量和準確度,計劃建成首個(gè)覆蓋全國333個(gè)地市方言和主要少數民族語(yǔ)言的語(yǔ)音識別大模型,切實(shí)讓“老少邊窮”、老年人等群體都能享受到AI時(shí)代的便利。

掃一掃在手機打開(kāi)當前頁(yè)