AI讓機器越來越“會說”——科大訊飛建立面向全球的多語種語音服務平臺

 要:本案例描述了科大訊飛突破語言障礙、破解“卡脖子”困境,建立的面向全球的多語種語音服務平臺。在過去相當長一段時間裏,多語種智能語音技術一直掌握在谷歌、微軟、Nuance等一衆美國科技巨頭手中。科大訊飛上海人工智能研究院構建的一套全語種通用的基於Global phone的字音轉換系統和多模態文本分析系統,使端到端模型在工業界可以快速地實現產業應用,有效助力中國企業出海。在推動更多剛需行業應用落地的同時,科大訊飛還將人工智能語音技術應用於方言保護、拯救瀕危語言等領域,助力推動人類文化瑰寶的延續與傳承。

關鍵詞:科大訊飛上海人工智能研究院;多語種語音技術;語音合成;語音識別;

案例正文:

奧運會從來不僅是體育技能的較量比拼,也是科技進步的集大成者,新技術、新成果的盛大“秀場”。當冬奧會正式進入“北京時間”,這次站在舞臺中央的科技關鍵詞是“溝通無障礙”。作爲2022年北京冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商,科大訊飛提供的自動翻譯和多語種語音轉換、識別、合成等技術,助力達成賽場內外全球無障礙溝通交流。

在冬奧實現示範應用的背後,是科大訊飛在2019年面臨語音技術“卡脖子”問題以來,開始全面佈局多語種方向,致力構建面向全球的多語種語音服務平臺。在兩年內完成世界上主要官方語種的覆蓋,並在效果上達到商用水平,從而解決多語種的人機交互、語言互通等難題。

多語種語音技術難在哪兒?

多語種語音技術包含語音合成、語音識別等多個技術方向,“語音識別”是讓機器“會聽”,“語音合成”就是讓機器“會說”。對於語音合成,特別是“多語種語音合成”來說,則是要讓機器不僅會說中文,還能說國外語種,甚至少數民族語言和方言。

科大訊飛曾在國際語音合成界最具權威性和影響力的國際賽事Blizzard Challeng上蟬聯14個世界冠軍,在中英文大語種方面取得語音合成的重大突破,但這還遠遠不夠。在過去相當長一段時間裏,多語種智能語音技術一直掌握在谷歌、微軟等一衆美國科技巨頭手中,一定程度上可以說這項技術被國外壟斷了。再加之2019年國內外形勢的突變,堅定了科大訊飛開始全面佈局多語種方向的決心。科大訊飛上海人工智能研究院多語種合成團隊臨危受命,致力兩年內完成對世界上主要官方語種的覆蓋,並且在效果上達到商用水平,進而解決多語種的人機交互、語言互通等問題。

多語種語音技術難度相比中英文大語種難得多,難在哪兒?以中文爲例,它有一套成熟且推廣度極高的漢語拼音體系,可以直接用在中文合成和識別等系統裏,解決語音合成中“由字到音”或者識別中“由音到字”的問題。然而世界上大部分其它語種並沒有一套比較完善的語言學理論作爲基礎,因此多模態文本分析,特別是字音轉換,就成了技術突破的重難點。

“說實話,當時接到這個任務的時候,整個團隊都有些沒底。”科大訊飛上海人工智能研究院多語種合成團隊負責人高麗介紹道,“在研發過程中,我們團隊很多時候是在探索和研究語言學、工程學的高效融合,我們期望通過構建一套最簡潔的語言學表徵,來表示儘可能多的語義相關的內隱概念和語法系統,可以讓模型進行高效的學習。” 

另一方面的壓力來源於缺少小語種語言專家的支持。實現語音合成的前提條件,是需要找到專業且有聲音特色的母語者,用專業的錄音設備錄製10小時以上,從而建立起高品質的音庫。

“我們當時沒有任何可以提供高品質多語種發音人的錄音渠道,伴隨着新冠肺炎疫情的爆發,特別是國外疫情的持續,給我們數據的跨國採集以及尋找專家資源的支持,都帶來了非常大的難度。同時基於我們當時的技術方案,10人左右規模的團隊,兩年內要完成世界主要官方語種的能力建設,並快速達到商業應用水平,是不可能的事情。”高麗回憶道。

站上國際舞臺的中國多語種語音技術

面對重重困境,上海人工智能研究院多語種合成團隊從兩方面着手破局,一是成立核心技術緊急研究攻關小組,研發一套通用性強、魯棒性高的新一代多語種語音合成系統,二是通過各種方式拓展多語種發音人的錄音渠道,截至2022年,已累積全球範圍內100多個發音人錄音渠道。

團隊負責人高麗表示,“儘管困難一個接着一個,但我們團隊也有足夠的定力和底氣,來源於我們十多年來在多語種合成領域的耕耘與積累,我們在這方面已經有了一套通用的方法論,所以在端到端時代,我們可以快速構建一套全語種通用的基於Global phone的字音轉換系統和多模態文本分析系統,使得端到端模型,不論是語音合成模型還是語音識別模型,在工業界可以快速地實現產業應用。”

經過兩年多的努力,團隊研究成果逐漸顯現。2021年11月10日,在國際低資源多語種語音識別競賽OpenASR中,科大訊飛-中科大語音及語言信息處理國家工程實驗室(USTC-NELSLIP)聯合團隊參加了所有15個語種受限賽道和7個語種非受限賽道,並全部取得了第一名的成績。

2022年,科大訊飛上海人工智能研究院多語種合成團隊的語音識別和語音合成能力已經達到了實際的商用水平。其中,語音識別覆蓋了60餘個語種,14個重點語種語言識別率率先達到90%的實用水平。語音合成則覆蓋了30餘個語種,MOS分均達到4.0+的實用水平,滿足商用級別要求,有效解決了國內多語種智能語音技術的“卡脖子”難題。可以說,中國的多語種智能語音技術以絕對亮眼的成績站上了國際舞臺。

用技術解決社會剛需 也讓技術富有溫情

科大訊飛上海人工智能研究院多語種合成團隊構建的面向全球的多語種語音服務平臺,正切實爲“中國製造”的出海產品提供自主可控的解決方案。例如在手機、家電方面,科大訊飛爲國內衆多手機廠商提供了包括中英文在內的多語種語音識別、語音合成能力解決方案,並聯合海爾研發多語種識別系統,助力其拓展東南亞市場;在車載交互方面,科大訊飛與上汽、長安、奇瑞等國內主要出海汽車提供商,以及俄羅斯汽車工程研究院(NAMI)等海外車廠開展多語種項目合作,覆蓋了英語、俄語、日語、泰語、西班牙語、意大利語等數十個語種。

據聯合國教科文組織數據,在世界範圍內,平均每兩週就有一種語言消失。在我國,隨着普通話的普及,一些少數民族語言、方言等弱勢語言正瀕臨滅絕。以滿語爲例,每一億個中國人中,只有一人能夠熟練掌握這種語言。語言不僅是人類最基本的交流工具,更是民族文化和歷史的載體。每當一種語言走向消亡,意味着又有了更多綿延留長、用語言來傳承的人類文化遺產遠離了我們。

而人工智能的出現,讓瀕危的弱勢語言又有了復活的可能。因此,在推動更多剛需行業應用落地的同時,科大訊飛還將人工智能語音技術應用於方言保護、拯救瀕危語言等領域,助力推動語言這種特殊的人類文化瑰寶的延續與傳承。

科大訊飛於2017年發起“方言保護計劃”,目前已實現13種方言的語音合成、25種方言的語音識別、2種方言的翻譯應用。通過方言庫的持續積累,方言保護計劃的成果已在教育、文旅、媒體等多行業的應用場景切實落地。

面向未來,團隊研發出的AI智能語音技術支持開展瀕危語言的復刻,囊括錫伯語、彝語等少數民族語言,上海話、蘇州話、客家話等方言,“保護語言多樣性就是保護文化多樣性,保護文化多樣性也是保護人類命運共同體的多樣性。”高麗說。案例評點: 

依託重大專項,通過內外部多方向集中攻關,實現了端到端建模、無監督訓練和國產化推理訓練等關鍵技術突破,在國內首次完成了60個語種的語音語言技術並達到國際領先,榮獲 Blizzard Challeng、openASR等多項世界冠軍,在冬奧實現示範應用,並通過創新合作、產品出海和生態構建,爲中國智造出口、‘一帶一路’語言互通和國家信息安全保障奠定了堅實基礎。”

中國科學技術大學電子工程與信息科學系教授 凌震華



Scroll to Top