國際口語翻譯先進研究聯盟(U-Star)日前在倫敦發布23國語言翻譯實驗系統,以多國語言翻譯服務迎接奧運。作為該聯盟的發起單位之一,中科院自動化所承擔了其中中英互譯項目。
此次發布會由日本情報通信研究機構(NICT)主辦,來自26個研究機構的代表出席發布會,會上進行了多人同時運用不同語言的在線翻譯展示。
U-Star此次發布的系統名叫“Voice Tra4U-M”,涵蓋了世界應用較為廣泛的23個語種,并能同時支持5人以移動終端在不同地點用不同語種進行實時對話。基于該系統,會話用戶在手機上以各自語種通話,系統會將各方的語音信息通過網絡傳送到后臺云計算中心,計算中心首先對口語語音進行識別,并將語音信息轉換為文本信息,隨后將文本信息翻譯為會話各方所需語種的文本信息,最后通過文本轉語音模塊,將翻譯后的目標語音發送到相應會話用戶的手機上,從而實現跨語種對話。
實現無障礙的跨語言溝通一直是機器翻譯追求的目標。從1945年信息論先驅Warren Weaver提出機器翻譯的可計算性,計算機自動翻譯之路已走了60多年。而由于語音識別因口音問題帶來的大量模糊,以及周圍環境中的噪音影響,正確可靠的口語翻譯并不是一件容易的事,科學界一度將此技術突破的難度比作“人類登陸火星”。
近年來,互聯網海量數據的爆炸性增長、大規模云計算技術應用為口語翻譯技術的突破提供了有力的技術支撐,而基于3G移動通信技術的智能終端普及為該項技術從實驗室走向應用提供了理想的平臺,降低了此技術的應用門檻,使其快速發展起來。
“我們要讓普通民眾都可以應用此項技術,僅僅通過手機終端就可進行無語言障礙的流暢對話。”NICT發言人堀智織教授介紹。但目前,翻譯速度受到網絡環境的影響,在網絡條件良好的條件下,整個翻譯交互過程在數秒鐘之內即能完成,為用戶帶來了便捷和高效的使用體驗。
該項目中,中科院自動化所承擔了其中中英互譯項目,其中包括漢語普通話識別、中文-英文雙向翻譯以及漢語普通話合成等四大任務。據中科院自動化所副所長徐波介紹:“我所研究成果的最大突破,便是無專業領域的限定。例如以往總是考慮在旅游中會用到的詞匯,而在真實情況下很難判斷語句實際應用的可能性,使得系統的可靠性很難保證。云計算技術和3G技術的推進,讓我們能獲取海量數據信息,運用有效的算法進行翻譯轉換,因此該系統并沒有限定翻譯領域。”
目前,該所自主研發的基于Android和iPhone手機的中文-英文雙向口語翻譯系統“紫冬口譯Beta版”(又名“由你說”)已開發完成,并將于倫敦奧運會前在Android和iphone平臺上免費提供下載。該系統加入了奧運場館、競賽項目等奧運相關詞匯。在奧運期間,用戶可以在3G或者無線局域網環境中通過該軟件獲得在線中英口語翻譯服務。