Meta AI 首譯閩南語 打通非書寫語溝通障礙

Meta AI 首譯閩南語 打通非書寫語溝通障礙

來源:聯合早報
作者: 黃少偉  
2022-11-06 05:00



黃少偉
|作者

閩南語翻譯系統目前一次只能翻譯一個完整的句子,陳鵬仁說對於語音內容的翻譯,模型設計已可以達到很好翻譯,最大困難是合成閩南語語音的部分,“閩南語有許多不同的聲調,以及非常複雜的變調規則,這個部分還需要研究上的突破。另一個是對於不同口音的支持,困難點落在語料收集上,必須包含完整的口音分佈。再提升的瓶頸會在語料的搜集上,包含更多的口音以及更廣泛的內容等。”

陳鵬仁接受《聯合早報》訪問時說:“我們先研發閩南語翻譯系統的另一個主要原因,是因為團隊有幾名同事會講閩南語,對於研究進展很有幫助。”被問及成功開發出閩南語翻譯系統的感受,他回答:“第一次聽到開發的系統能夠說出自己熟悉的語言非常感動!很開心能夠跟家人在開發專案上互動,過程中和家人一起測試,爸爸說中間有幾個字聽不懂,過了幾個禮拜,爸爸對系統的進展很感興趣,會追問有沒有改進。”

Meta研發出的翻譯系統稱為“通用語音翻譯工具”(Universal Speech Translator,簡稱UST),利用AI使沒有文字書寫記錄的語言,透過語音對語音方式直接翻譯。Meta選擇以閩南語作為此技術的第一個對應語言,因為它是中文語系中的代表語言之一,目前東亞地區使用閩南語的人口約有4600萬人,在中國大陸有約2800萬人說閩南語,台灣約1350萬人,新加坡和馬來西亞則各有100萬至200萬人。

兩到五年後,支援更多語言

Meta最近發布閩南語翻譯系統,讓閩南語用戶能與英語用戶對話,雖然目前一次只能翻譯一個完整的句子,但研究團隊繼續積極訓練AI模型,他們相信在兩到五年後,系統可以支援更多語言,並顯著提升翻譯素質。

閩南語是所謂的“資源匱乏”語言,意味着與西班牙文或英文等語言相比,沒有足夠的訓練資料。將英語翻譯成閩南語的翻譯人員相對來說很少,因此更難搜集資料並加上註解來訓練AI模型。

Meta首創用於閩南語的各項技術,未來可以擴展至其他有書寫系統和無書寫系統的語言。Meta將公開資料探勘技術支援的“大型語音翻譯語料庫”,方便其他研究人員建立自己的語音翻譯系統。

扎克伯格(上圖)、陳鵬仁在視頻中示範閩南語翻譯系統。(Meta提供)

Meta研究科學家范蕙蕙說:“翻譯系統還面對一些問題,例如速度慢,無法表達語音情感,無法支援休閑用語等。我們還在積極研究,相信在兩到五年後,可以支援更多語言並顯著提升翻譯素質。”

37歲的陳鵬仁在台北出生長大,台灣大學資訊工程學碩士畢業,在台灣工作一年後到美國加入Meta。他的父親來自台灣南部,習慣說閩南語,陳鵬仁希望這項技術可以幫助更多像他父親一樣的人,以自己熟悉的語言與其他人溝通。

示波器探測執行效能最佳化的8大秘訣

瀚誼科技致力於提供示波器多元化的專業測試和解決方案,範圍涵括無線通訊系統、RF量測儀器設備、高頻配件、電子元件

臭氧機的滅菌效果如何?

多加科技公司,從事水處理、加水站設計規劃營運,以臭氧機、紫外線燈作水質淨化、殺菌設備,因臭氧機具強大氧化、殺菌、除臭能力,省電、無耗材費用,深受水處理業者採用

建南和著重於工業用機械手臂、工業型無線充電裝置、精密加工元件等產品之經銷、代理、進出口貿易

票選推薦煮婦最愛手壓封口機,省荷包不犧牲品質

意信臻以 品質、信用、親切、迅速、優質售後服務,為公司的營運宗旨。

范蕙蕙認為UST能幫人們以熟悉的語言接觸線上資訊。(Meta提供)

另一個產生訓練資料的做法是“語音探勘”,研發團隊使用預先訓練好的語音編碼器,系統會自動分析閩南語語音,並和相似語意的英文語音、文字配對。

準確度評估方面,研發團隊使用Meta開發的台羅(Tai-lo)系統,將閩南語語音轉譯成標準化的拼音符號,以音節為單位來評估翻譯準確度。Meta團隊根據名為“Taiwanese Across Taiwan”的閩南語語音語料庫,建立第一個閩南語與英語雙向的語音翻譯基準資料集。Meta將開放此基準資料集的原始碼,鼓勵其他研究人員合作進行閩南語語音翻譯,一同在該領域取得進一步進展。

來自台灣的Meta軟件工程師陳鵬仁是閩南語翻譯系統團隊的領導。他最近跟臉書創辦人馬克扎克伯格(Mark Zuckerberg)一起出現在視頻中,示範了這套閩南語翻譯系統,翻譯過程相當順暢。

臉書母公司Meta最近發布了閩南語(本地稱福建話)翻譯系統,以人工智能(AI)翻譯非書寫語言,讓閩南語用戶能與英語用戶對話,是世界首創。

Meta團隊利用資源充足且相似度高的中文作為中間語言,先將英語(或閩南語)語音翻譯成中文文字,接着再翻譯成閩南語(或英語),然後新增至訓練資料中。此方法利用了資源充足的相似語言的資料,藉此大幅改善模型成效。

以往的AI翻譯工具,必須利用大量的書寫文字訓練AI模型,閩南語雖然是華裔族群廣泛使用的語言,但大多以口語溝通,缺乏標準的書寫文字系統,無法以傳統的方式打造翻譯工具。Meta開發閩南語翻譯系統時主要面臨三大挑戰,分別是資料搜集、模型設計,以及準確度評估。

在模型設計方面,傳統翻譯系統大多依賴“語音轉文字”系統,但由於閩南語並沒有標準書寫文字形式,研發團隊採用“語音轉單元翻譯”(speech-to-unit translation,S2UT)系統,將語音轉換成一系列的聲學單元並生成波形后,再進行解碼與翻譯。

范蕙蕙認為UST未來能消除語言隔閡,讓全球數億人通過自己熟悉的語言接觸線上資訊。“目前網絡資訊被幾種語文主導,人工智能翻譯系統不但能幫助那些不說這些語言的人,也會徹底改變全球人溝通和分享資訊的方式。”

陳鵬仁希望在美國長大的女兒(左)能通過閩南語翻譯系統跟台灣家人溝通。(Meta提供)

面對三大挑戰

相關熱詞 相關推薦

https://www.zaobao.com.sg/lifestyle/gadget/story20221106-1330224

選擇好的茶葉罐,有效地保持茶葉的鮮度與風味!

茶葉罐的一般有錫製、鐵製、陶瓷、玻璃、紙製等,其中以選用有雙層蓋的鐵製彩色茶罐和長頸錫瓶為佳,用陶瓷器貯存茶葉,則以口小腹大者為宜。

金誠貨櫃實業社

以客為尊,客製化的設計與服務搭配專業的工班,能夠提供全方位的貨櫃屋組合方案、貨櫃屋改裝及裝潢設計配合您的需求打造出一個完善的居住空間

【找人才】台北塑膠射出成型工廠徵選技師,薪資優,福利佳

射出成型機按外形特徵可分為立式、臥式、直角式、旋轉式和偏心式等多種,目前以臥式最為常用。