整理 標注每個音節發音 錄入不同口音 有了豐富的“食材”,烹制好這道“菜肴”還需要“配菜”。為此,許彬彬團隊做了大量的整理工作。在許彬彬的電腦里儲存著大量文檔。“我現在有5臺電腦,10個硬盤,全都裝滿閩南話文件。”許彬彬說,閩南話的聲母有15-18個不等,韻母有73-90個不等,聲調有5-8個不等,都要逐一整理,錄入系統。 別以為只是簡單的標注,每個音節的發音以及發音時長,都必須詳細標注下來。以“他們坐車去臺北”為例,許彬彬就標注了16個音素,音素與發音時長還要逐一對應。而這只是一個句子的其中一種口音。 許彬彬告訴記者,單單是廈門地區,細微的語音差別就有十幾種。“思明區鷺江街道是一種口音,廈港街道又是另外一種口音,海滄東孚街道的口音又接近漳州口音,這些都要逐一標注。”她說,系統錄入的不僅僅是廈門口音,還有泉州口音、漳州口音、潮汕口音等。 建模 收集十萬句日常對話 邀志愿者測試 為了讓這一系統的閩南方言數據盡可能全面,洪青陽團隊又歷時一年,先后收集近十萬句閩南話日常對話。 除了許彬彬所提供的語音資料外,測試階段,他們還邀請了幾百名志愿者參與測試,讓系統“學習”不同口音的閩南話。待系統基本“學會”不同口音的閩南話后,洪青陽又給系統加大了難度——文讀和白讀都要會。 閩南話中存在大量多音字,有著復雜的文讀白讀現象,以“大學”這一詞為例,就有文讀和白讀兩種讀法。該團隊對閩南話語音識別采取了特定規則的發音詞典標注,并用革新后的算法建立了閩南話語音識別模型。 鏈接 將實現閩南話與 普通話無障礙溝通 當發音速度不一、吞音等情況出現時,軟件如何準確識別?系統的背后還有一位“把關人”。當遇上系統無法識別的語音時,許彬彬團隊就會進行分析,把新的表達整理成文檔,擴充詞典和句子語料。與此同時,洪青陽團隊在系統后臺不斷完善算法,以學習到更多口音和生僻詞匯。現在,系統依舊在不斷完善升級。 據了解,基于深度學習方法,他們目前正在研發閩南話合成系統,最終可以實現閩南話與普通話之間的無障礙溝通。洪青陽說,該系統預計在今年上半年上線。 |
相關閱讀:
- [ 12-14]閩南話人工智能語音系統開放試用 廣大市民可免費嘗鮮
- [ 11-26]廈門舉辦青少年閩南話講古電視大賽 從小培養講古好苗子
- [ 11-26]180名選手童聲講古 廈門市舉辦青少年閩南話講古大賽
- [ 11-25]2018年廈門市青少年閩南話講古電視大賽落幕
- [ 04-21]用正港閩南話講新聞 理工學院副教授黃婉彬為空軍宣傳片配音
打印 | 收藏 | 發給好友 【字號 大 中 小】 |