閩南方言人工智能語音系統(tǒng)界面
廈大學生使用智能系統(tǒng)。
廈門晚報訊(文/圖 記者 沈淑婷)近日,記者下載體驗了一款閩南方言人工智能語音系統(tǒng)軟件。用閩南話對著手機說“愛拼才會贏”,語音輸入后,屏幕上立刻顯示“愛拼才會贏”字樣。該“智能系統(tǒng)”由廈門大學洪青陽、許彬彬兩位老師帶領(lǐng)的科研團隊合作研發(fā)。目前,這一軟件已經(jīng)過多個階段的內(nèi)部測試,并開放供廣大市民免費試用。
囊括省內(nèi)廈、漳、泉,國外多地閩南話聚居地的語音
廈大信息科學與技術(shù)學院副教授洪青陽有個遠大的目標:希望這一“智能系統(tǒng)”能成為許多閩南普通人日常生活的工具,不識字的老年人、牙牙學語的小孩子,都能受益于此。為此,他找來了廈大人文學院中文系的助理教授許彬彬,兩人一頭扎入了“智能系統(tǒng)”的研發(fā)工作。
為讓這一系統(tǒng)的閩南方言數(shù)據(jù)盡可能全面,洪青陽團隊開發(fā)了一個智能軟件,用于錄音收集,許彬彬帶領(lǐng)團隊借鑒、整理大量語音資料。最終,“智能系統(tǒng)”內(nèi)囊括了福建省內(nèi)廈、漳、泉多地的閩南方言、文本,甚至收集到了國外多處閩南話聚居地的語音材料。
許彬彬說:“盡管廈大的語音資料庫已有很好的資源,但每到寒暑假,我就和團隊學生去各地進行‘田野調(diào)查’。”省內(nèi)的漳浦、東山等,以及菲律賓北部城市、日本關(guān)西地區(qū)、美國的西部地區(qū)……許彬彬和團隊成員在每一個地點至少要停留5天,盡可能全面地描寫該地區(qū)語音面貌。
識別準確率近80%,安卓與蘋果系統(tǒng)都可安裝使用
閩南話中存在大量多音字,有著復(fù)雜的文讀白讀現(xiàn)象,比如“大學”這一詞就有文讀和白讀兩種讀法。起先,出于日常口語化的考量,系統(tǒng)僅收集識別了白讀讀法。隨著數(shù)據(jù)收集的不斷完善,洪青陽和團隊也不斷更新技術(shù),現(xiàn)在該團隊對閩南話語音識別采取了特定規(guī)則的發(fā)音詞典標注,并用革新后的算法建立了閩南話語音識別模型。
不僅如此,在征集到的語音材料中,有些志愿者的語音語調(diào)較不標準,有些甚至混入了現(xiàn)代語音體系的表述,洪青陽團隊就需要在系統(tǒng)后臺不斷完善算法,一一刪去這些可能影響系統(tǒng)準確性的語音變量。
采訪中,洪青陽使用“智能系統(tǒng)”及市面上某種輸入法,將幾句閩南話同時錄音進行識別,記者發(fā)現(xiàn),某輸入法的識別結(jié)果不盡人意,而“智能系統(tǒng)”則正確識別。洪青陽表示,經(jīng)過多個階段的內(nèi)部測試及完善,現(xiàn)在這一系統(tǒng)的準確率已達近80%,超過市面上某成熟輸入法。
歷時一年多,隨著“智能系統(tǒng)”漸趨完善,洪青陽和許彬彬團隊將其開放供廣大市民免費試用。目前,安卓系統(tǒng)可以直接安裝使用,而蘋果系統(tǒng)則需設(shè)置內(nèi)部應(yīng)用權(quán)限再使用。
課題成功開花結(jié)果,許彬彬感慨道:“我和洪老師都是閩南人,做這一課題的初心是為了傳承閩南文化。” |