報導/陳怡帆

台灣科技部今(2017)年舉辦「科技大擂台與 AI 對話」(Formosa Speech Grand Challenge)挑戰活動,重點在於看重語意理解是人工智慧的關鍵,並期待以挑戰賽的方式,鼓勵台灣發展語音系統。

《麻省理工科技評論》(MIT Technology Review)也報導指出,要讓電腦開口說中文太困難。中文輸入法使用起來相對麻煩,因此,語音助理在「聽」中文的方面已經發展得相對完善,儘管中文一個音能夠代表許多意思,語音科技已經克服這方面的難題,電腦可以根據上下文來判讀每個音的意義。

但問題在於,要讓電腦能用中文回覆,目前還有許多挑戰。例如同一個中文字有數個不同的意思,中文的每個詞中間沒有空格,所以研發人員需要自己運算空格讓每個字組成的詞有適當的意義。另外,中文裡沒有時態,讓機器辨識時間軸的困難度增加。

不過,國立臺灣大學文學院華語教學碩士學位學程助理教授劉德馨指出,雖然中文裡沒有像英文中明顯的動詞時態變化,並不代表中文裡時間軸的理解無跡可循。中文有時間順序原則,用動詞的先後順序表達事件發生的順序,例如:「張三拿書去圖書館」,代表張三拿了書先發生,去圖書館後發生,若是「張三去圖書館拿書」,則是去圖書管先發生,拿書後發生。但也有一些例外則是應用時間範圍原則,大的範圍在前、小的範圍在後,例如:「我出門前先洗澡」,洗澡雖然比出門早發生,但因爲出門是比較重要、比較大的事,所以會放在句子的前段。

臺大華語教學碩士學位學程助理教授劉德馨表示,儘管普遍認為中文難學,不代表無法拆解出相應的規則。(攝影/陳怡帆)

中文語音系統 資料庫是關鍵

國立臺灣大學電機工程學系助理教授李宏毅也說,雖然我們常常將機器人的腦比擬成人類的腦,兩者有相似的功能,運作的原理卻完全不同,因此人類覺得難以學習的語言,對機器人來說並不一定就比較難。AI人工智慧簡單來說,就是希望機器能表現出像人類的智慧一般,並非當代才有的概念,早在1950年代就已提出,不過當時的人工智慧使用的是規則模式(rule-based),在機器設計之初就制定好機器形式的方向原則。

李宏毅說,動物的行為來自本能或學習,而這類的機器人可以說是只有本能,無法學習,機器設計好後就不會增加新的能力。最近人工智慧又開始熱門起來,是因為有了新的機器學習技術,也就是所謂的「深度學習」。機器人的腦起初什麼都不會,研究者給機器人讀了大筆的資料,讓機器人從中學習。

對話機器人大致由三個模組構成。第一個模組是「聽懂」,包括能辨識聲音的語音辨識,與理解聲音的理解能力。第二個模組是決策,機器人聽懂聲音後,需要決定接下來合適的行動。第三個模組是行動,以語音對話系統而言,即是回覆適當的句子。目前,深度學習主要用在第一個模組,讓機器人能在別人換句話說的情況下,也能理解發話者的意思。而決策和行動的模組仍以規則模式為主,在製作機器人時,及設定好機器人聽到哪些話後,應當做出哪些行動。

雖然技術上來說,可以使用深度學習技術,但因為現在科學家還無法控制機器人可以從資料裡學到些什麼,機器人很有可能會回答不恰當的話語。像是機器人在學習時使用大量的電影作為學習資料,他可能會在回應時說出髒話,而這樣的失誤在商用機器人上是不容許的,因此現在最常用的還是規則模式。

李宏毅指出,發展中文的機器對話系統困難的關鍵,主要還是資料量不足的問題。目前的語言辨識已經不是使用規則的模式,找很多語言學家和工程師來分析製作規則,而是利用深度學習的技術,搜集大量的聲音,告訴機器每段聲音對應的文字,讓機器學習。當機器聽了多種聲音,他就能學會這種語言。

李宏毅進一步說明,但是比起人類,機器人需要更多的聲音資訊來學習。製作語音辨識上,資料量成為關鍵。英文目前已經有免費的聲音資料庫提供下載,雖然數量不大,但已經提供研究者很好的開始,中文至今為止,仍沒有免費、容易取得的大型資料庫可以使用。機器有了腦,但若沒有東西可以教,是目前中文語音機器人的一大難題。

鼓勵發展台灣的語音系統

反觀中國大陸,已有專門發展智慧語音系統的團隊,並且有不少成功的例子。像是北京微軟研究院的語意理解正確率達94.1%,百度跟科大訊飛的語意理解正確率達97%。國際大廠也紛紛投入中文語音系統的開發,Microsoft就在中國成立中文語音辨識團隊,可見中文語音系統被各家看好。

中國已經有不少語音系統的公司致力於語音系統開發,若是台灣能有在地話的語音助理系統,使用起來更貼近台灣人的生活。台灣與中國的語言都稱作中文,但兩者間的差異甚大。最明顯的即是口音不同,中國地區說話會捲舌聲調上,但台灣不會。還有,台灣的三聲(ˇ)不會全晌,所以二聲(ˊ)和三聲(ˇ)聽起來很相近,但北京標準華語的三聲會全晌。

此外,兩岸的詞彙也有明顯的差異。像是中國將台灣說的湯匙稱作調羹,也有些會稱作勺子,在中國各地都有不盡相同的稱呼。劉德馨說,不只如此,語法上,連句子結構也不盡相同。台灣的中文受到閩南語影響,已和標準的北京中文不同,像是台灣人會說:「我有吃飯」、「他很會煮」。標準的北京中文不會這麼說,以標準的中文而言,會說:「我吃了飯」、「他煮得很好」。

除了台灣普遍不使用北京的標準中文外,還有一個問題是台灣地方上的「臺灣國語」。科技部長陳良基在COMPUTEX 2017展覽時,與華碩的人工智慧機器人Zenbo互動,Zenbo卻無法聽懂部長的「臺灣國語」。劉德馨指出,「臺灣國語」和標準中文最大的差別就是不捲舌,捲舌和不捲舌在辨識上是有差別的,像是台灣常ㄘ和ㄔ不分,若以捲舌清楚的標準中文為基礎,是無法辨識的。另外,儘管台灣地理範圍小,還是有南北差異和各地不同的口音和方言,像是台中以南的地區,發音上ㄋ和ㄌ不分,但北部人發音上仍舊會區別ㄋ和ㄌ。

今年,科技部舉辦「科技大擂台  與 AI 對話(Formosa Speech Grand Challenge)」,祭出高額獎金,鼓勵相關人才研發能聽懂台灣在地腔調的中文語音系統。李宏毅說,關鍵一樣在資料庫,若是能給Zenbo讀大量的臺灣國語資料,Zenbo一樣能聽懂臺灣國語。相較於中文,台語、臺灣國語這樣在地化地方語言的資料庫又更少,可以說幾乎沒有。

科技部部長陳良基也曾對媒體表示,台灣若開發出在地語言資料庫,在全世界很多的地方都會擁有優勢。語音對話系統是最直覺且人性的人機互動介面,使用人工智慧的產品為了讓人類可以更輕鬆用言語的方式操控,幾乎都需要語音對話系統。擁有能使用台灣在地語言的語音對話系統,比起使用北京標準中文的語音對話系統,更方便台灣人民使用。

「科技大擂台  與 AI 對話」鼓勵台灣在地化語音系統的研發。(截圖自官網)

臺大資訊網路與多媒體研究所助理教授李宏毅指出,無論是中文或臺灣國語的語音對話系統,大量的聲音資料庫是研發關鍵。(攝影/陳怡帆)