人機對話系統是目前人工智能技術在日本應用最為廣泛的領域之一。早在20世紀80年代后期,日本就將語音識別與合成技術應用于人機對話系統開發。近年來,日本鼓勵學科交叉融合,以語言學理論賦能人機對話系統研究,促進了該領域相關研究的縱深發展。
人工智能是利用計算機或由計算機控制的機器,模擬、延伸和擴展人類的智能,感知環境、獲取知識并使用知識獲得最佳結果的理論、方法、技術和應用系統,核心技術以機器學習為主。機器學習是從數據中總結規則和判斷標準,繼而依據這些規則和標準預測、判斷未知數據的人工智能技術,包含深度學習等技術。深度學習指多層人工神經網絡及其訓練方法,其實質是通過構建具有諸多隱層的機器學習模型和海量訓練數據來學習更有用的特征,最終提升分類或預測的準確性。研究深度學習的動機在于建立模擬人腦進行分析學習的神經網絡,模仿人腦的運作機制來解釋數據。當前,應用深度學習技術取得重大進展的領域有圖像識別、語音識別、預測和自然語言處理等。其中,自然語言處理領域的研究涉及自然語言,即人們日常使用的語言,與語言學密切相關。
(資料圖片)
自然語言處理是以語言為對象,利用計算機技術來分析、理解和處理自然語言的技術。它是連接機器與人類的溝通橋梁,旨在實現人機良好交流。自然語言處理分為自然語言理解和自然語言生成。前者指機器應具備理解自然語言文本含義的能力,但由于自然語言存在多樣性、歧義性和依賴語境等特點,故自然語言理解技術至今無法達到人類理解語言的水平;后者則要求機器能以自然語言文本來表達給定的意圖、思想等,包括內容確定、文本建構、句子聚合、語法化、參考表達式生成和語言實現。自然語言處理技術的典型應用有情感分析、語音識別、機器翻譯和聊天機器人等,其中,聊天機器人是典型的人機對話系統。
從人工智能研究初期開始,人們就致力于開發高度智能化的人機對話系統。人機對話系統是讓機器能夠理解人類的自然語言且能與人類交互對話的智能系統。其技術架構涉及語音識別、語義理解、對話管理、自然語言生成及語音合成等。按領域開放程度,可分為開放域人機對話系統和垂直域人機對話系統;按有無交際目標,可分為目標導向型人機對話系統和非目標導向型人機對話系統;按功能,可分為任務指向型人機對話系統和非任務指向型人機對話系統。
日本人機對話系統研究從20世紀90年代初期就顯現出蓬勃的生命力,取得了一系列成果。目前的研發重點是非任務指向型閑談式人機對話系統,相關研究涉及語言學、心理學、社會學等多個學科。近年來,日本國立國語研究所、人工智能學會等科研機構和團體的研究人員從不同學科視角出發,積極研發以自然語言處理技術為基底,適配用戶不同需求的人機對話系統。例如,在與語言學相關的研究中,研究人員活用語音學中的音韻特征(如日語中的促音便、撥音便等變調變形規律),賦予智能體多種角色個性和感情特征,使其能根據用戶的性格選擇合適的語言與用戶交流。他們還使用詞匯學相關的文本表示(Text Representation)研發、改良話題展開程序和話題轉換程序,以名詞替換原則為基礎賦予系統應答語言靈動性。通過解析句法學中的謂語結構、格助詞搭配等,研究人員設計出了可以通過提取、推薦信息主動開啟對話的系統;基于語用學中的禮貌模型,研發出可調節人機距離或人機關系的系統。在多模態領域,研究人員綜合分析用戶的副語言和自然語言后設計出可識別多模態特征的系統。
在語言學理論的幫助下,日本人機對話系統研究超越了以語音識別與語義判斷為主的傳統研究,開始著眼于語音、語義、語用三個層面的多模態研發和系統語言設計。人機對話系統是人類與機器的雙向交流,其重要功能之一就是積極為用戶推薦其可能感興趣的信息。因此,一部分研究人員從系統的視角出發,通過編寫判定詞匯的關聯性與離散性、從用戶過往聊天記錄提取信息等程序,設計研發出能夠主動提起話題的系統。也有研究人員使用話語相似性、最大平均信息量等方法驗證用戶提起話題的意圖,為系統正確識別用戶的自然語言提供幫助。總體而言,日本人機對話系統研究按研究范式可分為兩大類:一類是先考察人際交流中的自然語言特征,基于其調查結果設計程序,再通過用戶與系統的對話來驗證系統語言是否自然,根據檢驗結果進一步優化程序;另一類是基于網頁中的大量文本信息構建語料庫,以此作為系統語言數據來設計人機對話系統,部分研究在編寫完程序后,通過調查用戶與系統之間的對話來驗證系統語言的自然性。
盡管日本的人機對話系統研究成果涉及對系統語言中多個話輪、不同種類的言語行為和多樣性話題的考察,但幾乎沒有人工智能技術專家能給出認定使用頻率最高的話輪、言語行為序列和話題展開模式的合理方案。語言學領域的話語禮貌理論為解決上述問題提供了依據。
話語禮貌理論由日本學者宇佐美真有美(Usami Mayumi)提出,是日語語言學界最具影響力的禮貌理論之一。該理論中的話語基本態概念,通過限定會話場景和會話參與者的年齡、身份、性別等因素,可認定不同場景中的典型語言要素、特定言語行為的表述連鎖鏈以及話題展開模式。目前,人際對話研究中依據話語基本態探討言語行為(如邀約、請求、拒絕、道歉等)、語言要素(寒暄詞、附和詞、禮貌用語)以及話題導入的成果較多。以請求行為為例,日語母語者的表述連鎖鏈為:引起注意→表達顧及→說明情況→提出請求→陳述輔助行為→追加說明→插入其他話題→再次請求→表達感謝→結束會話。人工智能技術專家可結合實際情況將上述結論直接應用于人機對話系統的程序編寫,解決典型語言要素和特定言語行為談話流程難判定、產出語言機器腔調濃厚等問題。此外,還可將自然語言研究中認定的話題展開模式(如日本大學生初次見面閑談時話題展開模式為:寒暄→介紹個人信息→談論大學生活及其相關的內容)導入人機對話系統,以解決系統提起話題時可能侵犯用戶個人隱私等倫理道德問題。
日本人工智能技術專家與語言學家的跨領域協作表明:只有人類了解清楚自身語言的運行方式,機器對人類語言的模擬才有據可依。雖然深度學習能提供可喜的預測結果,但仍難解釋其結果所得向量的每一維的具體語義。因此,人機對話系統不應只囿于大數據主導下的統計結果,還應活用人際對話研究領域的語言學成果,使其朝著融合深度學習領域的自然語言處理、圖像識別、語音識別、預測四大主要技術方向發展,逐漸發展成為具備高度推理能力的多模態人機對話系統。
作者:毋育新 李瑤
來源:中國社會科學網
責任編輯:Rex_19