“魔鏡魔鏡告訴我,我現在的心情怎么樣?”這樣的提問不再是童話故事里的專屬,在現實生活中,南京工業大學的同學們也設計出了一款“魔鏡”。只需要坐在電腦前說話,電腦中的數字人就能識別你的所有情緒。這款特別的“魔鏡”得到了專業認可,在2022RoboCom機器人開發者大賽信息技術與工程創客賽道全國總決賽中獲得一等獎。
設計“魔鏡”的,是南京工業大學學生孫文浩、彭華東、沙書杰、邢卓雅、李彥達,他們在武曉光、郭天文老師的指導下,設計出了“魔鏡”的基本構造。據介紹,人類的情緒極為復雜,共有27種不同的情緒,包括憤怒、厭惡、恐懼、快樂、悲傷、驚奇和中性七種基礎情緒。面對當今快節奏的生活,人們或多或少都會有憤怒、焦慮等不良情緒,當這些不良情緒無法及時消解時,便容易滋生各種生理和心理疾病?;诖?,孫文浩等五位同學設計制作了一款能夠感知人類情緒的數字人形象助手——“魔鏡”,用戶只需要坐在電腦面前,打開攝像頭與麥克風,對著“魔鏡”程序說話,“魔鏡”就能夠通過其聲音與視頻數據進行情感識別,電腦中的數字人隨即會做出相對應的表情,幫助用戶感知自己的情緒。
(資料圖片僅供參考)
團隊將項目分為四個執行步驟施行,即制作“魔鏡”的表情驅動、基于視覺的元宇宙情緒感知、基于聽覺的情緒感知以及最終產生的多模態情緒判斷。團隊選擇了比動漫人物、動物在表情復現上更為精細的數字人寫實形象作為建模方案,而實現表情驅動則需要對真人的眉毛、眼睛、鼻子、嘴巴等70個特征點進行標定。
“在采集數據的過程中,我和孫文浩同學作為模特需要模仿各種各樣的表情,然而做出來的表情還是有些別扭,這對靦腆的我們來說可太難了,這個過程也為團隊增添了不少樂趣?!眻F隊成員沙書杰笑著說。
想實現基于視覺的元宇宙情緒感知,還需要對采集到的人臉表情進行標注分類,在網絡結構模型方案的選擇上,團隊通過實際場景測試,得出LeNet-5的準確率為70%,而AlexNet的準確率高達95%的測試結果,并最終選擇AlexNet網絡結構模型。
“模型最終測試的準確率和網絡模型有著直接關系,比如模型的層數不同,那么它的識別能力以及精度都是不同的。除此之外,超參數的選擇也會影響到模型的識別效果。”孫文浩補充道。
“想要辨別一個真實的人的情緒,光靠視覺辨別是遠遠不夠的,我們可以增加聲音這一模態來判斷人的情緒。”武曉光老師和郭天文老師在此基礎上又向團隊提出了新的優化方案。團隊通過處理時域信號得出語音頻譜圖,從而實現基于聽覺的情緒識別。
“語音頻譜圖的語音數據集選自CASIA漢語情感語料庫,它是由中國科學院自動化所錄制,包括四個專業發音人,生氣、高興、害怕、悲傷、驚訝和中性等六種情緒,共4800句不同發音?!眻F隊成員彭華東介紹。如此,“魔鏡”便可以基于視覺和聽覺這兩個模態對人的情緒進行更深層次的感知。在兩位老師的指導下,該團隊還完善了數字人細膩化表情呈現、精細化報告設計等問題。
團隊帶著作品《基于多模態的元宇宙數字助手——魔鏡》參加了2022RoboCom機器人開發者大賽信息技術與工程創客賽道全國總決賽,成功摘得一等獎。
據悉,目前,“魔鏡”在功能上已經實現了對情緒的準確判斷,可以在人機交互的現實或虛擬場景中幫助計算機或虛擬機器人感知、理解人的情緒,并針對不同的情緒進行音樂推送,在心理健康診斷、情緒舒緩等場景中實現應用價值。未來,“魔鏡”有望在體量上轉至嵌入式平臺,實現設備的輕量化。同時,該團隊還將加入更多模態,對人的情緒進行更深入地探索,從而使“魔鏡”能夠更綜合地感知人的情緒并預測可能存在的心理疾病,達到提前預防與控制疾病的目的。
揚子晚報/紫牛新聞記者 楊甜子
校對 王菲
責任編輯:Rex_07