近年來,3D動捕、數字虛擬人等技術受到越來越多關注,它不僅可以應用于電影場景,游戲、社交等領域也開始采用。相比于過去高成本、高門檻的全身動捕技術,現在制作基于動捕的虛擬人越來越容易,不需要過高的成本或是專業技術知識,一些簡易、自動化的動捕方案就足夠普通創作者使用。
近期,索尼也公布了一項基于機器學習的3D虛擬人和動捕方案,該方案可逼真模擬人類面部表情和行為的3D建模技術,通過忠實重現人類特征,來推動虛擬社交。
索尼指出,數字人是基于真人特征的3D模型,它在虛擬場景中可模擬人的自然外觀和行為。近年來,越來越多的企業開始接觸數字人技術,并將它用于廣告、客服、游戲等場景。當然,并不是所有數字人都能完全還原人的特征,它們的還原程度取決于用途,比如在CG電影中,對于數字人的逼真度會要求更高。索尼認為,隨著CG渲染技術不斷提升,虛擬化身的質量越來越好,因此恐怖谷問題正在得到解決。
(資料圖片僅供參考)
索尼的目標,是開發一種仿佛真實存在的數字人,這種數字人具有存在感,讓人感覺它仿佛就在身邊。換句話說,就是利用數字技術來復制真人。結合AI算法后,它可以和真人互動,甚至和真人難以區分。其研發重點是突出數字人的個性表達,比如重現人臉皺紋和表情的特征變化,抓住人獨一無二的特點。從自然交互的角度來看,索尼也注重數字人的眼神與用戶的互動,數字人不會盯著用戶,而是模仿人眼和頭部自然動作。
數字人核心技術
構成數字人的核心技術包括:面部動捕、面部肌肉模擬、面部肌肉動作和身體協調性。基于人臉綁定的面部動畫也需要這些步驟,模擬人臉表情變化是一個復雜的過程,要想忠實重現、綁定人臉面部動作,需要高端的面部動捕技術。而且,復雜的面部動捕難以控制,在制作動畫時將需要高超的技術。為了簡化基于動捕的人臉表情模擬過程,索尼研發了一種更加智能的工作流程,特點是無需傳統的面部綁定方案,并降低了制作動畫的工作量。
據了解,面部動捕技術可準確追蹤表演者臉部各部分運動,并驅動CG模型去模擬這種運動。捕捉面部變形數據需要詳細的三位信息,才能準確呈現肌肉伸展、收縮,以及由此產生的皺紋等細微運動。
而索尼的方案,簡單來講就是用動捕技術捕捉真人演員的表情,并根據捕捉到的數據生成人臉CG模型,以及面部動態變形效果。此外,還分析了各種面部表情模式,并提取了重現這些表情需要運動的面部區域。這些區域大約有100個,包括眼睛和嘴唇輪廓部位,在捕捉這些區域的3D信息后,索尼對它們的位置進行了標記。
在捕捉人臉3D信息時,索尼使用了多臺同步的攝像機從多角度拍攝,并推算3D運動信息。不過,部分面部表情變化可能會導致標記檢測失敗或遮擋,因此該系統還利用光流,以及不同的攝像頭角度來提升信息獲取的穩定性。
接下來,索尼使用真人表演視頻作為訓練數據,培訓了可精準檢測眼睛、嘴唇運動的系統。索尼指出,每一幀動捕的準確性都決定了下一幀的準確性,因此該系統還需要不斷完善,提高整體水平。
索尼開始使用頭戴式攝像頭(HMC)來拍攝演員的面部表情,相比于傳統的固定機位拍攝,HMC的好處是可以追隨演員,演員無需尋找攝像頭,可以更加自由、靈活的運動。索尼表示:捕捉到自然運動的人體姿態后,才能渲染出完整的數字人,因此HMC是捕捉自然運動數據不可缺少的工具。
不過,演員可戴在頭上的HMC攝像頭數量有限,面部捕捉的角度、覆蓋面積比固定機位更少。因此,準確捕捉3D面部數據、識別3D標記則尤為重要。為了訓練良好的3D預測算法,索尼使用固定機位和HMC預先捕捉人臉數據,其中包括面部表情、3D標記等等。算法通過這些數據去學習表情和面部運動之間的相關性,后續只需要HMC的數據就可預測3D面部運動,準確性足夠接近傳統的固定機位方案。
模擬面部變形
在捕捉人臉3D標記信息后,索尼的動捕系統根據眼瞼、嘴唇輪廓信息來模擬面部變形,并動態渲染在3D模型上。渲染面部變形的流程是:根據幾何函數模擬面部表情、用機器學習模型將面部表情個性化、細節微調、疊加紋理。首先第一步,3D面部動作、眼瞼輪廓需要準確定位,才能確保后續面部變形合理。因此,索尼設定了一個具有幾何約束的能量函數,可根據3D面部數據來調整面部模型的整體形態。
另外,由于人臉表情變化引起的皮膚拉伸、收縮、皺紋和肌肉隆起程度因人而異,因此索尼利用十幾種面部表情模式來訓練個性化的機器學習模型,這些模型可根據人臉特征,來將3D面部表情個性化,重現用戶的個人特征。
細節方面,該機器學習模型將人臉區域的伸長、收縮程度作為特征值,并根據幾何變形模型與真實值之間的差距回歸,從而輸出具有個人特征的面部變形。
面部變形的最后一步,就是引入眼瞼、嘴唇、口腔形狀變形算法,對面部模型進行額外處理。這一步是為了糾正面部變形可能產生的誤差,確保眼瞼覆蓋眼球(避免眼球和眼瞼出現間隙,或眼球穿模眼皮)、自然的口腔形狀變化等特征。在眼瞼處理部分,該算法重點是避免眼瞼接觸眼球,而嘴唇處理部分,則側重于幾何約束,確保面部捕捉到的嘴唇輪廓與3D模型的嘴唇形狀匹配。
面部和身體集成
完成3D面部動作模擬后,下一步便是將面部與身體姿態集成,并協調面部表情和身體動作。如果面部和身體分開運動,會顯得不自然,因此索尼開發了面部和身體一體化算法,可模擬全身自然運動。
索尼指出,目前市面上的動捕方案主要用于模擬人體模型的運動和變形,人體3D信息通過光學方案捕捉,并且在頸部、腿部、手臂等處添加標記來定位骨骼姿態,生成人體網格,從而模擬人體形狀。相比之下,索尼的方案側重于模擬頸部形狀,頸部的動作會同時受到面部和身體運動影響,比如頸骨運動決定面部方向,下頜運動決定嘴巴運動。
于是,索尼構建了一個全身姿態模擬系統,將HMC數據和身體動作捕捉同步,并根據這些數據來預測頸部形狀。據悉,索尼預先創建了結合多種嘴型、面部方位的大量訓練數據,并從中提取了潛在的頸部形狀。在實際預測中,頸部模型組合了多種數據,包括下頜運動、頸部方向。
索尼表示:該頸部模擬模型可重現自然的面部和身體動作,目前訓練改模型需要大量訓練數據,后續將想辦法減少對數據的依賴。
總之,索尼的數字人模擬方案實現了自動化的人臉表情模擬,這大大減少了前期創作工作,允許創作者交付更高質量產品。更重要的是,該方案可根據不同人的特征去模擬運動,好處是看起來非常自然。索尼表示:隨著3D虛擬技術發展,數字人將會被更多人所熟知,輕松創建Avatar的需求將逐步增加。未來,希望可以將這項幾乎應用于消費級市場,比如電影、游戲等領域。參考:sony
責任編輯:Rex_10