機器之心專欄
作者: 雷晨陽、任烜池
該論文成功提出了第一個無需額外指導或了解閃爍的通用去閃爍方法,可以消除各種閃爍偽影。
高質量的視頻通常在時間上具有一致性,但由于各種原因,許多視頻會出現閃爍。例如,由于一些老相機硬件質量較差,不能將每幀的曝光時間設置為相同,因此舊電影的亮度可能非常不穩定。此外,具有非常短曝光時間的高速相機可以捕捉室內照明的高頻率(例如 60 Hz)變化。
(相關資料圖)
將圖像算法應用于時間上一致的視頻時可能會帶來閃爍,例如圖像增強、圖像上色和風格轉換等有效的處理算法。
視頻生成方法生成的視頻也可能包含閃爍偽影。
由于時間上一致的視頻通常更具視覺上的吸引力,從視頻中消除閃爍在視頻處理和計算攝影領域中非常受歡迎。
該 CVPR 2023 論文致力于研究一種通用的閃爍去除方法:(1)對于各種閃爍模式或水平均具有較高的泛化性(例如,舊電影、高速相機拍攝的慢動作視頻),(2)僅需要一段閃爍視頻,并不需要其他輔助信息(例如,閃爍類型、額外的時間一致視頻)。由于該方法沒有過多假設,它具有廣泛的應用場景。
代碼鏈接:
https://github.com/ChenyangLEI/All-in-one-Deflicker
項目鏈接:
https://chenyanglei.github.io/deflicker
論文鏈接:
https://arxiv.org/pdf/2303.08120.pdf
方法
通用的閃爍去除方法很具有挑戰性,因為在沒有任何額外指導的情況下很難強制整個視頻的時間一致性。
現有的技術通常為每種閃爍類型設計特定的策略,并使用特定的知識。例如,對于由高速攝像機拍攝的慢動作視頻,之前的工作可以分析照明頻率。對于通過圖像處理算法處理的視頻,盲目視頻時域一致性算法可以利用時域上一致的未處理視頻上作為參考,從而獲得長期的一致性。然而,閃爍類型或未經處理的視頻并不總是可用的,因此現有的特定于閃爍的算法無法應用于這種情況。
一個直觀的解決方案是使用光流來跟蹤對應關系。然而,從閃爍視頻中獲得的光流不足夠準確,光流的累積誤差也會隨著幀數的增加而增加。
通過兩個關鍵的觀察和設計,作者成功提出了一個通用的、無需額外指導的通用去閃爍方法,可以消除各種閃爍偽影。
一種良好的盲去閃爍模型應該具有跟蹤所有視頻幀之間對應點的能力。視頻處理中的多數網絡結構只能采用少量幀作為輸入,導致感知野較小,無法保證長期一致性。研究者觀察到神經圖集非常適合閃爍消除任務,因此將引入神經圖集到這項任務中。神經圖集是視頻中所有像素的統一且簡潔的表示方式。如圖 (a) 所示,設 p 為一個像素,每個像素 p 被輸入到映射網絡 M 中,該網絡預測 2D 坐標(up,vp),表示像素在圖集中對應的位置。理想情況下,不同幀之間的對應點應該共享圖集中的一個像素,即使輸入像素的顏色不同也應該如此。也就是說,這可以確保時間一致性。
其次,雖然從共享的圖層中獲取的幀是一致的,但圖像的結構存在缺陷:神經圖層不能輕松地建模具有大運動的動態對象;用于構建圖層的光流也不完美。因此,作者們提出了一種神經過濾策略,從有缺陷的圖層中挑選好的部分。研究者們訓練了一個神經網絡來學習兩種類型的失真下的不變性,這兩種失真分別模擬了圖層中的偽影和視頻中的閃爍。在測試時,該網絡可作為過濾器很好地工作,以保留一致性屬性并阻止有缺陷的圖層中的偽影。
實驗
研究者構建了一個包含各種真實閃爍視頻的數據集。廣泛的實驗表明,在多種類型的閃爍視頻上,研究者的方法實現了令人滿意的去閃爍效果。研究者的算法甚至在公共基準測試中優于使用額外指導的基線方法。
研究者提供了 (a) 處理的到的閃爍視頻和合成的閃爍視頻的定量比較,研究者的方法的變形誤差比基線要小得多,根據 PSNR,研究者的結果在合成數據上也更接近于真實值。對于其他真實世界視頻,研究提供了 (b) 雙盲實驗以進行比較,大多數用戶更喜歡研究者的結果。
如上圖所示,研究者的算法可以很好的去除輸入視頻中的閃爍。注意,第三列圖片展示了神經圖層的結果,可以觀察到明顯的缺陷,但是研究者的算法可以很好的利用其一致性又避免引入這些缺陷。
該框架可以去除老電影、AI生成視頻中包含的不同類別的閃爍。
責任編輯:Rex_29