<bdo id="ks4iu"><del id="ks4iu"></del></bdo>
  • 
    <pre id="ks4iu"></pre>
  • <bdo id="ks4iu"><del id="ks4iu"></del></bdo>
    <input id="ks4iu"><em id="ks4iu"></em></input>
    
    
  • <center id="ks4iu"><cite id="ks4iu"></cite></center>
  • 首頁 > 資訊 >

    【全球快播報】CVPR2023|哈工大南洋理工提出全球首個「多模態DeepFake檢測定位」模型:讓AIGC偽造無處可藏

    點擊上方↑↑↑“OpenCV學堂”關注我

    來源:公眾號新智元授權

    由于如Stable Diffusion等視覺生成模型的快速發展,高保真度的人臉圖片可以自動化地偽造,制造越來越嚴重的DeepFake問題。


    (資料圖片僅供參考)

    隨著如ChatGPT等大型語言模型的出現,大量假本文也可以容易地生成并惡意地傳播虛假信息。

    為此,一系列單模態檢測模型被設計出來,去應對以上AIGC技術在圖片和文本模態的偽造。但是這些方法無法較好應對新型偽造場景下的多模態假新聞篡改。

    具體而言,在多模態媒體篡改中,各類新聞報道的圖片中重要人物的人臉(如圖 1 中法國總統人臉)被替換,文字中關鍵短語或者單詞被篡改(如圖 1 中正面短語「is welcome to」被篡改為負面短語「is forced to resign」)。

    這將改變或掩蓋新聞關鍵人物的身份,以及修改或誤導新聞文字的含義,制造出互聯網上大規模傳播的多模態假新聞。

    圖1. 本文提出檢測并定位多模態媒體篡改任務(DGM4)。與現有的單模態DeepFake檢測任務不同,DGM4不僅對輸入圖像-文本對預測真假二分類,也試圖檢測更細粒度的篡改類型和定位圖像篡改區域和文本篡改單詞。除了真假二分類之外,此任務對篡改檢測提供了更全面的解釋和更深入的理解。

    表1: 所提出的DGM4與現有的圖像和文本偽造檢測相關任務的比較

    為了解此新挑戰,來自哈工大(深圳)和南洋理工的研究人員提出了檢測并定位多模態媒體篡改任務(DGM4)、構建并開源了DGM4數據集,同時提出了多模態層次化篡改推理模型。目前,該工作已被CVPR 2023收錄。

    論文地址:https://arxiv.org/abs/2304.02556

    GitHub:https://github.com/rshaojimmy/MultiModal-DeepFake

    如圖1和表1所示,檢測并定位多模態媒體篡改任務(Detecting and Grounding Multi-Modal Media Manipulation (DGM4))和現有的單模態篡改檢測的區別在于:

    1)不同于現有的DeepFake圖像檢測與偽造文本檢測方法只能檢測單模態偽造信息,DGM4要求同時檢測在圖像-文本對中的多模態篡改;

    2)不同于現有DeepFake檢測專注于二分類,DGM4進一步考慮了定位圖像篡改區域和文本篡改單詞。這要求檢測模型對于圖像-文本模態間的篡改進行更全面和深入的推理。

    為了支持對DGM4研究,如圖2所示,本工作貢獻了全球首個檢測并定位多模態媒體篡改(DGM4)數據集。

    圖2. DGM4數據集

    DGM4數據集調查了4種篡改類型,人臉替換篡改(FS)、人臉屬性篡改(FA)、文本替換篡改(TS)、文本屬性篡改(TA)。

    圖2展示了 DGM4整體統計信息,包括(a) 篡改類型的數量分布;(b) 大多數圖像的篡改區域是小尺寸的,尤其是對于人臉屬性篡改;(c) 文本屬性篡改的篡改單詞少于文本替換篡改;(d)文本情感分數的分布;(e)每種篡改類型的樣本數。

    此數據共生成23萬張圖像-文本對樣本,包含了包括77426個原始圖像-文本對和152574個篡改樣本對。篡改樣本對包含66722個人臉替換篡改,56411個人臉屬性篡改,43546個文本替換篡改和18588個文本屬性篡改。

    本文認為多模態的篡改會造成模態間細微的語義不一致性。因此通過融合與推理模態間的語義特征,檢測到篡改樣本的跨模態語義不一致性,是本文應對DGM4的主要思路。

    圖3. 提出的多模態層次化篡改推理模型HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)

    基于此想法,如圖3所示,本文提出了多模態層次化篡改推理模型HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)。

    此模型建立在基于雙塔結構的多模態語義融合與推理的模型架構上,并將多模態篡改的檢測與定位細粒度層次化地通過淺層與深層篡改推理來實現。

    具體而言,如圖3所示,HAMMER模型具有以下兩個特點:

    1)在淺層篡改推理中,通過篡改感知的對比學習(Manipulation-Aware Contrastive Learning)來對齊圖像編碼器和文本編碼器提取出的圖像和文本單模態的語義特征。同時將單模態嵌入特征利用交叉注意力機制進行信息交互,并設計局部塊注意力聚合機制(Local Patch Attentional Aggregation)來定位圖像篡改區域;

    2)在深層篡改推理中,利用多模態聚合器中的模態感知交叉注意力機制進一步融合多模態語義特征。在此基礎上,進行特殊的多模態序列標記(multi-modal sequence tagging)和多模態多標簽分類(multi-modal multi-label classification)來定位文本篡改單詞并檢測更細粒度的篡改類型。

    如下圖,實驗結果表明研究團隊提出的HAMMER與多模態和單模態檢測方法相比,都能更準確地檢測并定位多模態媒體篡改。

    圖4. 多模態篡改檢測和定位結果可視化

    圖5. 關于篡改文本的模型篡改檢測注意力可視化

    圖4提供了一些多模態篡改檢測和定位的可視化結果,說明了HAMMER可以準確地同時進行篡改檢測與定位任務。圖5提供了關于篡改單詞的模型注意力可視化結果,進一步展示了HAMMER是通過關注與篡改文本語義不一致性的圖像區域來進行多模態篡改檢測和定位。

    本工作提出了一個新的研究課題:檢測并定位多模態媒體篡改任務,來應對多模態假新聞。

    本工作貢獻了首個大規模的檢測并定位多模態媒體篡改數據集,并提供了詳細豐富的篡改檢測與定位的標注。團隊相信它可以很好地幫助未來多模態假新聞檢測的研究。

    本工作提出了一個強大的多模態層次化篡改推理模型作為此新課題很好的起始方案。

    本工作的代碼和數據集鏈接都已分享在本項目的GitHub上,歡迎大家Star這個GitHub Repo, 使用DGM4數據集和HAMMER來研究DGM4問題。DeepFake領域不只有圖像單模態檢測,還有更廣闊的多模態篡改檢測問題亟待大家解決!

    責任編輯:Rex_10

    關鍵詞:
    推薦閱讀
    欧美国产在线一区,免费看成年视频网页,国产亚洲福利精品一区,亚洲一区二区约美女探花
    <bdo id="ks4iu"><del id="ks4iu"></del></bdo>
  • 
    <pre id="ks4iu"></pre>
  • <bdo id="ks4iu"><del id="ks4iu"></del></bdo>
    <input id="ks4iu"><em id="ks4iu"></em></input>
    
    
  • <center id="ks4iu"><cite id="ks4iu"></cite></center>
  • 主站蜘蛛池模板: 亚洲日韩欧美一区二区三区| 国产欧美久久一区二区三区| 交换人生电影在线| 一区二区三区四区欧美| 久久99九九国产免费看小说| av在线亚洲男人的天堂| 秋霞免费理论片在线观看午夜| 成人狠狠色综合| 午夜色a大片在线观看免费| 中国嫩模一级毛片| 窈窕淑女韩国在线看| 好紧好湿太硬了我太爽了网站| 国产大片黄在线观看| 久久精品国产亚洲AV麻豆网站| 91欧美精品激情在线观看最新| 精品国产一区二区三区不卡在线| 成人免费夜片在线观看| 又粗又硬又爽的三级视频| www.久久.com| 波多野结衣av无码久久一区| 国产超碰人人爽人人做| 亚洲一区日韩一区欧美一区a| 99re热久久这里只有精品首页| 日本边添边摸边做边爱边视频| 国产一区二区在线视频播放| 三个黑人上我一个经过| 看视频免费网站| 在现免费看的www视频的软件 | 天天干天天色综合| 亚洲爆乳无码专区www| youjizz亚洲| 日本加勒比一区| 午夜一区二区三区| 99久久综合精品国产| 欧美一线不卡在线播放| 国产免费1000拍拍拍| 中国一级全黄的免费观看| 狠狠躁夜夜躁av网站中文字幕| 国产精品自拍亚洲| 久久精品国产亚洲av麻豆| 美女大量吞精在线观看456|