<bdo id="ks4iu"><del id="ks4iu"></del></bdo>
  • 
    <pre id="ks4iu"></pre>
  • <bdo id="ks4iu"><del id="ks4iu"></del></bdo>
    <input id="ks4iu"><em id="ks4iu"></em></input>
    
    
  • <center id="ks4iu"><cite id="ks4iu"></cite></center>
  • 首頁 > 空調(diào) >

    拖拽下圖像就能生成視頻,中科大、微軟等DragNUWA屬實驚艷

    機器之心報道


    【資料圖】

    編輯:小舟

    隨著 ChatGPT、GPT-4、LLaMa 等模型的問世,人們越來越關(guān)注生成式模型的發(fā)展。相比于日漸成熟的文本生成和圖像生成,視頻、語音等模態(tài)的 AI 生成還面臨著較大的挑戰(zhàn)。

    現(xiàn)有可控視頻生成工作主要存在兩個問題:首先,大多數(shù)現(xiàn)有工作基于文本、圖像或軌跡來控制視頻的生成,無法實現(xiàn)視頻的細粒度控制;其次,軌跡控制研究仍處于早期階段,大多數(shù)實驗都是在 Human3.6M 等簡單數(shù)據(jù)集上進行的,這種約束限制了模型有效處理開放域圖像和復雜彎曲軌跡的能力。

    基于此,來自中國科學技術(shù)大學、微軟亞研和北京大學的研究者提出了一種基于開放域擴散的新型視頻生成模型 ——DragNUWA。DragNUWA 從語義、空間和時間三個角度實現(xiàn)了對視頻內(nèi)容的細粒度控制。本文共一作殷晟明、吳晨飛,通訊作者段楠。

    論文地址:https://arxiv.org/abs/2308.08089

    以拖動(drag)的方式給出運動軌跡,DragNUWA 就能讓圖像中的物體對象按照該軌跡移動位置,并且可以直接生成連貫的視頻。例如,讓兩個滑滑板的小男孩按要求路線滑行:

    還可以「變換」靜態(tài)景物圖像的相機位置和角度:

    方法簡介

    該研究認為文本、圖像、軌跡這三種類型的控制是缺一不可的,因為它們各自有助于從語義、空間和時間角度控制視頻內(nèi)容。如下圖 1 所示,僅文本和圖像的組合不足以傳達視頻中存在的復雜運動細節(jié),這可以用軌跡信息來補充;僅圖像和軌跡組合無法充分表征視頻中的未來物體,文本控制可以彌補這一點;在表達抽象概念時,僅依賴軌跡和文本可能會導致歧義,圖像控制可以提供必要的區(qū)別。

    DragNUWA 是一種端到端的視頻生成模型,它無縫集成了三個基本控件 —— 文本、圖像和軌跡,提供強大且用戶友好的可控性,從語義、空間和時間角度對視頻內(nèi)容進行細粒度控制。

    為了解決當前研究中有限的開放域軌跡控制問題,該研究重點關(guān)注三個方面的軌跡建模:

    使用軌跡采樣器(Trajectory Sampler,TS)在訓練期間直接從開放域視頻流中采樣軌跡,用于實現(xiàn)任意軌跡的開放域控制; 使用多尺度融合(Multiscale Fusion,MF)將軌跡下采樣到各種尺度,并將其與 UNet 架構(gòu)每個塊內(nèi)的文本和圖像深度集成,用于控制不同粒度的軌跡; 采用自適應(yīng)訓練(Adaptive Training,AT)策略,以密集流為初始條件來穩(wěn)定視頻生成,然后在稀疏軌跡上進行訓練以適應(yīng)模型,最終生成穩(wěn)定且連貫的視頻。

    實驗及結(jié)果

    該研究用大量實驗來驗證 DragNUWA 的有效性,實驗結(jié)果展示了其在視頻合成細粒度控制方面的卓越性能。

    與現(xiàn)有專注于文本或圖像控制的研究不同,DragNUWA 主要強調(diào)建模軌跡控制。為了驗證軌跡控制的有效性,該研究從相機運動和復雜軌跡兩個方面測試了 DragNUWA。

    如下圖 4 所示,DragNUWA 雖然沒有明確地對相機運動進行建模,但它從開放域軌跡的建模中學習了各種相機運動。

    為了評估 DragNUWA 對復雜運動的精確建模能力,該研究使用相同的圖像和文本對各種復雜的拖動(drag)軌跡進行了測試。如下圖 5 所示,實驗結(jié)果表明 DragNUWA 能夠可靠地控制復雜運動。

    此外,DragNUWA 雖然主要強調(diào)軌跡控制建模,但也融合了文本和圖像控制。研究團隊認為,文本、圖像和軌跡分別對應(yīng)視頻的三個基本控制方面:語義、空間和時間。下圖 6 通過展示文本(p)、軌跡(g)和圖像(s)的不同組合(包括 s2v、p2v、gs2v、ps2v 和 pgs2v)說明了這些控制條件的必要性。

    感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容

    責任編輯:Rex_21

    關(guān)鍵詞:
    推薦閱讀
    欧美国产在线一区,免费看成年视频网页,国产亚洲福利精品一区,亚洲一区二区约美女探花
    <bdo id="ks4iu"><del id="ks4iu"></del></bdo>
  • 
    <pre id="ks4iu"></pre>
  • <bdo id="ks4iu"><del id="ks4iu"></del></bdo>
    <input id="ks4iu"><em id="ks4iu"></em></input>
    
    
  • <center id="ks4iu"><cite id="ks4iu"></cite></center>
  • 主站蜘蛛池模板: 婷婷六月丁香午夜爱爱| 亚洲日本乱码在线观看| 冈本视频老版app下载安装进入口| 亚洲婷婷天堂在线综合| 一级毛片成人免费看免费不卡| 日本免费一区二区在线观看| 看**视频一一级毛片| 波多野结衣新婚被邻居| 我和小雪在ktv被一群男生小说| 国产精品成人免费视频网站| 免费乱理伦片在线直播| 中文精品久久久久国产网站| 欧美h片在线观看| 欧美精品一区二区三区在线| 娇小xxxxx性开放| 免费极品av一视觉盛宴| 中文字幕无码不卡免费视频| 高清国产一级毛片国语| 欧美另类老少配hd| 在线观看免费黄色网址| 午夜寂寞视频无码专区| 中文无码一区二区不卡αv| 黄色一级黄色片| 欧乱色国产精品兔费视频| 国产黄大片在线观| 伊人狠狠色丁香综合尤物| 一级特黄aaa大片在线观看视频| 精品亚洲欧美无人区乱码| 搡女人免费视频大全| 国产午夜在线观看| 五月天精品在线| 亚洲武侠欧美自拍校园| 欧美日本免费观看αv片| 国产麻豆成人传媒免费观看| 亚洲日韩一区二区一无码| 日本www视频| 日本漂亮人妖megumi| 国产亚洲精品自在久久| 久久国产精品99精品国产| 香蕉久久成人网| 日本黄色片免费观看|