PixelDance&Seaweed:豆包視頻生成模型

AI百科 2024-12-31 11:38:00 奇想AI導(dǎo)航網(wǎng)

PixelDance視頻生成模型

PixelDance是由字節(jié)跳動(dòng)研發(fā)的一種視頻生成模型，于2024年發(fā)布。

核心技術(shù)

基于潛在擴(kuò)散模型：PixelDance的核心技術(shù)是將傳統(tǒng)的2D UNet模型擴(kuò)展為3D變體，在時(shí)序生成方面有了更大的靈活性。通過(guò)設(shè)置時(shí)間注意力層，模型能夠在生成每一幀視頻時(shí)，保持不同時(shí)刻之間的聯(lián)系，并且這一切依賴于來(lái)自各類源的視頻數(shù)據(jù)，這不僅提高了生成視頻的多樣性，也為其生成的高一致性提供了保障。
指令注入機(jī)制：采用文本指令伴隨首尾幀圖像指令進(jìn)行視頻生成的指令注入機(jī)制。在整個(gè)訓(xùn)練過(guò)程中，模型被設(shè)計(jì)為優(yōu)先遵循首幀指令，但在推理的最后階段，尾幀指令則作為生成視頻的引導(dǎo)，這種方式讓視頻生成不僅精準(zhǔn)，還富有故事性。

模型特點(diǎn)

性能提升顯著：在MSR - VTT和UCF - 101公開數(shù)據(jù)集上，PixelDance取得了非常顯著的性能提升。利用圖像先驗(yàn)知識(shí)的方法，能夠生成一些高質(zhì)量的視頻內(nèi)容，在生成長(zhǎng)視頻方面的性能超越了現(xiàn)有的視頻生成技術(shù)，尤其在保持時(shí)間一致性和視頻質(zhì)量方面取得了顯著的進(jìn)展。
高動(dòng)作多樣性：其具有顯著更大的特征空間和更強(qiáng)的動(dòng)作多樣性，能夠處理包含人物復(fù)雜連續(xù)動(dòng)作、多鏡頭組合和運(yùn)鏡控制等任務(wù)，表現(xiàn)出色地應(yīng)對(duì)復(fù)雜動(dòng)作與炫酷特效.
多種模式與輸入：有基礎(chǔ)模式和高級(jí)魔法模式兩種。基礎(chǔ)模式下用戶只需要提供一張指導(dǎo)圖片和一段文本描述，就能生成有高度一致性且有豐富動(dòng)態(tài)性的視頻；高級(jí)魔法模式需要用戶提供兩張指導(dǎo)圖片和一段文本描述，可以更好地生成更有難度的視頻內(nèi)容。并且它能夠處理真實(shí)風(fēng)格、動(dòng)畫風(fēng)格、二次元風(fēng)格、魔幻風(fēng)格等多種風(fēng)格的輸入圖片，人物動(dòng)作、臉部表情、相機(jī)視角控制、特效動(dòng)作等方面也能很好地完成.

應(yīng)用場(chǎng)景

在諸多應(yīng)用場(chǎng)景表現(xiàn)良好，比如可根據(jù)用戶預(yù)設(shè)的故事，制作出每個(gè)場(chǎng)景和對(duì)應(yīng)的動(dòng)作，無(wú)論是真實(shí)場(chǎng)景還是虛幻場(chǎng)景，都能生成細(xì)節(jié)豐富、動(dòng)作豐富的視頻，適用于影視創(chuàng)作、廣告?zhèn)髅健⒍桃曨l、直播、電商等眾多場(chǎng)景，對(duì)劇情創(chuàng)作也非常友好。

Seaweed視頻生成模型

Seaweed是字節(jié)跳動(dòng)自研的視頻生成模型，同樣于2024年發(fā)布，它面向平臺(tái)用戶的開放使用標(biāo)志著字節(jié)跳動(dòng)在AI視頻領(lǐng)域的重要探索成果。

核心技術(shù)與架構(gòu)

基于DiT架構(gòu)：基于DiT（Diffusion Transformer，擴(kuò)散模型的一種）架構(gòu)，使模型能實(shí)現(xiàn)大幅度運(yùn)動(dòng)畫面流暢自然，這一架構(gòu)為模型帶來(lái)了特殊的優(yōu)勢(shì)，讓視頻在生成時(shí)有著更好的畫面流暢性與視覺(jué)效果的基礎(chǔ).

模型特點(diǎn)

生成效率優(yōu)勢(shì)：Seaweed的標(biāo)準(zhǔn)版在生成效率方面有較為明顯的優(yōu)勢(shì)。測(cè)試顯示，該模型僅需60s就能生成時(shí)長(zhǎng)5s的高質(zhì)量AI視頻，大幅領(lǐng)先于國(guó)內(nèi)業(yè)界3 - 5分鐘的前沿水平.
畫面美感與真實(shí)感并存：經(jīng)過(guò)剪映、即夢(mèng)AI等業(yè)務(wù)場(chǎng)景的打磨和迭代，具備專業(yè)級(jí)光影布局及色彩調(diào)和，使得畫面視覺(jué)極具美感和真實(shí)感.

應(yīng)用場(chǎng)景

可應(yīng)用于廣泛的場(chǎng)景如游戲視頻制作、短視頻內(nèi)容創(chuàng)新、動(dòng)畫設(shè)計(jì)等場(chǎng)景。無(wú)論是對(duì)于個(gè)人創(chuàng)作者還是專業(yè)團(tuán)隊(duì)，在生成具有視覺(jué)質(zhì)量的短片方面能夠有效降低創(chuàng)作門檻，吸引更多觀眾提升內(nèi)容的可觀看性和分享度。

PixelDance與Seaweed的對(duì)比

性能與效果維度

動(dòng)作完成能力：在人物復(fù)雜連續(xù)動(dòng)作方面，PixelDance表現(xiàn)突出，能在10s內(nèi)完成3個(gè)連續(xù)動(dòng)作，而Seaweed受限于5s的生成時(shí)長(zhǎng)不能很精準(zhǔn)的表現(xiàn)出如【摘下墨鏡】后【向前走】這樣的連續(xù)動(dòng)作，不過(guò)Seaweed人物動(dòng)作的自然度和眼睛的補(bǔ)足做的還不錯(cuò)。
多鏡頭組合能力：PixelDance在多鏡頭組合方面是頂級(jí)的，能夠在單次生成的視頻里很好地呈現(xiàn)不同角度的鏡頭切換；Seaweed整體動(dòng)作流暢度和幅度是足夠的，但在復(fù)刻PixelDance案例時(shí)，多次嘗試未能做到鏡頭切換的效果.
運(yùn)鏡控制能力：PixelDance能夠通過(guò)prompt精準(zhǔn)的控制鏡頭運(yùn)動(dòng)的軌跡，如實(shí)現(xiàn)【360度環(huán)繞】從【側(cè)臉】到【正臉】，最終落點(diǎn)在人物的面部特寫；Seaweed雖然實(shí)現(xiàn)了【360度】環(huán)繞似的運(yùn)動(dòng)，但是沒(méi)有鏡頭遠(yuǎn)近的變化，也沒(méi)有落點(diǎn)在人物的面部特寫上.

效率維度

生成速度不同：Seaweed生成效率較高，60秒可生成5秒的視頻；而PixelDance在標(biāo)準(zhǔn)模式下時(shí)長(zhǎng)可達(dá)10秒。這表明二者在不同時(shí)長(zhǎng)需求場(chǎng)景下各有優(yōu)勢(shì)，如果需要快速生成較短時(shí)長(zhǎng)的視頻，Seaweed可能更合適，如果需要相對(duì)較長(zhǎng)且更復(fù)雜的視頻內(nèi)容，PixelDance或許更能勝任。

輸入與功能側(cè)重

指令輸入方式不同：PixelDance使用文本指令伴隨首尾幀圖像指令注入機(jī)制，而Seaweed雖未見此類特別強(qiáng)調(diào)的指令輸入方式，但從其能力看也有自己在圖片輸入場(chǎng)景下的優(yōu)勢(shì)，如在圖生視頻場(chǎng)景體現(xiàn)出較好的首幀一致性，可以保持與用戶輸入圖的一致性、色彩等細(xì)節(jié)還原。
功能獨(dú)特性不同：PixelDance的功能重點(diǎn)更偏向于對(duì)復(fù)雜動(dòng)作、鏡頭組合和運(yùn)鏡控制等；Seaweed模型則在畫面的光影布局、色彩調(diào)和、畫面的穩(wěn)定與流暢方面有自己的特色。

PixelDance和Seaweed視頻生成模型的應(yīng)用案例

PixelDance的應(yīng)用案例

影視創(chuàng)作方面：在影視中，可以根據(jù)預(yù)設(shè)的情節(jié)腳本，當(dāng)輸入包含人物在不同情緒狀態(tài)下的文本描述以及對(duì)應(yīng)的首尾幀圖像，比如特寫一個(gè)女人的面部有些生氣，戴上了一副墨鏡，這時(shí)一個(gè)男人從畫面右側(cè)走進(jìn)來(lái)抱住了她，PixelDance能夠按照指令的時(shí)序去完成連續(xù)的動(dòng)作，多個(gè)主體之間能夠順暢交互并且人物表情能準(zhǔn)確傳達(dá)指令情緒，完成影視劇情片段的創(chuàng)作。
廣告?zhèn)髅椒矫?/strong>：例如在為一款汽車制作廣告時(shí)，可以提供一張汽車在起始場(chǎng)景（如在城市繁華街道起點(diǎn)）的圖片為起始幀，結(jié)合一段展現(xiàn)汽車性能、外觀吸引點(diǎn)的文字描述，如“汽車飛馳在街道上，炫目的外觀吸引路人目光，瞬間加速超車”，并可以選擇再提供一張汽車到達(dá)目的地（如在山頂眺望城市）的圖片為尾幀，PixelDance則能夠生成一個(gè)汽車從街道起步到開上山頭的視頻，視頻中可以包含復(fù)雜的運(yùn)鏡，如跟隨汽車的360度環(huán)繞，鏡頭的拉近推遠(yuǎn)，多主體像行人與汽車的互動(dòng)等，很好地展示汽車的特點(diǎn)，用于廣告推廣。

短視頻創(chuàng)作方面：對(duì)于一些搞笑短視頻創(chuàng)作，創(chuàng)作者可以給出如一個(gè)人搞笑表情的起始幀圖片，配合一段描述這個(gè)人接下來(lái)發(fā)生一系列搞笑動(dòng)作（如滑倒、爬起后又撞到桿子等）的文字內(nèi)容，利用PixelDance生成具有搞笑劇情的短視頻內(nèi)容。

Seaweed的應(yīng)用案例

游戲視頻制作方面：在制作游戲宣傳視頻時(shí)，如果有一幅游戲中主角站在神秘城堡前的初始畫面，通過(guò)輸入關(guān)于主角進(jìn)入城堡探索（如探索神秘寶藏、與怪物戰(zhàn)斗等）相關(guān)的文本描述，Seaweed能夠生成一段5秒左右游戲畫面流暢自然，視覺(jué)效果真實(shí)且具有專業(yè)光影布局的精彩片段，用于游戲的宣傳推廣。

短視頻內(nèi)容創(chuàng)新方面：例如在美食短視頻制作中，輸入一張精美的美食擺在桌上的圖片，加上一段介紹美食口感、烹飪過(guò)程等的文字描述，Seaweed能在較短時(shí)間內(nèi)生成具有較高視覺(jué)美感的短視頻，美食在畫面中的呈現(xiàn)因良好的色彩調(diào)和顯得更加誘人。

動(dòng)畫設(shè)計(jì)方面:動(dòng)畫設(shè)計(jì)初期概念驗(yàn)證階段，輸入一些簡(jiǎn)單的角色起始畫面，配合關(guān)于角色動(dòng)作、場(chǎng)景轉(zhuǎn)換等的文字構(gòu)思，Seaweed較快生成的動(dòng)畫視頻可幫助設(shè)計(jì)師直觀地感受設(shè)計(jì)方案的初步視覺(jué)效果以便快速調(diào)整創(chuàng)意方向。

PixelDance與Seaweed視頻生成模型的優(yōu)缺點(diǎn)分析

PixelDance的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

動(dòng)作處理與鏡頭控制：在人物動(dòng)作處理的能力上比較強(qiáng)，像復(fù)雜連續(xù)動(dòng)作、多鏡頭組合、運(yùn)鏡控制等方面都是它的亮點(diǎn)。因?yàn)槠漭^大的特征空間和動(dòng)作多樣性，可以高質(zhì)量的完成復(fù)雜場(chǎng)景的構(gòu)建以及多主體間復(fù)雜交互動(dòng)作的呈現(xiàn)，這對(duì)于需要在視頻中體現(xiàn)出復(fù)雜劇情、多角色互動(dòng)或是有特殊運(yùn)鏡要求的創(chuàng)作場(chǎng)景非常有優(yōu)勢(shì)，如電影創(chuàng)作中的武打場(chǎng)面、追逐場(chǎng)景等都能得到較好的體現(xiàn).

多種風(fēng)格的適應(yīng)與特效：能夠處理多種風(fēng)格（真實(shí)風(fēng)格、動(dòng)畫風(fēng)格、二次元風(fēng)格、魔幻風(fēng)格等）的輸入內(nèi)容并且在特效處理方面（人物動(dòng)作、臉部表情、相機(jī)視角控制、特效動(dòng)作等）有較好的表現(xiàn)，這使得它可以靈活應(yīng)用于各種風(fēng)格和創(chuàng)意需求的視頻制作。無(wú)論是制作一部奇幻風(fēng)格的微電影，還是簡(jiǎn)單的酷炫特效短視頻都能滿足需求.

獨(dú)特的指令機(jī)制：它的文本指令伴隨首尾幀圖像指令的機(jī)制，既保證了視頻生成的準(zhǔn)確性，又能讓視頻富有故事性。通過(guò)優(yōu)先遵循首幀指令進(jìn)而參考尾幀指令，使得視頻生成過(guò)程中不同時(shí)刻畫面之間的聯(lián)系有更好的邏輯性，在長(zhǎng)視頻制作時(shí)能夠保持較好的時(shí)間一致性.

缺點(diǎn)

相對(duì)復(fù)雜的制作難度：由于其功能聚焦在多主體交互、復(fù)雜動(dòng)作和運(yùn)鏡控制等高級(jí)特性上，對(duì)于普通用戶或者初學(xué)者來(lái)說(shuō)，使用起來(lái)可能會(huì)有一定的難度，需要更多的時(shí)間去理解和掌握如何有效地給出指令來(lái)實(shí)現(xiàn)自己想要的視頻效果。

可能較長(zhǎng)的生成時(shí)間：盡管具體的生成時(shí)間沒(méi)有準(zhǔn)確的數(shù)據(jù)表明長(zhǎng)于Seaweed ，但是從它生成視頻可以達(dá)到10秒并且包含更多復(fù)雜的動(dòng)作和鏡頭效果來(lái)看，在硬件資源有限的情況下可能相比Seaweed會(huì)花費(fèi)更多時(shí)間在生成視頻上。而對(duì)于一些需要快速出片的場(chǎng)景可能會(huì)受到限制。

Seaweed的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

生成效率高：短短60秒就能生成5秒時(shí)長(zhǎng)的高質(zhì)量視頻，這在效率方面是其很大的優(yōu)勢(shì)。尤其是對(duì)于一些對(duì)視頻生成速度要求很高的短視頻創(chuàng)作場(chǎng)景，如新聞資訊類短視頻、即時(shí)熱點(diǎn)的短視頻反應(yīng)等方面，可以快速地生成所需的視頻內(nèi)容投入使用.

畫面視覺(jué)效果好：無(wú)論是其在光影布局、色彩調(diào)和方面的專業(yè)級(jí)處理能力，還是得益于DiT架構(gòu)實(shí)現(xiàn)的大幅度運(yùn)動(dòng)畫面流暢自然的特性，都為畫面視覺(jué)效果帶來(lái)了很高的分?jǐn)?shù)。像商業(yè)廣告、藝術(shù)短片等對(duì)于畫面視覺(jué)美感要求高的場(chǎng)景下可以有很好的應(yīng)用表現(xiàn).

上手難度低：模型相對(duì)來(lái)說(shuō)可能更偏向于基礎(chǔ)視覺(jué)層面的高質(zhì)量輸出，沒(méi)有PixelDance在動(dòng)作、鏡頭組合等方面那么復(fù)雜的功能，可能對(duì)于普通用戶來(lái)說(shuō)更容易上手，對(duì)于不擅長(zhǎng)處理復(fù)雜指令的創(chuàng)作者而言是比較友好的選擇。

缺點(diǎn)

動(dòng)作與鏡頭控制局限性：在人物復(fù)雜連續(xù)動(dòng)作、多鏡頭組合以及運(yùn)鏡控制等方面的能力相對(duì)較弱。在需要體現(xiàn)多主體復(fù)雜交互動(dòng)作、多樣的鏡頭切換及精準(zhǔn)運(yùn)鏡控制的場(chǎng)景下，如一些動(dòng)作大片的片段生成或者情節(jié)復(fù)雜的故事性短視頻創(chuàng)作時(shí)可能無(wú)法達(dá)到很高的要求.

功能相對(duì)單一性：主要集中在畫面視覺(jué)效果的提升方面，模型的功能更多偏向于保證畫面本身看起來(lái)更好看、更流暢自然，相比PixelDance在處理多種風(fēng)格輸入、多種特效動(dòng)作以及故事邏輯生成等方面缺乏更多的特性。

# 文章博客 # AI百科

? 版權(quán)聲明

本站文章版權(quán)歸奇想AI導(dǎo)航網(wǎng)所有，未經(jīng)允許禁止任何形式的轉(zhuǎn)載。

上一篇
Doubao-vision-pro:豆包視覺(jué)理解模型

下一篇
“多模態(tài) AI" 概念

相關(guān)文章

SigStyle – 吉大聯(lián)合 Adobe 推出的創(chuàng)新風(fēng)格遷移框架

 AI百科

2

R1-Onevision：引領(lǐng)未來(lái)的開源多模態(tài)視覺(jué)推理模型

 AI百科

0

QwQ-Max：阿里巴巴推出的新一代深度推理模型，助力多場(chǎng)景AI應(yīng)用

 AI百科

1

PySpur：開源AI代理工具，輕松實(shí)現(xiàn)拖拽式AI工作流開發(fā)

AI百科

1

Profiling Data：DeepSeek開源訓(xùn)練和推理框架的性能分析工具

 AI百科

1

PhotoDoodle：革新圖像編輯的AI工具，快速實(shí)現(xiàn)藝術(shù)風(fēng)格轉(zhuǎn)換

 AI百科

2

熱門工具

Voicenotes

Reddo

閃剪

Watsonx.ai

Auto-GPT

Ghostwriter

Soundraw

Mubert

Kittl

文涌Effidit

最新收錄

ima.copilot-騰訊智能工作臺(tái)

豆包AI編程

蜂鳥AI

華為小藝

Onlook

Lovable

AnythingLLM

Trae

MegEngine

Aibiye

最新文章

SigStyle – 吉大聯(lián)合 Adobe 推出的創(chuàng)新風(fēng)格遷移框架

2025-03-02 09:57:54

R1-Onevision：引領(lǐng)未來(lái)的開源多模態(tài)視覺(jué)推理模型

2025-03-02 09:57:48

QwQ-Max：阿里巴巴推出的新一代深度推理模型，助力多場(chǎng)景AI應(yīng)用

2025-03-02 09:57:37

PySpur：開源AI代理工具，輕松實(shí)現(xiàn)拖拽式AI工作流開發(fā)

2025-03-02 09:57:29

Profiling Data：DeepSeek開源訓(xùn)練和推理框架的性能分析工具

2025-03-02 09:57:21

PhotoDoodle：革新圖像編輯的AI工具，快速實(shí)現(xiàn)藝術(shù)風(fēng)格轉(zhuǎn)換

2025-03-02 09:57:13

微軟Phi-4-Multimodal：引領(lǐng)未來(lái)的多模態(tài)語(yǔ)言模型

2025-03-02 09:57:06

微軟推出Phi-4-Mini：專為文本任務(wù)設(shè)計(jì)的小型語(yǔ)言模型

2025-03-02 09:56:58

OctoTools：斯坦福大學(xué)推出的解決復(fù)雜推理任務(wù)的開源智能體框架

2025-03-02 09:56:49

MME-CoT：港中文等機(jī)構(gòu)聯(lián)合推出的多模態(tài)視覺(jué)推理評(píng)估框架

2025-03-01 09:44:41