久久九九热免费视频,天堂√中文最新版在线,亚洲欧美校园春色,国产中文在线播放

PixelDance&Seaweed:豆包視頻生成模型

PixelDance視頻生成模型

PixelDance是由字節(jié)跳動(dòng)研發(fā)的一種視頻生成模型,于2024年發(fā)布。

核心技術(shù)

  • 基于潛在擴(kuò)散模型:PixelDance的核心技術(shù)是將傳統(tǒng)的2D UNet模型擴(kuò)展為3D變體,在時(shí)序生成方面有了更大的靈活性。通過(guò)設(shè)置時(shí)間注意力層,模型能夠在生成每一幀視頻時(shí),保持不同時(shí)刻之間的聯(lián)系,并且這一切依賴于來(lái)自各類源的視頻數(shù)據(jù),這不僅提高了生成視頻的多樣性,也為其生成的高一致性提供了保障。
  • 指令注入機(jī)制:采用文本指令伴隨首尾幀圖像指令進(jìn)行視頻生成的指令注入機(jī)制。在整個(gè)訓(xùn)練過(guò)程中,模型被設(shè)計(jì)為優(yōu)先遵循首幀指令,但在推理的最后階段,尾幀指令則作為生成視頻的引導(dǎo),這種方式讓視頻生成不僅精準(zhǔn),還富有故事性。

模型特點(diǎn)

  • 性能提升顯著:在MSR - VTT和UCF - 101公開數(shù)據(jù)集上,PixelDance取得了非常顯著的性能提升。利用圖像先驗(yàn)知識(shí)的方法,能夠生成一些高質(zhì)量的視頻內(nèi)容,在生成長(zhǎng)視頻方面的性能超越了現(xiàn)有的視頻生成技術(shù),尤其在保持時(shí)間一致性和視頻質(zhì)量方面取得了顯著的進(jìn)展。
  • 高動(dòng)作多樣性:其具有顯著更大的特征空間和更強(qiáng)的動(dòng)作多樣性,能夠處理包含人物復(fù)雜連續(xù)動(dòng)作、多鏡頭組合和運(yùn)鏡控制等任務(wù),表現(xiàn)出色地應(yīng)對(duì)復(fù)雜動(dòng)作與炫酷特效.
  • 多種模式與輸入:有基礎(chǔ)模式和高級(jí)魔法模式兩種。基礎(chǔ)模式下用戶只需要提供一張指導(dǎo)圖片和一段文本描述,就能生成有高度一致性且有豐富動(dòng)態(tài)性的視頻;高級(jí)魔法模式需要用戶提供兩張指導(dǎo)圖片和一段文本描述,可以更好地生成更有難度的視頻內(nèi)容。并且它能夠處理真實(shí)風(fēng)格、動(dòng)畫風(fēng)格、二次元風(fēng)格、魔幻風(fēng)格等多種風(fēng)格的輸入圖片,人物動(dòng)作、臉部表情、相機(jī)視角控制、特效動(dòng)作等方面也能很好地完成.

應(yīng)用場(chǎng)景

在諸多應(yīng)用場(chǎng)景表現(xiàn)良好,比如可根據(jù)用戶預(yù)設(shè)的故事,制作出每個(gè)場(chǎng)景和對(duì)應(yīng)的動(dòng)作,無(wú)論是真實(shí)場(chǎng)景還是虛幻場(chǎng)景,都能生成細(xì)節(jié)豐富、動(dòng)作豐富的視頻,適用于影視創(chuàng)作、廣告?zhèn)髅健⒍桃曨l、直播、電商等眾多場(chǎng)景,對(duì)劇情創(chuàng)作也非常友好。

Seaweed視頻生成模型

Seaweed是字節(jié)跳動(dòng)自研的視頻生成模型,同樣于2024年發(fā)布,它面向平臺(tái)用戶的開放使用標(biāo)志著字節(jié)跳動(dòng)在AI視頻領(lǐng)域的重要探索成果。

核心技術(shù)與架構(gòu)

  • 基于DiT架構(gòu):基于DiT(Diffusion Transformer,擴(kuò)散模型的一種)架構(gòu),使模型能實(shí)現(xiàn)大幅度運(yùn)動(dòng)畫面流暢自然,這一架構(gòu)為模型帶來(lái)了特殊的優(yōu)勢(shì),讓視頻在生成時(shí)有著更好的畫面流暢性與視覺(jué)效果的基礎(chǔ).

模型特點(diǎn)

  • 生成效率優(yōu)勢(shì):Seaweed的標(biāo)準(zhǔn)版在生成效率方面有較為明顯的優(yōu)勢(shì)。測(cè)試顯示,該模型僅需60s就能生成時(shí)長(zhǎng)5s的高質(zhì)量AI視頻,大幅領(lǐng)先于國(guó)內(nèi)業(yè)界3 - 5分鐘的前沿水平.
  • 畫面美感與真實(shí)感并存:經(jīng)過(guò)剪映、即夢(mèng)AI等業(yè)務(wù)場(chǎng)景的打磨和迭代,具備專業(yè)級(jí)光影布局及色彩調(diào)和,使得畫面視覺(jué)極具美感和真實(shí)感.

應(yīng)用場(chǎng)景

可應(yīng)用于廣泛的場(chǎng)景如游戲視頻制作、短視頻內(nèi)容創(chuàng)新、動(dòng)畫設(shè)計(jì)等場(chǎng)景。無(wú)論是對(duì)于個(gè)人創(chuàng)作者還是專業(yè)團(tuán)隊(duì),在生成具有視覺(jué)質(zhì)量的短片方面能夠有效降低創(chuàng)作門檻,吸引更多觀眾提升內(nèi)容的可觀看性和分享度。

PixelDance與Seaweed的對(duì)比

性能與效果維度

  • 動(dòng)作完成能力:在人物復(fù)雜連續(xù)動(dòng)作方面,PixelDance表現(xiàn)突出,能在10s內(nèi)完成3個(gè)連續(xù)動(dòng)作,而Seaweed受限于5s的生成時(shí)長(zhǎng)不能很精準(zhǔn)的表現(xiàn)出如【摘下墨鏡】后【向前走】這樣的連續(xù)動(dòng)作,不過(guò)Seaweed人物動(dòng)作的自然度和眼睛的補(bǔ)足做的還不錯(cuò)。
  • 多鏡頭組合能力:PixelDance在多鏡頭組合方面是頂級(jí)的,能夠在單次生成的視頻里很好地呈現(xiàn)不同角度的鏡頭切換;Seaweed整體動(dòng)作流暢度和幅度是足夠的,但在復(fù)刻PixelDance案例時(shí),多次嘗試未能做到鏡頭切換的效果.
  • 運(yùn)鏡控制能力:PixelDance能夠通過(guò)prompt精準(zhǔn)的控制鏡頭運(yùn)動(dòng)的軌跡,如實(shí)現(xiàn)【360度環(huán)繞】從【側(cè)臉】到【正臉】,最終落點(diǎn)在人物的面部特寫;Seaweed雖然實(shí)現(xiàn)了【360度】環(huán)繞似的運(yùn)動(dòng),但是沒(méi)有鏡頭遠(yuǎn)近的變化,也沒(méi)有落點(diǎn)在人物的面部特寫上.

效率維度

  • 生成速度不同:Seaweed生成效率較高,60秒可生成5秒的視頻;而PixelDance在標(biāo)準(zhǔn)模式下時(shí)長(zhǎng)可達(dá)10秒。這表明二者在不同時(shí)長(zhǎng)需求場(chǎng)景下各有優(yōu)勢(shì),如果需要快速生成較短時(shí)長(zhǎng)的視頻,Seaweed可能更合適,如果需要相對(duì)較長(zhǎng)且更復(fù)雜的視頻內(nèi)容,PixelDance或許更能勝任。

輸入與功能側(cè)重

  • 指令輸入方式不同:PixelDance使用文本指令伴隨首尾幀圖像指令注入機(jī)制,而Seaweed雖未見此類特別強(qiáng)調(diào)的指令輸入方式,但從其能力看也有自己在圖片輸入場(chǎng)景下的優(yōu)勢(shì),如在圖生視頻場(chǎng)景體現(xiàn)出較好的首幀一致性,可以保持與用戶輸入圖的一致性、色彩等細(xì)節(jié)還原。
  • 功能獨(dú)特性不同:PixelDance的功能重點(diǎn)更偏向于對(duì)復(fù)雜動(dòng)作、鏡頭組合和運(yùn)鏡控制等;Seaweed模型則在畫面的光影布局、色彩調(diào)和、畫面的穩(wěn)定與流暢方面有自己的特色。

PixelDance和Seaweed視頻生成模型的應(yīng)用案例

PixelDance的應(yīng)用案例

  • 影視創(chuàng)作方面:在影視中,可以根據(jù)預(yù)設(shè)的情節(jié)腳本,當(dāng)輸入包含人物在不同情緒狀態(tài)下的文本描述以及對(duì)應(yīng)的首尾幀圖像,比如特寫一個(gè)女人的面部有些生氣,戴上了一副墨鏡,這時(shí)一個(gè)男人從畫面右側(cè)走進(jìn)來(lái)抱住了她,PixelDance能夠按照指令的時(shí)序去完成連續(xù)的動(dòng)作,多個(gè)主體之間能夠順暢交互并且人物表情能準(zhǔn)確傳達(dá)指令情緒,完成影視劇情片段的創(chuàng)作。
  • 廣告?zhèn)髅椒矫?/strong>:例如在為一款汽車制作廣告時(shí),可以提供一張汽車在起始場(chǎng)景(如在城市繁華街道起點(diǎn))的圖片為起始幀,結(jié)合一段展現(xiàn)汽車性能、外觀吸引點(diǎn)的文字描述,如“汽車飛馳在街道上,炫目的外觀吸引路人目光,瞬間加速超車”,并可以選擇再提供一張汽車到達(dá)目的地(如在山頂眺望城市)的圖片為尾幀,PixelDance則能夠生成一個(gè)汽車從街道起步到開上山頭的視頻,視頻中可以包含復(fù)雜的運(yùn)鏡,如跟隨汽車的360度環(huán)繞,鏡頭的拉近推遠(yuǎn),多主體像行人與汽車的互動(dòng)等,很好地展示汽車的特點(diǎn),用于廣告推廣。
  • 短視頻創(chuàng)作方面:對(duì)于一些搞笑短視頻創(chuàng)作,創(chuàng)作者可以給出如一個(gè)人搞笑表情的起始幀圖片,配合一段描述這個(gè)人接下來(lái)發(fā)生一系列搞笑動(dòng)作(如滑倒、爬起后又撞到桿子等)的文字內(nèi)容,利用PixelDance生成具有搞笑劇情的短視頻內(nèi)容。

Seaweed的應(yīng)用案例

  • 游戲視頻制作方面:在制作游戲宣傳視頻時(shí),如果有一幅游戲中主角站在神秘城堡前的初始畫面,通過(guò)輸入關(guān)于主角進(jìn)入城堡探索(如探索神秘寶藏、與怪物戰(zhàn)斗等)相關(guān)的文本描述,Seaweed能夠生成一段5秒左右游戲畫面流暢自然,視覺(jué)效果真實(shí)且具有專業(yè)光影布局的精彩片段,用于游戲的宣傳推廣。
  • 短視頻內(nèi)容創(chuàng)新方面:例如在美食短視頻制作中,輸入一張精美的美食擺在桌上的圖片,加上一段介紹美食口感、烹飪過(guò)程等的文字描述,Seaweed能在較短時(shí)間內(nèi)生成具有較高視覺(jué)美感的短視頻,美食在畫面中的呈現(xiàn)因良好的色彩調(diào)和顯得更加誘人。
  • 動(dòng)畫設(shè)計(jì)方面:動(dòng)畫設(shè)計(jì)初期概念驗(yàn)證階段,輸入一些簡(jiǎn)單的角色起始畫面,配合關(guān)于角色動(dòng)作、場(chǎng)景轉(zhuǎn)換等的文字構(gòu)思,Seaweed較快生成的動(dòng)畫視頻可幫助設(shè)計(jì)師直觀地感受設(shè)計(jì)方案的初步視覺(jué)效果以便快速調(diào)整創(chuàng)意方向。

PixelDance與Seaweed視頻生成模型的優(yōu)缺點(diǎn)分析

PixelDance的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

  • 動(dòng)作處理與鏡頭控制:在人物動(dòng)作處理的能力上比較強(qiáng),像復(fù)雜連續(xù)動(dòng)作、多鏡頭組合、運(yùn)鏡控制等方面都是它的亮點(diǎn)。因?yàn)槠漭^大的特征空間和動(dòng)作多樣性,可以高質(zhì)量的完成復(fù)雜場(chǎng)景的構(gòu)建以及多主體間復(fù)雜交互動(dòng)作的呈現(xiàn),這對(duì)于需要在視頻中體現(xiàn)出復(fù)雜劇情、多角色互動(dòng)或是有特殊運(yùn)鏡要求的創(chuàng)作場(chǎng)景非常有優(yōu)勢(shì),如電影創(chuàng)作中的武打場(chǎng)面、追逐場(chǎng)景等都能得到較好的體現(xiàn).
  • 多種風(fēng)格的適應(yīng)與特效:能夠處理多種風(fēng)格(真實(shí)風(fēng)格、動(dòng)畫風(fēng)格、二次元風(fēng)格、魔幻風(fēng)格等)的輸入內(nèi)容并且在特效處理方面(人物動(dòng)作、臉部表情、相機(jī)視角控制、特效動(dòng)作等)有較好的表現(xiàn),這使得它可以靈活應(yīng)用于各種風(fēng)格和創(chuàng)意需求的視頻制作。無(wú)論是制作一部奇幻風(fēng)格的微電影,還是簡(jiǎn)單的酷炫特效短視頻都能滿足需求.
  • 獨(dú)特的指令機(jī)制:它的文本指令伴隨首尾幀圖像指令的機(jī)制,既保證了視頻生成的準(zhǔn)確性,又能讓視頻富有故事性。通過(guò)優(yōu)先遵循首幀指令進(jìn)而參考尾幀指令,使得視頻生成過(guò)程中不同時(shí)刻畫面之間的聯(lián)系有更好的邏輯性,在長(zhǎng)視頻制作時(shí)能夠保持較好的時(shí)間一致性.

缺點(diǎn)

  • 相對(duì)復(fù)雜的制作難度:由于其功能聚焦在多主體交互、復(fù)雜動(dòng)作和運(yùn)鏡控制等高級(jí)特性上,對(duì)于普通用戶或者初學(xué)者來(lái)說(shuō),使用起來(lái)可能會(huì)有一定的難度,需要更多的時(shí)間去理解和掌握如何有效地給出指令來(lái)實(shí)現(xiàn)自己想要的視頻效果。
  • 可能較長(zhǎng)的生成時(shí)間:盡管具體的生成時(shí)間沒(méi)有準(zhǔn)確的數(shù)據(jù)表明長(zhǎng)于Seaweed ,但是從它生成視頻可以達(dá)到10秒并且包含更多復(fù)雜的動(dòng)作和鏡頭效果來(lái)看,在硬件資源有限的情況下可能相比Seaweed會(huì)花費(fèi)更多時(shí)間在生成視頻上。而對(duì)于一些需要快速出片的場(chǎng)景可能會(huì)受到限制。

Seaweed的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

  • 生成效率高:短短60秒就能生成5秒時(shí)長(zhǎng)的高質(zhì)量視頻,這在效率方面是其很大的優(yōu)勢(shì)。尤其是對(duì)于一些對(duì)視頻生成速度要求很高的短視頻創(chuàng)作場(chǎng)景,如新聞資訊類短視頻、即時(shí)熱點(diǎn)的短視頻反應(yīng)等方面,可以快速地生成所需的視頻內(nèi)容投入使用.
  • 畫面視覺(jué)效果好:無(wú)論是其在光影布局、色彩調(diào)和方面的專業(yè)級(jí)處理能力,還是得益于DiT架構(gòu)實(shí)現(xiàn)的大幅度運(yùn)動(dòng)畫面流暢自然的特性,都為畫面視覺(jué)效果帶來(lái)了很高的分?jǐn)?shù)。像商業(yè)廣告、藝術(shù)短片等對(duì)于畫面視覺(jué)美感要求高的場(chǎng)景下可以有很好的應(yīng)用表現(xiàn).
  • 上手難度低:模型相對(duì)來(lái)說(shuō)可能更偏向于基礎(chǔ)視覺(jué)層面的高質(zhì)量輸出,沒(méi)有PixelDance在動(dòng)作、鏡頭組合等方面那么復(fù)雜的功能,可能對(duì)于普通用戶來(lái)說(shuō)更容易上手,對(duì)于不擅長(zhǎng)處理復(fù)雜指令的創(chuàng)作者而言是比較友好的選擇。

缺點(diǎn)

  • 動(dòng)作與鏡頭控制局限性:在人物復(fù)雜連續(xù)動(dòng)作、多鏡頭組合以及運(yùn)鏡控制等方面的能力相對(duì)較弱。在需要體現(xiàn)多主體復(fù)雜交互動(dòng)作、多樣的鏡頭切換及精準(zhǔn)運(yùn)鏡控制的場(chǎng)景下,如一些動(dòng)作大片的片段生成或者情節(jié)復(fù)雜的故事性短視頻創(chuàng)作時(shí)可能無(wú)法達(dá)到很高的要求.
  • 功能相對(duì)單一性:主要集中在畫面視覺(jué)效果的提升方面,模型的功能更多偏向于保證畫面本身看起來(lái)更好看、更流暢自然,相比PixelDance在處理多種風(fēng)格輸入、多種特效動(dòng)作以及故事邏輯生成等方面缺乏更多的特性。
? 版權(quán)聲明

相關(guān)文章

主站蜘蛛池模板: 本溪市| 南城县| 重庆市| 太谷县| 盐边县| 中江县| 大竹县| 牡丹江市| 浦江县| 如东县| 永善县| 德保县| 定州市| 兰州市| 东兴市| 嘉定区| 瑞丽市| 庐江县| 股票| 恩平市| 阿坝| 海安县| 青田县| 始兴县| 巴青县| 滦平县| 宜兴市| 静乐县| 明溪县| 洪泽县| 滨海县| 老河口市| 金乡县| 盐亭县| 宣城市| 五寨县| 贵港市| 额济纳旗| 安西县| 措美县| 将乐县|