直接生成16秒高清視頻中國自研視頻大模型在京發(fā)布

編輯: 王瑞穎

時(shí)間: 2024-04-29 12:04:57

來源: 新華社

只需一段文字指令就能生成一段逼真視頻，今年初，文生視頻大模型Sora在全球人工智能業(yè)內(nèi)外引發(fā)廣泛關(guān)注。27日，2024中關(guān)村論壇年會(huì)上首次發(fā)布中國自研的具“長時(shí)長、高一致性、高動(dòng)態(tài)性”特點(diǎn)的文生視頻大模型Vidu。

記者從會(huì)上獲悉，這一視頻大模型由清華大學(xué)聯(lián)合北京生數(shù)科技有限公司共同研發(fā)，可根據(jù)文本描述直接生成長達(dá)16秒、分辨率高達(dá)1080P的高清視頻內(nèi)容，不僅能模擬真實(shí)物理世界，還擁有豐富想象力。

清華大學(xué)人工智能研究院副院長、生數(shù)科技首席科學(xué)家朱軍說，當(dāng)前國內(nèi)視頻大模型的生成視頻時(shí)長大多為4秒左右，Vidu則可實(shí)現(xiàn)一次性生成16秒的視頻時(shí)長。同時(shí)，視頻畫面能保持連貫流暢，隨著鏡頭移動(dòng)，人物和場(chǎng)景在時(shí)間、空間中能保持高一致性。

在動(dòng)態(tài)性方面，Vidu能生成復(fù)雜的動(dòng)態(tài)鏡頭，不再局限于簡單的推、拉、移等固定鏡頭，而是能在一段畫面里實(shí)現(xiàn)遠(yuǎn)景、近景、中景、特寫等不同鏡頭的切換，包括能直接生成長鏡頭、追焦、轉(zhuǎn)場(chǎng)等效果。

“Vidu能模擬真實(shí)物理世界，生成細(xì)節(jié)復(fù)雜且符合物理規(guī)律的場(chǎng)景，例如合理的光影效果、細(xì)膩的人物表情等，還能創(chuàng)造出具有深度和復(fù)雜性的超現(xiàn)實(shí)主義內(nèi)容。”朱軍介紹，由于采用“一步到位”的生成方式，視頻片段從頭到尾連續(xù)生成，沒有明顯的插幀現(xiàn)象。

此外，Vidu還可生成如熊貓、龍等形象。

據(jù)悉，Vidu的技術(shù)突破源于團(tuán)隊(duì)在機(jī)器學(xué)習(xí)和多模態(tài)大模型方面的長期積累，其核心技術(shù)架構(gòu)由團(tuán)隊(duì)早在2022年就提出并持續(xù)開展自主研發(fā)。“作為一款通用視覺模型，我們相信，Vidu未來能支持生成更加多樣化、更長時(shí)長的視頻內(nèi)容，探索不同的生成任務(wù)，其靈活架構(gòu)也將兼容更廣泛的模態(tài)，進(jìn)一步拓展多模態(tài)通用能力的邊界。”朱軍說。（記者魏夢(mèng)佳）

標(biāo)簽：科技

直接生成16秒高清視頻 中國自研視頻大模型在京發(fā)布

相關(guān)新聞

新聞推薦

影音推薦

直接生成16秒高清視頻中國自研視頻大模型在京發(fā)布