大喜之家,床3之他和她的关系

來(lái)源：雷科技AI 硬件組?|?編輯：冬日果醬?|?排版：LIN

2 個(gè)月前，OpenAI 發(fā)布了全新的文生視頻模型 Sora，瞬間引爆了全球科技圈，也讓馬斯克說(shuō)出了「人類愿賭服輸」。在那之后，沒(méi)有任何一個(gè)大模型敢于在文生視頻領(lǐng)域「挑釁」Sora。

現(xiàn)在，事情有了變化。

在 4 月 27 日舉辦的 2024 中關(guān)村論壇上，生數(shù)科技與清華大學(xué)聯(lián)合發(fā)布了「Vidu」文生視頻模型，全面對(duì)標(biāo) OpenAI 的 Sora。

不僅是在視頻生成分辨率和時(shí)長(zhǎng)上，最關(guān)鍵的根據(jù)官方放出的生成視頻，Vidu 已經(jīng)實(shí)現(xiàn)了相當(dāng)程度的「擬真」——模擬真實(shí)世界的物理原理，以及主體的一致性。這是 Vidu 真正對(duì)標(biāo) Sora 的底氣。

但 Vidu，離 Sora 到底還有多少差距？

對(duì)標(biāo) Sora，Vidu 還差「一點(diǎn)」

從這次發(fā)布可以看出，Vidu 處處都在對(duì)標(biāo) Sora。同樣是通過(guò)提示詞直接生成視頻，同樣支持最高 1080P，雖然 16 秒的生成視頻時(shí)長(zhǎng)還明顯短于 Sora（最長(zhǎng) 60 秒）。

最明顯的還是生成的視頻內(nèi)容。

比如 Sora 街頭行走這一段，相信會(huì)看這篇文章的讀者應(yīng)該都看過(guò)，一度刷爆了各大社交媒體。

Vidu 也同樣生成了類似的視頻內(nèi)容，開始展示了一男一女一熊走在街頭的畫面，隨后又重點(diǎn)展示了熊人的背景街道。

雖然相比 Sora 那段少了很多震撼和細(xì)節(jié)展示，但不管是皮衣的質(zhì)感，還是路面的反射和倒影，Vidu 其實(shí)都展現(xiàn)了非常有說(shuō)服力的效果。

更重要的是，背景、人物主體是一致的，并沒(méi)有在前后發(fā)生大的變形或變化。

類似的表現(xiàn)還出現(xiàn)在其他生成視頻上。

比如開車這一段，鏡頭一直跟隨著汽車前移，但路旁的樹木和汽車主體始終沒(méi)有發(fā)生變化，并不像很多擴(kuò)散模型一樣，這一秒和下一秒的主體都可能出現(xiàn)明顯的差異。

不過(guò)在保真度上，Vidu 還是和 Sora 有比較明顯的差距。相似的提示詞（內(nèi)容）下，Sora 開車這一段的背景明顯更接近真實(shí)世界，用比較通俗的話講，Vidu 有點(diǎn)「油畫」。

但顯然，Vidu 作為國(guó)產(chǎn)大模型，還是更懂中國(guó)。

Sora 在之前曾經(jīng)生成過(guò)一段街頭「舞龍」的視頻，而 Vidu 干脆直接生成了一段「真龍」的視頻，背景是輝煌的宮殿群。

Vidu 生成，動(dòng)圖經(jīng)過(guò)壓縮。圖/生數(shù)科技

如果 Sora 的重點(diǎn)與其說(shuō)是舞龍，實(shí)則更像展現(xiàn)「圍觀群眾」的驚人模擬，那 Vidu 就是真真正正模擬了一條龍。

此外，Vidu 還生成了一段「熊貓?jiān)诤厪椉梗酥黧w上的擬真，背景部分的草地、湖水都相當(dāng)程度地「真實(shí)」。

Vidu 生成片段截圖，非動(dòng)圖。圖/生數(shù)科技

在人物生成上，Vidu 也有一組畫面充分展示了它的實(shí)力，從面部表情、眨眼到抬頭，都非常接近實(shí)拍鏡頭。就算比起 Sora 的人物鏡頭，也不遜色多少。

Vidu 生成，動(dòng)圖經(jīng)過(guò)壓縮。圖/生數(shù)科技

另外考慮到要參與視頻內(nèi)容制作流程，這類文生視頻模型也繞不開「鏡頭調(diào)度」的能力，事實(shí)是 Vidu 依然展示了相當(dāng)不錯(cuò)的水平。

總的來(lái)說(shuō)，雖然有 Sora 珠玉在前，但從目前公布的生成視頻來(lái)看，Vidu 依然展示了極高的視頻生成能力，或者說(shuō)是模擬物理世界的能力。或許在生成復(fù)雜畫面、保真度等方面還差 Sora，但有一些鏡頭完全稱得上可用，這已經(jīng)是一個(gè)很大的進(jìn)步。

當(dāng)然，Sora 的反方向跑步，Vidu 的「人物」突然長(zhǎng)出第三條腿，都說(shuō)明即便 AI 在視頻生成領(lǐng)域有了跨越性的進(jìn)步，仍然還有很大的提升空間。

正如 OpenAI 在 Sora 發(fā)布之初承認(rèn)的，這類模型當(dāng)前存在一定的局限性，比如無(wú)法模擬復(fù)雜場(chǎng)景的物理效應(yīng)，理解某些特定因果關(guān)系等。

好飯不怕晚：如何制造 Vidu？

看起來(lái)，Vidu 就好像 Sora 一樣橫空出世，以相當(dāng)驚艷的表現(xiàn)引起刷屏，而且同是基于對(duì) Transformer 與 Diffusion 架構(gòu)的融合。但很多人并不知道，生數(shù)科技聯(lián)合創(chuàng)始人兼 CEO 唐家渝上個(gè)月就透露過(guò)：

「今年內(nèi)一定能達(dá)到 Sora 目前版本的效果?！?/p>

不僅如此，這家?guī)缀蹩梢运闶菑那迦A大學(xué)人工智能研究所「孵化」出來(lái)的初創(chuàng)公司，在 2022 年 9 月就提出了融合 Diffusion 和 Transformer 的 U-ViT 架構(gòu)，比 OpenAI 提出 DiT 架構(gòu)（Sora 的底層架構(gòu)）還要早。

甚至因?yàn)榘l(fā)布時(shí)間更早，計(jì)算機(jī)視覺頂會(huì) CVPR 2023 提前收錄了清華大學(xué)的 U-ViT 論文，而以「缺乏創(chuàng)新」為由拒絕了 OpenAI DiT 論文。

但總的來(lái)說(shuō)，這兩家公司的思路大體一致。

目前市面上大部分視頻生成模型都是基于 Diffusion 架構(gòu)的擴(kuò)散模型，比如 Stable Video Diffusion。OpenAI 和生數(shù)科技則是引入大語(yǔ)言模型底層的 Transformer 架構(gòu)，在一定程度上，解決了文生視頻一直以來(lái)前后一致性和視頻長(zhǎng)度過(guò)短的問(wèn)題。

所以在 Sora 和 Vidu 生成的視頻中，你可以說(shuō)有很多不完美，但在保證主體和背景一致性上，它們都有了實(shí)質(zhì)性的飛躍，幾乎不會(huì)看到有人物邊走邊變形的情況，背景不會(huì)時(shí)刻在變，場(chǎng)景也不會(huì)在沒(méi)有任何轉(zhuǎn)場(chǎng)的情況下突變。

不過(guò)很多人可能還有一個(gè)問(wèn)題：明明更早提出融合架構(gòu)，生數(shù)科技為什么更慢？甚至效果還差一些？

事實(shí)上不難理解。要知道，生數(shù)科技正式成立于 2023 年 3 月，雖然在不久后獲得了阿里、百度、字節(jié)等公司和機(jī)構(gòu)的多輪融資，但最多也就融到數(shù)億。相比之下，OpenAI 背靠微軟，在算力、數(shù)據(jù)、資金、人才等方面都有著更大的優(yōu)勢(shì)。

同時(shí)，這也會(huì)影響到 Sora 和 Vidu 完全不同的發(fā)展路徑。

在接受 WSJ 記者采訪時(shí)，OpenAI 首席技術(shù)官 Mira Murati 公開表示，Sora 最快將會(huì)在今年年內(nèi)面向公眾推出?？紤]到 Sora 生成視頻需要的海量算力，外界估計(jì)，可能將有限度地率先開放給 ChatGPT Plus 用戶。

而據(jù)唐家渝表示，生數(shù)科技目前要走兩條路。

一是打造覆蓋文本、圖像、視頻、3D 模型等多模態(tài)能力的底層通用大模型，面向 B 端提供模型服務(wù)能力；二是自己面向圖像生成、視頻生成等場(chǎng)景打造垂類應(yīng)用，面向游戲制作、影視后期等需求提供訂閱制收費(fèi)服務(wù)。

寫在最后

Sora 剛發(fā)布的時(shí)候，國(guó)內(nèi)一片驚嘆，又是一片哀嚎。

360 創(chuàng)始人周鴻祎說(shuō)，Sora 將人類實(shí)現(xiàn) AGI（通用人工智能）的時(shí)間從 10 年拉小到了 1-2 年，同時(shí)也進(jìn)一步拉大了中美在 AI 領(lǐng)域的差距。還有更多人認(rèn)為，盡管國(guó)內(nèi)大模型眾多，做視頻模型的也不少，卻看不到一個(gè)能夠追趕 Sora 的競(jìng)爭(zhēng)對(duì)手。

而 Vidu 的發(fā)布，至少再次證明了一切皆有可能。但如果說(shuō) Sora 的發(fā)布是一個(gè)開始，那我相信 Vidu 不是結(jié)束，「甚至不是結(jié)束的開始。但這也許是開始的結(jié)束?！?/p>

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
FT232RL	1	FTDI Chip	Serial I/O Controller, CMOS, PDSO28, 5.30 X 10.20 MM, 0.65 MM PITCH, GREEN, SSOP-28	ECAD模型下載ECAD模型	$10.08	查看
STM8S003F3P6	1	STMicroelectronics	Mainstream Value line 8-bit MCU with 8 Kbytes Flash, 16 MHz CPU, integrated EEPROM	ECAD模型下載ECAD模型	$1.53	查看
MC9S12A128CPVE	1	Rochester Electronics LLC	16-BIT, FLASH, 25MHz, MICROCONTROLLER, PQFP112, LEAD FREE, LQFP-112		$22.47	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

FT232RL

FTDI Chip

Serial I/O Controller, CMOS, PDSO28, 5.30 X 10.20 MM, 0.65 MM PITCH, GREEN, SSOP-28