收藏本站

電腦請使用 Ctrl + D 加入最愛
手機請使用 收藏
關閉

科學報 科學文摘 AI

字節跳動上線即夢AI,正式打響文生視頻工具之戰_Sora_OpenAI_快手


字體大小:
更新日期:2024902
文章欄目:
文章標籤:               
 

今年年初,OpenAI突然扔出了一顆深水炸彈——文生視頻大模型Sora,它不僅能生成一分鐘的連貫、高清視頻,且具有極強的仿真能力,也展現出了對物理世界的初步理解。一時間,關於國內AI行業又一次被甩開的焦慮也開始在網絡上蔓延。

可誰曾想到,僅僅半年時間過去,在Sora幾乎已經“查無此人”時,國內的文生視頻模型已經開始了捉對廝殺。就在快手的可靈AI宣布全面開放內測之後,日前字節跳動旗下剪映團隊研發的一站式AI創作平台“即夢AI”宣布上架,並且與前者一樣,即夢AI也同步上線了付費會員體系。

為什麼當OpenAI的Sora還停留在PPT階段,反而是“中國版Sora”率先開始商業化運作呢?要說快手、字節跳動的AI研發能力碾壓OpenAI顯然並不現實,畢竟字節跳動的豆包、快手的快意還比不了OpenAI的GPT-4o。所以真正的原因,或許是Sora只是OpenAI當時狙擊穀歌Gemini 1.5的一個工具,而對於快手和抖音這兩大短視頻平台而言,文生視頻模型即夢AI、可靈AI的意義非凡。

為什麼快手、字節跳動的文生視頻大模型會如此迅速的落地?Sora給業界帶來的啟示無疑是一切的起點。在Sora之前,業界最好的文生視頻產品Runway、Pika,都只能做到生成一段不到十秒的視頻,與其說它們生成的是視頻,還不如說是一段GIF。直到Sora實現了生成連貫的一分鐘視頻,且展現出在多角度多鏡頭切換中保持一致性,以及遵循現實世界物理規律的能力。

其實Sora采用的Diffusion Transformer架構是這一切的根源,OpenAI創造性地將訓練大模型的Transformer架構融入到了Diffusion擴散模型中,為圖像視頻等多模態數據找到了適合Transformer架構的訓練方式。在解決了從零到一的問題之後,如何將文生視頻模型商業化就變成了工程問題,也就有了即夢AI和可靈AI的青出於藍而勝於藍。

對於OpenAI而言,他們的使命是實現AGI,Sora至是秀肌肉的一個工具,而快手和字節跳動做文生視頻則是為核心業務短視頻服務。這也是Sora已經沒有了下文,而可靈AI、即夢AI後來者居上的重要原因之一。畢竟對於短視頻平台而言,文生視頻工具意義重大,事實上可靈AI和即夢AI的正面對決一如五年前的視頻編輯工具之爭。

此前在2019年夏季,抖音的剪映和快手的快影兩款視頻編輯應用同一時間迎來了爆發式增長,再算上一年後B站上線的必剪,三大以UGC內容起家的視頻平台,不約而同的搞起了視頻編輯產品。而視頻編輯工具之爭背後,則是從2019年開始隨著流量紅利的消失,視頻網站開始從UGC過渡到PUGC時代,這一時期抖音、快手、B站也紛紛搞起了對自己平台上創作者的培訓。

問題在於,給創作者辦培訓班固然有效,但平台的人手面對於海量的創作者群體無疑是捉襟見肘。互聯網廠商寶貴的人工資源顯然不是這樣用的,通過技術手段來解決問題才是他們的法寶。因此抖音、快手開始思考,如何通過技術手段提升用戶制作短視頻的效率和質量,從而讓更多的優質內容湧現。

amocity
amocity

  


現實也確實如抖音、快手,以及B站所想,剪映等視頻編輯工具通過提供模板、濾鏡、主題等模塊化工具,成功拉低了創作視頻內容的難度,讓更多人有了輸出內容的能力。參與創作的人多了,出現優質內容的概率自然也就更高。

只可惜,即便剪映、快影已經做到了比Adobe Premiere Pro、Vegas Pro等專業級視頻編輯軟件更傻瓜化,每一個功能都提供了視頻講解,但依然還存在一定的上手難度、距離零門檻尚有一段距離。隨著微信視頻號進入短視頻這個賽道,分蛋糕的廠商又多了一家,以至於抖音和快手吸引用戶停留的壓力變得更大了。

但AI大模型的出現,就給了抖音和快手實現“人人皆是創作者”的機會。畢竟文生視頻大模型的賣點,就是可以通過文字生成一段視頻,用戶不需要懂得任何視頻剪輯的知識和技巧,直接就能把文字腳本變成視頻。那麼這一特質最適合什麼樣的創作者呢?當然是還遺留在微信公眾號、知乎,以及各大新媒體平台的圖文創作者了。

amocity
amocity

  


沒錯,圖片創作者向視頻創作者轉型是一個從幾年前就出現的現象,可直到目前為止,微信公眾號、知乎,乃至小紅書上依然有大量的圖文創作者在堅守陣地。短視頻平台為了留住這批圖文創作者不惜開辟圖文專區,但短視頻和圖文終究是不同的。當年的剪映橫空出世,就已經讓有志於視頻創作的用戶加入到短視頻創作生態中,所以這一次AI工具面向的並不是他們。

有了可靈AI、即夢AI,圖文創作者就可以直接使用文字來生成想要的視頻內容,或者乾脆為文字生成一段符合情境的視頻。對於沒有接觸過視頻制作的內容創作者來說,可靈AI、即夢AI的效果遠比以往的文生視頻工具更加強大。比如,知乎方面就曾在2020年搞了一個圖文可快速生成視頻的工具,但由於效果差強人意,用戶根本不買賬。

以往的文生視頻工具都是借助自然語言識別(NLP)技術來進行斷句和配音,再利用語義圖片識別(OCR)技術來通過標簽進行智能配圖,以實現將平面的圖文轉化為更為立體的視頻。但這種視頻的效果和原生視頻可謂是天差地別,只能解決有無問題,卻做不到商業化。

經過過去數月的測試,可靈AI已經證明了它們生成的視頻和人類借助編輯工具創作的視頻,沒有拉開質的差距。既然,可靈AI、即夢AI已經具備商業化的水平,同時抖音、快手又需要更多的內容創作者來豐富內容生態,所以一如五年前打響的視頻編輯工具爭奪戰,現在的AI文生視頻工具之戰也拉開了帷幕。

amocity
amocity

  


延伸閱讀
撩世界