每日經(jīng)濟(jì)新聞 2024-02-16 13:22:51
每經(jīng)編輯 何小桃 畢陸名
2月16日凌晨,OpenAI再次扔出一枚深水炸彈,發(fā)布了首個(gè)文生視頻模型Sora。據(jù)介紹,Sora可以直接輸出長(zhǎng)達(dá)60秒的視頻,并且包含高度細(xì)致的背景、復(fù)雜的多角度鏡頭,以及富有情感的多個(gè)角色。
目前官網(wǎng)上已經(jīng)更新了48個(gè)視頻demo,在這些demo中,Sora不僅能準(zhǔn)確呈現(xiàn)細(xì)節(jié),還能理解物體在物理世界中的存在,并生成具有豐富情感的角色。該模型還可以根據(jù)提示、靜止圖像甚至填補(bǔ)現(xiàn)有視頻中的缺失幀來(lái)生成視頻。
例如一個(gè)Prompt(大語(yǔ)言模型中的提示詞)的描述是:在東京街頭,一位時(shí)髦的女士穿梭在充滿(mǎn)溫暖霓虹燈光和動(dòng)感城市標(biāo)志的街道上。
在Sora生成的視頻里,女士身著黑色皮衣、紅色裙子在霓虹街頭行走,不僅主體連貫穩(wěn)定,還有多鏡頭,包括從大街景慢慢切入到對(duì)女士的臉部表情的特寫(xiě),以及潮濕的街道地面反射霓虹燈的光影效果。
電影預(yù)告片講述了30歲宇航員戴著紅色羊毛針織摩托車(chē)頭盔的冒險(xiǎn)經(jīng)歷,藍(lán)天、鹽漠,電影風(fēng)格,35毫米膠片拍攝,色彩鮮艷。
AI想象中的龍年春節(jié),紅旗招展人山人海。有緊跟舞龍隊(duì)伍抬頭好奇觀望的兒童,還有不少人掏出手機(jī)邊跟邊拍,海量人物角色各有各的行為。
豎屏超近景視角下,這只蜥蜴細(xì)節(jié)拉滿(mǎn):
網(wǎng)友直呼game over,工作要丟了:
甚至有人已經(jīng)開(kāi)始“悼念”一整個(gè)行業(yè):
還有網(wǎng)友表示,電影業(yè)要徹底顛覆了。
一位YouTube博主Paddy Galloway發(fā)表了對(duì)Sora的感想,他表示內(nèi)容創(chuàng)作行業(yè)已經(jīng)永遠(yuǎn)的改變了,并且毫不夸張。“我進(jìn)入YouTube世界已經(jīng)15年時(shí)間,但OpenAI剛剛的展示讓我無(wú)言…動(dòng)畫(huà)師/3D藝術(shù)家們有麻煩了,素材網(wǎng)站將變得無(wú)關(guān)緊要,任何人都可以無(wú)壁壘獲得難以置信的產(chǎn)品,內(nèi)容背后的‘想法’和故事將變得更加重要。”
對(duì)于Sora當(dāng)前存在的弱點(diǎn),OpenAI也不避諱,指出它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理,并且可能無(wú)法理解因果關(guān)系。
例如“五只灰狼幼崽在一條偏僻的碎石路上互相嬉戲、追逐”,狼的數(shù)量會(huì)變化,一些憑空出現(xiàn)或消失。
該模型還可能混淆提示的空間細(xì)節(jié),例如混淆左右,并且可能難以精確描述隨著時(shí)間推移發(fā)生的事件,例如遵循特定的相機(jī)軌跡。
如提示詞“籃球穿過(guò)籃筐然后爆炸”中,籃球沒(méi)有正確被籃筐阻擋。
OpenAI表示,他們正在教AI理解和模擬運(yùn)動(dòng)中的物理世界,目標(biāo)是訓(xùn)練模型來(lái)幫助人們解決需要現(xiàn)實(shí)世界交互的問(wèn)題。
隨后OpenAI解釋了Sora的工作原理,Sora是一個(gè)擴(kuò)散模型,它從類(lèi)似于靜態(tài)噪聲的視頻開(kāi)始,通過(guò)多個(gè)步驟逐漸去除噪聲,視頻也從最初的隨機(jī)像素轉(zhuǎn)化為清晰的圖像場(chǎng)景。Sora使用了Transformer架構(gòu),有極強(qiáng)的擴(kuò)展性。
視頻和圖像是被稱(chēng)為“補(bǔ)丁”的較小數(shù)據(jù)單位集合,每個(gè)“補(bǔ)丁”都類(lèi)似于GPT中的一個(gè)標(biāo)記(Token),通過(guò)統(tǒng)一的數(shù)據(jù)表達(dá)方式,可以在更廣泛的視覺(jué)數(shù)據(jù)上訓(xùn)練和擴(kuò)散變化,包括不同的時(shí)間、分辨率和縱橫比。
Sora是基于過(guò)去對(duì)DALL·E和GPT的研究基礎(chǔ)構(gòu)建,利用DALL·E 3的重述提示詞技術(shù),為視覺(jué)模型訓(xùn)練數(shù)據(jù)生成高描述性的標(biāo)注,因此模型能更好的遵循文本指令。
如今,Sora正面向部分成員開(kāi)放,以評(píng)估關(guān)鍵領(lǐng)域的潛在危害或風(fēng)險(xiǎn)。同時(shí),OpenAI也邀請(qǐng)了一批視覺(jué)藝術(shù)家、設(shè)計(jì)師和電影制作人加入,期望獲得寶貴反饋,以推動(dòng)模型進(jìn)步,更好地助力創(chuàng)意工作者。OpenAI提前分享研究進(jìn)展,旨在與OpenAI以外的人士合作并獲取反饋,讓公眾了解即將到來(lái)的AI技術(shù)新篇章。
編輯|何小桃 畢陸名 蓋源源
校對(duì)|劉思琦
每日經(jīng)濟(jì)新聞綜合界面新聞、量子位、OpenAI官網(wǎng)等
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP