2月17日消息,近日,OpenAI 發(fā)布了 Sora 模型,該模型可根據(jù)用戶輸入的文本提示詞描述,生成一段60秒鐘的視頻內(nèi)容。從OpenAI公開的演示視頻來看效果非常超現(xiàn)實(shí)。
昨日,360董事長周鴻祎在微博發(fā)文,談到OpenAI的文字轉(zhuǎn)視頻模型Sora。他認(rèn)為:Sora意味著 AGI實(shí)現(xiàn)將從 10年縮短到1年。
周鴻祎表示,AI不一定那么快顛覆所有行業(yè),但它能激發(fā)更多人的創(chuàng)作力。今天 Sora 可能給廣告業(yè)、電影預(yù)告片、短視頻行業(yè)帶來巨大的顛覆,但它不一定那么快擊敗 TikTok,更可能成為 TikTok的創(chuàng)作工具。
同時(shí),周鴻祎還談到中美AI差距,他認(rèn)為:OpenAl手里應(yīng)該還藏著一些秘密武器,無論是 GPT-5,還是機(jī)器自我學(xué)習(xí)自動(dòng)產(chǎn)生內(nèi)容,包括 AIGC。他們手里的武器并沒有全拿出來。這樣看來中國跟美國的 AI 差距可能還在加大。
以下為周鴻祎發(fā)文全文:
Sora意味著 AGI實(shí)現(xiàn)將從10年縮短到1年
年前我在風(fēng)馬牛演講上分享了大模型十大趨勢(shì)預(yù)測(cè),沒想到年還沒過完,就驗(yàn)證了好幾個(gè)從 Gemini、英偉達(dá)的 Chat With RTX到 OpenA!發(fā)布 Sora,大家都覺得很炸裂。朋友問我怎么看 Sora,我談幾個(gè)觀點(diǎn),總體來說就是我認(rèn)為AGI很快會(huì)實(shí)現(xiàn),就這幾年的事兒了:
第一,科技競爭最終比拼的是讓人才密度和深厚積累。很多人說 Sora的效果吊打 Pika和Runway。這很正常,和創(chuàng)業(yè)者團(tuán)隊(duì)比OpenAl 這種有核心技術(shù)的公司實(shí)力還是非常強(qiáng)勁的。有人認(rèn)為有了 AI以后創(chuàng)業(yè)公司只需要做個(gè)體戶就行,實(shí)際今天再次證明這種想法是非常可笑的。
第二,AI不一定那么快顛覆所有行業(yè),但它能激發(fā)更多人的創(chuàng)作力。今天很多人談到 Sora 對(duì)影視工業(yè)的打擊,我倒不覺得是這樣,因?yàn)闄C(jī)器能生產(chǎn)一個(gè)好視頻,但視頻的主題、腳本和分鏡頭策劃、臺(tái)詞的配合,都需要人的創(chuàng)意至少需要人給提示詞。一個(gè)視頻或者電影是由無數(shù)個(gè) 60 秒組成的。今天 Sora 可能給廣告業(yè)、電影預(yù)告片、短視頻行業(yè)帶來巨大的顛覆,但它不一定那么快擊敗 TikTok,更可能成為 TikTok的創(chuàng)作工具。
第三,我一直說國內(nèi)大模型發(fā)展水平表面看已經(jīng)接近 GPT-3.5 了,但實(shí)際上跟 4.0 比還有一年半的差距。而且我相信 OpenAl手里應(yīng)該還藏著一些秘密武器,無論是 GPT-5,還是機(jī)器自我學(xué)習(xí)自動(dòng)產(chǎn)生內(nèi)容,包括 AIGC。奧特曼是個(gè)營銷大師,知道怎樣掌握節(jié)奏,他們手里的武器并沒有全拿出來。這樣看來中國跟美國的 AI 差距可能還在加大。
第四,大語言模型最牛的是,它不是填空機(jī),而是能完整地理解這個(gè)世界的知識(shí)。這次很多人從技術(shù)上、從產(chǎn)品體驗(yàn)上分析Sora,強(qiáng)調(diào)它能輸出 60 秒視頻,保持多鏡頭的一致性,模擬自然世界和物理規(guī)律,實(shí)際這些都比較表象,最重要的是 Sora 的技術(shù)思路完全不一樣。因?yàn)檫@之前我們做視頻做圖用的都是 Diffusion,你可以把視頻看成是多個(gè)真實(shí)圖片的組合,它并沒有真正掌握這個(gè)世界的知識(shí)?,F(xiàn)在所有的文生圖、文生視頻都是在 2D 平面上對(duì)圖形元素進(jìn)行操作,并沒有適用物理定律。但 Sora 產(chǎn)生的視頻里,它能像人一樣理解坦克是有巨大沖擊力的,坦克能撞毀汽車,而不會(huì)出現(xiàn)汽車撞毀坦克這樣的情況。所以我理解這次 OpenAl 利用它的大語言模型優(yōu)勢(shì),把LLM 和 Diffusion 結(jié)合起來訓(xùn)練,讓 Sora 實(shí)現(xiàn)了對(duì)現(xiàn)實(shí)世界的理解和對(duì)世界的模擬兩層能力,這樣產(chǎn)生的視頻才是真實(shí)的,才能跳出 2D 的范圍模擬真實(shí)的物理世界。這都是大模型的功勞。這也代表未來的方向。有強(qiáng)勁的大模型做底子,基于對(duì)人類語言的理解,對(duì)人類知識(shí)和世界模型的了解,再疊加很多其他的技術(shù),就可以創(chuàng)造各個(gè)領(lǐng)域的超級(jí)工具,比如生物醫(yī)學(xué)蛋白質(zhì)和基因研究,包括物理、化學(xué)、數(shù)學(xué)的學(xué)科研究上,大模型都會(huì)發(fā)揮作用。這次 Sora對(duì)物理世界的模擬,至少將會(huì)對(duì)機(jī)器人具身智能和自動(dòng)駕駛帶來巨大的影響。原來的自動(dòng)駕駛技術(shù)過度強(qiáng)調(diào)感知層面,而沒有工作在認(rèn)知層面。其實(shí)人在駕駛汽車的時(shí)候,很多判斷是基于對(duì)這個(gè)世界的理解。比如對(duì)方的速度怎么樣,能否發(fā)生碰撞,碰撞嚴(yán)重性如何,如果沒有對(duì)世界的理解就很難做出一個(gè)真正的無人駕駛。
所以這次 Sora 只是小試牛刀,它展現(xiàn)的不僅僅是一個(gè)視頻制作的能力,它展現(xiàn)的是大模型對(duì)真實(shí)世界有了理解和模擬之后,會(huì)帶來新的成果和突破。
第五,Open Al訓(xùn)練這個(gè)模型應(yīng)該會(huì)閱讀大量視頻。大模型加上 Diffusion 技術(shù)需要對(duì)這個(gè)世界進(jìn)行進(jìn)一步了解,學(xué)習(xí)樣本就會(huì)以視頻和攝像頭捕捉到的畫面為主。一旦人工智能接上攝像頭,把所有的電影都看一遍,把YouTube 上和 TikTok 的視頻都看一遍,對(duì)世界的理解將遠(yuǎn)遠(yuǎn)超過文字學(xué)習(xí),一幅圖勝過千言萬語,而視頻傳遞的信息量又遠(yuǎn)遠(yuǎn)超過一幅圖,這就離AGI真的就不遠(yuǎn)了,不是10年20年的問題,可能一兩年很快就可以實(shí)現(xiàn)。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )