123,123,123

9月20日消息，在2024云棲大會上，極客公園創(chuàng)始人、總裁張鵬對話階躍星辰創(chuàng)始人、首席執(zhí)行官姜大昕，月之暗面Kimi創(chuàng)始人楊植麟，清華大學人工智能研究院副院長、生數(shù)科技首席科學家朱軍，三人對AGI發(fā)展現(xiàn)狀和未來展望進行了激烈討論和前瞻展望。

2024年，AI 發(fā)展變慢了嗎？過去18個月，AGI的發(fā)展是加速還是減速？如何評價OpenAI 最新發(fā)布的 O1 模型？強化學習將改變什么？大模型時代的創(chuàng)業(yè)新范式是什么？

姜大昕表示AI 技術發(fā)展加速， AI 發(fā)展正在經(jīng)歷關鍵的技術范式迭代： OpenAI 的大模型 o1 探索出了通過強化學習讓 AI 具備人類慢思考（可主動反思、糾錯的復雜思考）能力的方式，接下來提升強化學習模型的泛化能力和加速推進多模態(tài)理解生成一體化是 AI 技術進一步突破的關鍵。階躍星辰積極探索新的技術范式，已經(jīng)在萬億參數(shù)模型上實現(xiàn)了強化學習訓練的方法論。同時，持續(xù)打磨更高性能的底層大模型，提升C端產(chǎn)品體驗。據(jù)他透露，近期階躍星辰自研的 Step-2 萬億參數(shù) MoE 語言大模型已接入智能助手“躍問”，展現(xiàn)出更強大的指令跟隨、創(chuàng)作和推理能力。

談到AI產(chǎn)品未來的可能形態(tài)，楊植麟表示，以后的AI可能要思考或者調用各種工具，它可能執(zhí)行分鐘級別、小時級別甚至天級別的任務，所以產(chǎn)品形態(tài)上可能會更接近一個人，它更接近“助理”的概念，幫你完成異步的任務。這里面的產(chǎn)品形態(tài)設計可能也會發(fā)生很大的變化，想象空間蠻大。

談到未來18個可能發(fā)生的事情，朱軍表示，預想未來18個月可能比較令人興奮的一個進展，我希望看到AGI的L3已經(jīng)基本上實現(xiàn)。至少在智能體，比如我們說的世界模型的創(chuàng)建生成、虛實融合，至少在一些特定場景下的決策能力的巨大的提升。其實它會利用我們今天講到的推理、感知等等。

以下為對話實錄摘錄：

主持人：從ChatGPT的發(fā)展，引發(fā)了整個世界對于AGI這個事情的理解，發(fā)展到現(xiàn)在也18個月了。各位的感受是怎么樣的，過去18個月，AGI的發(fā)展是加速還是減速？

姜大昕：我覺得過去18個月速度還是在加速的，速度還是非?？斓?。因為當我們回顧過去18個月發(fā)生的大大小小的AI事件以后，可以從兩個維度去看，一個是數(shù)量的角度，一個是質量的角度。

從數(shù)量的角度來看，還是每個月都會有新的模型、新的產(chǎn)品、新的應用涌現(xiàn)出來。比如單從模型來看，OpenAI 2月份發(fā)了一個sora，我記得當時還是過年的時候，把大家轟炸了一下。然后5月份出了一個GPT-4o，上周又出了o1。OpenAI的老對手Anthropic它有Claude3到Claude3.5的系列，再加上谷歌Gemini系列、Claude系列、LLaMA的系列，等等。

所以，回顧過去，我們的感覺還是GPT-4是一家獨大，遙遙領先。到了今年就變成了一個好像是群雄并起，你追我趕的局面，所以感覺各家是在提速了。

從質量的角度來看，我覺得有三件事情可能給我的印象非常的深刻。

第一件事情，GPT-4O的發(fā)布。因為我看它，認為它是在多模融合這樣的一個領域上了一個新的臺階。在GPT4O之前，是有GPT4V，它是一個視覺的理解模型，有Dalle、Sora，這是視覺的生成模型。還有Whisper這是聲音模型。所以原本這些孤立的模型到了4O這里都融合在一起了。

那為什么融合這件事情非常的重要？是因為我們的物理世界本身就是一個多模的世界，所以多模融合一定是有助于更好的去為我們的物理世界建模，去模擬世界這樣一件事情。

第二件事情，特斯拉發(fā)布的FSD V12。大家知道它是一個端到端的大模型，它把感知信號變成一個控制序列。智駕是一個非常有代表性的，它是一個從數(shù)字世界走向物理世界一個真實的應用場景。所以，我覺得FSDV12它的成功，意義不僅在于智駕本身，這套方法論可以認為是為將來的智能設備如何和大模型相結合，更好的去探索物理世界指明了一個方向。

第三件事情，上周的O1，我對它的理解，它第一次證明了語言模型其實也可以有人腦的慢思考，就是系統(tǒng)2的能力。而我們覺得系統(tǒng)2的能力它是歸納世界所必備的一個前提條件，是一個基礎的能力。所以，我們一直認為，AGI的演進路線可以分為模擬世界、探索世界、最后歸納世界。而過去幾個月的時間我們看到GPT4O、FSD V12和O1分別在這三個階段或者這三個方向上都取得了非常大的突破，而且更重要的是為將來的發(fā)展也指明了一個方向。所以無論是從數(shù)量還是質量上來說，都是可圈可點。

楊植麟：我覺得整體也是屬于加速發(fā)展的階段，核心可以從兩個維度來看（AI的發(fā)展），第一個維度是縱向的維度，也就是說你的智商是一直在提升的，這個主要現(xiàn)在的反應方式還是你去看文本模型能做到多好。第二個是橫向的發(fā)展。除了文本模型之外，剛才姜總提到的，也會有各種不同的模態(tài)，這些模態(tài)會做一個橫向的發(fā)展，更多的讓你這個模型具備更多的技能，能夠去完成更多的任務，然后同時跟縱向的智商的發(fā)展相結合。

在這兩個維度上，我覺得都看到了非常大的進展，比如說在縱向的維度上，其實智商是一直在提升的，比如說我們如果去看競賽數(shù)學能力，去年是完全不及格，到今年已經(jīng)能做到90多分，像代碼基本上也是一樣，能夠擊敗很多專業(yè)的編程選手，包括因此也產(chǎn)生了很多新的應用機會，比如說像現(xiàn)在比較流行的類似curser這樣的，通過自然語言直接去寫代碼的這樣的軟件也越來越普及，這是技術發(fā)展的結果。包括我們去看很多具體的技術指標，現(xiàn)在的語言模型能支持的上下文的長度，我們如果去年這個時間點去看的話，大部分的模型都只能支持4K-8K的，但是從今天去看你會發(fā)現(xiàn)4K-8K已經(jīng)是非常低的數(shù)了，128K是一個標配，已經(jīng)有很多可以支持1M甚至10M的長文本的長度。所以，它這個其實也是后面你的智商不斷提升的一個很重要的基礎。

包括最近的很多進展，它不光只是說Scaling，Scaling還是會持續(xù)。而且很多進展也來自于你的后訓練算法的優(yōu)化，來自于你數(shù)據(jù)的優(yōu)化，這些優(yōu)化它的周期是會更短的。所以，這個周期更短導致你整體AI發(fā)展節(jié)奏也會進一步加快，包括我們最近在數(shù)學上看到的很多進展，其實也是得益于這些技術的發(fā)展。

橫向上當然也產(chǎn)生了很多新的突破，當然Sora可能是影響力最大的，在這里面完成了這個視頻生成。包括最近有特別多新的產(chǎn)品和技術出來，現(xiàn)在你已經(jīng)可以通過一個論文直接生成基本上你看不出來是真是假的雙人的對話。類似這樣的不同模態(tài)之間的轉化、交互和生成，其實會變的越來越成熟。所以，我覺得整體是在加速的過程中。

朱軍：AGI這里面大家最關注的還是大模型，剛才兩位也講了去年包括今年大模型也發(fā)生了很多重要的變化。整個的進展我是非常同意剛才講到的，在加快。

另外，我想補充一點，大家在解新的問題，這個速度也在加快了，我們說它的Leaning corve在變的更陡。原來如果你看語言模型，可能從2018年最早去做的，到去年以及到今年，大家走了五六年的路。但其實從去年開始，上半年大家還是關注語言模型，下半年在討論多模態(tài)，從多模態(tài)理解再到多模態(tài)生成。我們再回過頭看的話，比如說圖像或者視頻，其實視頻最明顯，從今年的2月份，當時很多人被震驚到了，因為它很多沒有公開，就說怎么去突破？有很多的討論。但事實上我們現(xiàn)在看到這個行業(yè)里面，大概用了半年的時間，已經(jīng)做到了可以去用，而且達到了一個很好的一些效果，在時空一致性上。所以大概走了半年的路。

所以這里面加速的一個最核心的原因，現(xiàn)在大家對這種路線的認知和準備上，達到了比較好的程度。當然我們還有物理的條件，比如說像云的設施，計算的資源的準備上，不像ChatGPT當時出來的時候，大家當時更多的是一種不知所措，我覺得很多人可能沒準備好去接受這個，所以中間去花了很長時間去學習、去掌握這個。當我們掌握了之后再發(fā)現(xiàn)這個進展的話，再去做新的問題，其實它的速度是越來越快的。

當然，這個可能不同的能力它再輻射到實際的用戶的角度來說，有一些快慢之分，當然也分行業(yè)。這個可能在廣泛的角度來說，大家可能沒感知到。但是從技術來說，其實這個進展我感覺是曲線越來越陡，而且可能對后邊我們要預測未來的話，包括向更高階的AGI發(fā)展，我是比較樂觀的，可能會看到比之前更快的速度去實現(xiàn)了。

主持人：最近OpenAI剛剛出的O1的新的模型，也是在專業(yè)人群里形成了非常多的影響，現(xiàn)在還在很豐富的討論。怎么評價O1進展的意義？

姜大昕：確實我看到一些非共識，有些人覺得意義很大，有些人覺得也不過如此。我覺得大家如果去試用O1的話，可能第一印象是它的推理能力確實非常驚艷，我們自己試了很多Query，覺得推理能力確實上了一個很大的臺階。

然后我們去思考它背后的意義究竟是什么，我能想到的有兩點：1.它第一次證明了Large language model，就是語言模型，它可以有人腦的慢思考的能力。它和以前GPT的范式，或者GPT的訓練，它叫，Predict next Token，它只要這樣訓練了，就注定了它只有system 1的能力。而O1是用了一個強化學習的訓練框架，所以帶來了系統(tǒng)2的能力。

系統(tǒng)1的體現(xiàn)，它是一個直線性思維，雖然我們看到GPT4有時候可以把一個復雜的問題拆解成很多步，然后分步去解決，但它還是直線性的。系統(tǒng)1和系統(tǒng)2最大的區(qū)別在于，系統(tǒng)2能夠去探索不同的路徑，它能夠自我去反思、自我去糾錯，然后不斷的試錯，直到找到一個正確的途徑，這是系統(tǒng)2的特點。這次O1，它是把以前的模仿學習和強化學習結合起來了，使得一個模型同時有了人腦系統(tǒng)1和系統(tǒng)2的能力。所以我覺得從這個角度來看，它的意義是非常大的。

第二，它帶來了一個Scaling Law的新方向，我理解O1試圖回答的一個問題，就是說RL（強化學習）究竟怎么去泛化。因為強化學習它不是第一個，DeepMind一直走的是強化學習的路線，從AlphaGo到AlphaFold到AlphaGeometry，其實它在強化學習上是非常厲害的。但以前強化學習的場景都是會為特定場景去設計，AlphaGo只能下圍棋，AlphaFold只能去預測蛋白質的結構。所以這次O1的出現(xiàn)，它是在RL強化學習通用性和泛化性上了一個大的臺階，而且它scale到了一個很大的規(guī)模，所以我把它看成scaling帶來新的技術范式，我們不妨稱之為RL Scaling。而且我們看到有意思的一點，O1并沒有到很成熟的階段，它還是一個開端，但是這個恰恰讓人覺得非常的興奮，這就等于OpenAI跟我們說，我找到了一條上限很高的道路，而且你仔細去思考它背后的方法，你會相信這條路實際上是能走得下去。所以O1從能力上來講，我覺得它展示了Language model可以有系統(tǒng)2的能力，從技術上來說它帶來新的scaling范式，所以它的意義還是非常大的。

朱軍：我的看法，它是代表著一個顯著的質變。我們也對AGI大概做了一些分級，學術界，包括產(chǎn)業(yè)界大家有L1-L5的分級。其實L1的話相當于聊天機器人，就是像ChatGPT等，之前大家做了很多對話的。L2叫推理者，實際上可以做復雜問題深度思考的推理。L3叫智能體，回應吳總講的“數(shù)字世界”走向“物理世界”，我要去改變的，我要去交互的。L4是創(chuàng)新者，它要去發(fā)現(xiàn)、創(chuàng)造一些新的東西，或者發(fā)現(xiàn)一些新的知識。L5是組織者，它可以去協(xié)同，或者某種組織方式更高效來運轉，這是大家對于AGI L1-L5的分級，當然每一級也有narrow和general的區(qū)分，在某些Task上展示出來。比如O1在L2的narrow場景下，在一些特定任務下已經(jīng)實現(xiàn)了人類達到很高階的智能水平。我覺得從分級角度來看，它確實代表著整個行業(yè)巨大的進步。
剛才技術上姜總也講了，它將過去強化學習或者其他一些技術，其實在研究里已經(jīng)做了很多東西，但實際上它在大規(guī)?；Ｐ蜕夏軌蜃龀鰜淼男Ч?，這還是從工程上，或者從實現(xiàn)上來說對行業(yè)很大的觸動。當然它也會錯發(fā)或者激發(fā)出來很多未來的探索，或者實際的研發(fā)，可能會走向從narrow到general的躍遷。剛才講到速度，我相信它會很快，因為大家已經(jīng)有很多準備了，我也期待這個領域里更多將L2做得更好，甚至更高階的能實現(xiàn)。

楊植麟：我覺得它的意義確實是很大，主要意義在于它提升了AI的上限。AI的上限是說，你現(xiàn)在去提升5%、10%的生產(chǎn)力，還是說10倍的GDP，我覺得這里最重要的問題就是你能不能通過強化學習進一步scaling，這是完全提升了AI上限的東西。我們如果看AI歷史上七八十年的發(fā)展，唯一有效的就是scaling，唯一有效的就是加更多的算力。但在O1提出之前，可能也有很多人在研究強化學習，但都沒有一個非常確切的答案，強化學習如果和大語言模型，或者和training processin這些東西整合在一起，它能否持續(xù)提升。比如GPT4這一代模型的提升，更多是確定性的提升，我在一樣范式下把規(guī)模變得更大，它肯定是確定性的提升。但是我覺得O1的提升并不是一個完全確定性的，這樣的提升。

所以在之前大家可能會擔心現(xiàn)在互聯(lián)網(wǎng)上大部分優(yōu)質數(shù)據(jù)都已經(jīng)被使用完了，然后你可能繼續(xù)使用這個數(shù)據(jù)也沒有更多數(shù)據(jù)可以挖掘，所以你原來的范式可能會遇到問題。但AI有效了，你又需要進一步scaling，那你這個scaling從哪里來，我覺得很大程度上解決了這個問題，或者說至少證明了它初步可行。初步可行的情況下，可能我們會有越來越多人投入去做這個事情，最終你要做到10倍GDP的最終效果，它完全有可能，我覺得是一個很重要的開端。

我覺得對很多產(chǎn)業(yè)格局上，或者對于創(chuàng)業(yè)公司新機會來說也會發(fā)生一些變化。比如我覺得這里很關鍵的一個點，你的訓練和推理算力占比是會發(fā)生很大的變化，這個變化我不是說訓練的算力會下降，訓練的算力還會持續(xù)提升。與此同時，推理的算力提升會更快，那這個比例的變化本質上會產(chǎn)生很多新的機會，可能這里很多新的創(chuàng)業(yè)公司的機會。一方面，如果你達到一定的算力門檻，它可以在這里做很多算法的基礎創(chuàng)新，那你可以在基礎的模型上甚至取得突破，所以我覺得這個很重要。

對于算力相對小一點的公司，它也可以通過后訓練的方式，在一些領域上做到一些效果，這里也會產(chǎn)生更多的產(chǎn)品和技術機會，所以我覺得整體也是打開了創(chuàng)業(yè)相關的想象空間。

主持人：這一波AI新的變化，接下來會對AI相關的產(chǎn)品帶來什么樣的連鎖反應，這個變化如何發(fā)生？

楊植麟：這是很好的問題，我們現(xiàn)在還是處于產(chǎn)業(yè)發(fā)展的早期。產(chǎn)業(yè)發(fā)展的早期有一個特點，還是技術驅動產(chǎn)品會更多，所以很多時候你的產(chǎn)品會去看當前的技術是怎么發(fā)展，然后把它最大化的價值提取出來，所以這個問題首先非常好，可能我們根據(jù)這個新的技術進展，再返過來推一下現(xiàn)在產(chǎn)品應該做什么變化。

現(xiàn)在的技術發(fā)展有幾個點：

一個，我覺得這里面會有很多探索新的PMF（product market fit）的機會。我覺得PMF指的是兩個東西的平衡：一方面是由于你需要做這種系統(tǒng)2的思考，導致你的延時增加。對用戶來說，延時增加是一個負向的體驗，因為所有用戶都希望我盡快能拿到結果；第二個點，它確實能提供更好的輸出，能拿到更好的結果，甚至能完成一些跟更復雜的任務。等于說新的PMF產(chǎn)生的過程或者探索的過程，其實是要在在延時增長的用戶體驗下降和最后結果產(chǎn)生質量更高的用戶價值的上升之間找到一個平衡點。所以你要讓這個增量的價值是大于體驗的損失，我覺得這個很重要。所以在這里面更高價值的場景，特別是生產(chǎn)力的場景，我覺得會率先有一些東西出來。因為如果你是一個娛樂場景，大概率你可能很難忍受這種延時上的增加。所以，我覺得這是比較重要的一點

產(chǎn)品形態(tài)上，我覺得也會發(fā)生一些變化。因為你引入這種思考的范式，所以現(xiàn)在同步及時的類似聊天的產(chǎn)品形態(tài)一定會發(fā)生變化。因為以后的AI，可能它不光是現(xiàn)在思考個20秒、40秒，它已經(jīng)可能要思考或者調用各種工具，它可能執(zhí)行分鐘級別、小時級別甚至天級別的任務，所以你的產(chǎn)品形態(tài)上可能會更接近一個人，它更接近“助理”的概念，幫你完成異步的任務。這里面的產(chǎn)品形態(tài)設計，我覺得可能也會發(fā)生很大的變化。所以這里面，我覺得新的想象空間蠻大的。

朱軍：我覺得大模型或者大規(guī)模預訓練的技術代表著整個范式的變化，前面也聊到很多，不光是語言，到多模態(tài)，到具身、空間智能，中間還是想我怎么去讓智能體能夠有交互，能夠在這個過程中來學習。從智能的角度來看，包括從AGI發(fā)展上，它是一個必然，因為決策、交互實際上是我們說的智能里面非常核心的能力的體現(xiàn)。我們每時每刻其實都在做決策，我們面對的是一個未知的開放環(huán)境，所以對于智能來說，它的發(fā)展路徑上，在整個規(guī)劃里面大家也是朝著這個方向走。

現(xiàn)在所有這些進展，包括剛剛討論很多的O1，包括做視頻生成，或者3D，這些東西大家最后要指向的有兩個方向：

一個是給消費者看到的這些數(shù)字內容，就是說看上去很好看、很自然，能夠講故事，能夠讓大家參與講故事、能夠交互。這肯定是一個很重要的方向，在數(shù)字內容上。

另外一個方向，指向實體、指向物理世界。

現(xiàn)在可能最好的一個結合點就是和機器人來結合在一起。其實現(xiàn)在已經(jīng)有好多例子在展示出來，我們也看到很好的一些進展，比如用了預訓練的范式，如何讓機器人的能力具有通用性；比如我們自己實驗室做多的例子，像四足機器人，過去大家在不同場地上，你要讓它跑起來都需要用很多的人工調參。但現(xiàn)在你在一個仿真環(huán)境里面，或者用一些AI的方式來生成一些合成數(shù)據(jù)，讓它在里面大規(guī)模地訓練，訓練出來的策略可以灌到機器人上，它相當于換了一副大腦，可以讓它的四肢更好地協(xié)同起來，同樣一套策略可以做各種場地的適應。其實這還是一個初步的例子，現(xiàn)在大家也在關注更復雜的控制決策，就像空間智能、具身智能。

就像剛才講到智能體是AGI的L3，所以現(xiàn)在用到L1、L2的進展之后，后面肯定會提升到L3，讓機器人更好地做它的推理規(guī)劃，然后更好更高效地和環(huán)境做交互，更好地完成我們的復雜任務。因為現(xiàn)在很多時候任務相對來說分散，給它定義成一個簡化的。未來，我們很快可以看到它可以接受復雜的指令、完成復雜的任務，通過它內嵌的思維鏈或者過程的學習方式，能夠完成復雜任務。所以到那個時候，智能的能力又有一個很巨大的提升。

主持人：雖然意料未來都很難，至少心里會有一個期待，比如在下一個18個月里，我們希望看到什么樣的進展，在AGI的領域里？

朱軍：因為現(xiàn)在整個是一個加速，其實很多時候我們預測通常會過于保守。如果回到你的問題，我預想未來18個月可能比較令人興奮的一個進展，我希望看到AGI的L3已經(jīng)基本上實現(xiàn)。至少在智能體，比如我們說的世界模型的創(chuàng)建生成、虛實融合，至少在一些特定場景下的決策能力的巨大的提升。其實它會利用我們今天講到的推理、感知等等。

因為我前一段時間領了一個任務，就是對L4做專門的分析，就是到底我們缺什么？做了L4的。其實最后調研或者是分析下來，你會發(fā)現(xiàn)如果我們要做科學發(fā)現(xiàn)或者做創(chuàng)新，它需要的那些能力，可能目前是散落在各個角落里面，當然現(xiàn)在可能還缺一個系統(tǒng)怎么把這些東西集成在一起，給它做work。所以我覺得如果更激進一點，我甚至覺得未來18個月可能在L4上也會有顯著的進展。當然這里面我講的是嚴肅的科學發(fā)現(xiàn)，其實L4還有一些創(chuàng)意的表達上，目前我們在某種意義上已經(jīng)達到了，比如說藝術創(chuàng)造、圖生視頻，一定程度上它已經(jīng)幫大家放大你的想象，或者讓你的想象可以具象化。所以，我對整個于是還是比較樂觀的，我覺得至少L3或者未來L4有一些苗子了。

到今年年底，希望將我們本來做的視頻模型能夠以更加高效、更可控的方式提供給大家。

我解釋一下高效和可控?？煽?，比如你想表達一個故事，不是簡單地將一段話或者一個圖片給它動起來，我們是希望你可以連續(xù)地講，而且它不光是人的一致性，還包括物體等各種主題的一致性，還包括交互性；高效，它一方面解決對算力成本的考量，因為你如果想要服務很多人，讓大家用的話，首先你成本要降下來，不然這個本身就是燒錢，一直賠錢。另外一個更重要的，還是從體驗上。就使用者來說，因為他想表達自己的創(chuàng)意，他可能需要多次和系統(tǒng)來交互，一方面是驗證，另外一方面是啟發(fā)，所以這個過程也需要你的模型系統(tǒng)能夠比較高效，比如說終極目標達到實時，能夠讓大家快速嘗試。等到這個階段，我相信大家的用戶體驗，包括用戶量都會有一個巨大的提升，這是我們今年想重點突破的。當然長遠的話，可能明年18個月會走向實體的虛實融合的場景了。

楊植鱗：我覺得接下來最重要的，可能是開放性的強化學習，比如說你在產(chǎn)品上跟用戶交互，在一個真實的環(huán)境里面完成任務，然后自己去進化。當然，我覺得O1一定程度上說明這個方向有比之前更強的確定性，我覺得這個會是一個重要的里程碑，也是AGI路上現(xiàn)在僅甚唯一的一個重要問題了。所以，我覺得這個會很關鍵。

張鵬：對，18個月已經(jīng)是很長了，如果看看看過去18個月走的路。你未來3個月，有什么可以透露的嗎？

楊植鱗：我們還是希望能夠在產(chǎn)品和技術上持續(xù)地創(chuàng)新，至少可能在一兩個重要領域能夠做到世界最好，但是有新的進展會盡快跟大家分享。

姜大昕：第一，我也很期待強化學習能夠進一步泛化。另外一個方向其實我也很期待，應該說期待了很久就是在視覺領域的理解和生成一體化的事情。因為在文字領域，GPT已經(jīng)做到了理解生成一體化，但遺憾的是在視覺領域，這個問題當然不是遺憾，它非常難。所以在目前為止，我們看到的視覺的理解和生成，這兩個模型是分開的。即使像剛才說的多模融合，如果大家仔細看GPT4，它其他模態(tài)都解決了，它唯獨不能生成視頻，所以這是一個懸而未決的事情。

它為什么很重要呢？如果我們解決了視頻理解生成一體化，我們就可以徹底建立一個多模的世界模型，有一個多模的世界模型以后，可以幫助我們真正產(chǎn)生非常長的視頻，也就是說解決Sora（音譯）目前的技術缺陷。還有一個，它可以和具身智能相結合，它可以作為機器人的大腦去幫助智能體更好地探索物理世界，所以我也是非常期待的。

張鵬：你未來年底之前，有什么我們值得期待的你的進展？

姜大昕：我也是期待一方面模型和技術的進步，另外一方面產(chǎn)品能帶給用戶更多更好的體驗，其實階躍有一款產(chǎn)品叫“躍問”，在上面，用戶可以體驗我們最新的萬億參數(shù)的模型，它不光是理科很強，而且它的文學創(chuàng)作能力也很強，經(jīng)常給大家?guī)硪恍@喜。同時，躍問上還有一個新的功能叫“拍照問”，我們看到用戶經(jīng)常拍張照片去問食物的卡路里，去問寵物的心情，問一個文物的前世今生，包括Mata眼鏡的發(fā)布，還有Apple Intelligence，它今年都突出了視覺交互的功能。所以我們在躍問上也有體現(xiàn)，而且我們會努力一步步把這個功能做得越來越好。

（免責聲明：本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內容或斷開相關鏈接。）