想站穩(wěn)腳跟,不能走捷徑。
在大模型“撞墻論”不絕于耳的當(dāng)下,行業(yè)比任何時(shí)候都更為迫切地渴求探索、渴求創(chuàng)新。
步入2025年這短短一個(gè)月之內(nèi),全球大模型玩家仿佛集體“沖業(yè)績”,OpenAI、谷歌、DeepSeek等玩家密集發(fā)布了一系列新品。
而縱觀整個(gè)大模型行業(yè),幾乎是有史以來的第一次,大模型行業(yè)內(nèi)部出現(xiàn)了大規(guī)模分歧與非共識:
1.應(yīng)用 vs技術(shù)——基礎(chǔ)模型的更新是否已經(jīng)基本停滯?行業(yè)創(chuàng)新的重點(diǎn)轉(zhuǎn)移到應(yīng)用?
2.價(jià)格戰(zhàn) vs價(jià)值戰(zhàn)——“價(jià)格戰(zhàn)”打不打?怎么打?創(chuàng)業(yè)公司打得過嗎?
3.單模態(tài) vs多模態(tài)——對于AGI來說,多模態(tài)究竟有多重要?
在這十字路口前,每家大模型企業(yè),都自愿或是被迫地,選擇了自己的站位。
例如,OpenAI的GPT-o1試圖用強(qiáng)化學(xué)習(xí)為Scaling Law“續(xù)命”,谷歌Titans開始探索全新的模型記憶力架構(gòu);但同時(shí)也有更多玩家開始將注意力轉(zhuǎn)至應(yīng)用優(yōu)化、功能更新、用戶留存上。
作為國內(nèi)“大模型六小龍”之一,MiniMax此前一直以產(chǎn)品力強(qiáng)而聞名業(yè)內(nèi),在這個(gè)時(shí)間點(diǎn)也通過開源和一系列更新表達(dá)了自己的態(tài)度。
2025年1月以來,MiniMax在十天內(nèi)連發(fā)四個(gè)AI模型,包括基礎(chǔ)語言大模型MiniMax-Text-01和視覺多模態(tài)大模型MiniMax-VL-01,以及視頻模型S2V-01、語音模型T2A-01。而兩個(gè)MiniMax-01系列模型,更是公司有史以來首度開源。
創(chuàng)始人在近期的媒體訪談中也直接表示,“如果重新選,第一天就應(yīng)該開源”。一家商業(yè)公司從開源走向閉源是常見的,從大家調(diào)侃“OpenAI變CloseAI”可見一斑,但從閉源走向開源卻不多。
從MiniMax這一系列更新可以看出來,這家公司正試圖通過開源、創(chuàng)新、技術(shù)驅(qū)動的路徑,扭轉(zhuǎn)市場對其的“只有產(chǎn)品強(qiáng)”的印象。創(chuàng)始人表示,“技術(shù)品牌之所以重要,本質(zhì)也是因?yàn)檫@個(gè)行業(yè)最大的驅(qū)動力是技術(shù)進(jìn)化”。
同時(shí),面對當(dāng)前大模型行業(yè)的三大“非共識”,MiniMax也試圖通過這一系列模型更新,給出自己的答案。
卷應(yīng)用vs 卷技術(shù)
行業(yè)再次來到“Transformer時(shí)刻”
從去年以來,大模型行業(yè)內(nèi)部一個(gè)顯著的趨勢是——底層技術(shù)突破開始變慢。
OpenAI的GPT-5屢屢跳票,時(shí)至今日仍不見蹤影。AI三大要素算力、算法、數(shù)據(jù)均出現(xiàn)了不同程度的發(fā)展停滯,2024年的模型能力似乎停止增長。
與之相對應(yīng)的,是大模型應(yīng)用“投流大戰(zhàn)”的爆發(fā)。
根據(jù)AppGrowing數(shù)據(jù),自從月之暗面(Kimi)打響國內(nèi)大模型“投流大戰(zhàn)”以來,國內(nèi)前十款大模型產(chǎn)品合計(jì)投放廣告超過625萬條,按市場價(jià)折算,金額達(dá)到了15億元人民幣。
以至于坊間戲稱:“大模型行業(yè)里唯一賺到錢的是B站、抖音、小紅書”;“共享單車補(bǔ)貼戰(zhàn)好歹普惠用戶,現(xiàn)在賺錢的只有廣告平臺?!?/p>
落到應(yīng)用層面,不少企業(yè)選擇了專攻APP產(chǎn)品、定制合作項(xiàng)目、為政企定制小模型等方案;而在模型技術(shù)層面,無論是國內(nèi)還是海外,其大部分都統(tǒng)一選擇了較為安全的“對標(biāo)GPT”方案,在技術(shù)路徑上全面跟隨OpenAI——而當(dāng)OpenAI疑似“撞墻”后,整個(gè)行業(yè)看上去都放慢了腳步。
1月15日,MiniMax發(fā)布并開源了最新一代MiniMax-01系列模型,包含基礎(chǔ)語言大模型MiniMax-Text-01和視覺多模態(tài)大模型MiniMax-VL-01。
與之同步公開的一份68頁技術(shù)論文《MiniMax-01:Scaling Foundation Models with Lightning Attention》,更是幾乎在整個(gè)AI技術(shù)圈都引起討論。
硅谷科技媒體VentureBeat及AI科技學(xué)者、投資人與創(chuàng)作者評價(jià)MiniMax-01系列模型的架構(gòu)創(chuàng)新及長文本能力
從參數(shù)上來看,MiniMax-01總參數(shù)規(guī)模達(dá)到4560億,其綜合性能在多個(gè)主流評測集上與GPT-4o、Claude-3.5-Sonnet等SOTA(State-of-the-Art,業(yè)內(nèi)頂尖)模型持平,支持400萬token的輸入,可輸入長度是GPT-4o的32倍、Claude-3.5-Sonnet的20倍。
在測評集LongBench V2的最新結(jié)果中,MiniMax-Text-01綜合評分僅次于OpenAI的o1-preview和人類,位列第三。
Long Bench V2排行榜,LongBench V2是面向現(xiàn)實(shí)情景進(jìn)行長上下文多任務(wù)深入理解和推理的測試集
如果只是模型性能很強(qiáng),MiniMax-01并不會在AI研究人員中引發(fā)如此廣泛的關(guān)注。
引人注目的點(diǎn)在于,MiniMax第一次在一個(gè)4560億參數(shù)的超大規(guī)模商用模型上,引入了有別于傳統(tǒng)Transformer架構(gòu)的線性注意力(Linear Attention)機(jī)制,以極低的算力成本,試圖為困擾著整個(gè)大模型行業(yè)的難題提供一個(gè)新的解題思路。
MiniMax-01針對大模型最底層、最核心的Transformer架構(gòu)進(jìn)行了重構(gòu),在傳統(tǒng)方案(下圖上半部分)的基礎(chǔ)上,引入了Linear Attention線性注意力,相當(dāng)于從“分子”層面對物質(zhì)進(jìn)行改變。
這也是為什么,這次MiniMax-01的開源會在AI研究圈引起如此大的關(guān)注。
MiniM ax-01核心 架構(gòu)示意圖
線性注意力技術(shù)并不是MiniMax第一個(gè)提出的,正如大語言模型技術(shù)并不是OpenAI第一個(gè)提出的,但它們卻是第一個(gè)大膽、堅(jiān)定地對其進(jìn)行大規(guī)模應(yīng)用,并圍繞其進(jìn)行了從算法到框架的全面創(chuàng)新,最終取得顛覆式成功的玩家。
正是這種針對最底層技術(shù)的創(chuàng)新,使得MiniMax-01能夠以GPT-4o十分之一的算力成本,達(dá)到比肩業(yè)內(nèi)SOTA的性能,以及國際第一的400萬token超長上下文。
在技術(shù)論文的最后,MiniMax的研究人員表示,MiniMax-01仍有八分之一的部分沿用了傳統(tǒng)Transformer技術(shù)思路。當(dāng)前,他們正在研究一套更高效的全新架構(gòu),最終完全去掉傳統(tǒng)方案,從而實(shí)現(xiàn)無限制上下文窗口。
這也就意味著,如果MiniMax成功了,大模型將從此不再受限于輸入長度,人類離AGI(通用人工智能)前進(jìn)了一大步。
正如當(dāng)年BERT橫空出世,大模型產(chǎn)業(yè)迎來“Transformer時(shí)刻”一樣;從某種程度上來說,我們也許正在見證“第二個(gè)Transformer時(shí)刻”。
價(jià)格戰(zhàn)vs 價(jià)值戰(zhàn)
算力成本居高不下,“人人都在為英偉達(dá)打工”
如果要回顧2024年大模型行業(yè)發(fā)展,有一個(gè)關(guān)鍵詞絕對不容錯過——“價(jià)格戰(zhàn)”。
這一領(lǐng)域的戰(zhàn)場主要集中在B端,更精確來說,是為to B用戶提供大模型API服務(wù)并按量計(jì)價(jià)的大模型供應(yīng)商們。
2024年5月初,國內(nèi)初創(chuàng)企業(yè)DeepSeek(深度求索)在發(fā)布最新模型DeepSeek-V2的同時(shí),突然大幅調(diào)低了API價(jià)格,其每百萬token輸入價(jià)格低至1元,接近于當(dāng)時(shí)GPT-4 Turbo價(jià)格的百分之一。此后,字節(jié)跳動、百度、阿里、騰訊、智譜AI、科大訊飛等行業(yè)玩家全面跟進(jìn),一場轟轟烈烈的大模型價(jià)格戰(zhàn)就此打響。
與之相對應(yīng)的,卻是居高不下的算力價(jià)格。
自ChatGPT于2022年底火爆以來,本已接近供不應(yīng)求的英偉達(dá)GPU芯片,在全球AI大模型爆火的背景下,價(jià)格也進(jìn)一步飆升,帶動著英偉達(dá)公司市值一路突破3萬億美元,超越蘋果,成為僅次于微軟的全球第二大市值企業(yè)。
GPU不僅價(jià)格高昂,并且有價(jià)無市,2023年甚至出現(xiàn)過海外AI初創(chuàng)企業(yè)用英偉達(dá)GPU抵押融資23億美元的新聞。由于算力昂貴而稀缺,即便在科技巨頭內(nèi)部,也有不少部門為集團(tuán)GPU算力分配爭得頭破血流——不少大模型從業(yè)人員戲稱“人人都在為英偉達(dá)打工”。
一邊是高昂的算力成本,另一邊卻是慘烈的價(jià)格大戰(zhàn),夾在其中的大模型廠商兩相為難。
不過并非沒有解法。
答案似乎有些老生常談——技術(shù)帶來的問題,終究還是要回到技術(shù)找解法。
以DeepSeek為例:與MiniMax類似,DeepSeek也是堅(jiān)定不移的“卷技術(shù)”派。2024年,在對技術(shù)不斷優(yōu)化后,其推出的V3模型參數(shù)量達(dá)到了671B,訓(xùn)練成本僅為557.6萬美元,對比之下,2020年的GPT-3訓(xùn)練成本已經(jīng)接近1200萬美元,GPT-4的訓(xùn)練成本更是超過1億美元。
事實(shí)上,模型訓(xùn)練成本的降低不僅與模型算法有關(guān),它涵蓋了算力和應(yīng)用的中間層的多個(gè)步驟,涉及算法、架構(gòu)、硬件、軟件、工具鏈的優(yōu)化與調(diào)度,一般稱為AI Infra(AI基礎(chǔ)設(shè)施)。在算力成本居高不下的背景下,AI Infra的首要目標(biāo)是優(yōu)化算力資源,在保證性能的同時(shí)盡可能降低模型部署成本。
而MiniMax-01所引入的Linear Attention技術(shù),本質(zhì)上是通過算法降低矩陣輸入復(fù)雜度,從而降低算力成本。與此同時(shí),MiniMax還引入了數(shù)據(jù)打包(Data-packing)、線性注意力序列并行性(LASP+)、多級填充(Multi-level Padding)等一系列技術(shù),從數(shù)據(jù)、算法、到GPU通信間進(jìn)行了全面優(yōu)化,使得其在英偉達(dá)H20 GPU上機(jī)器浮點(diǎn)利用率(MFU)高達(dá)75%,極大降低了模型的訓(xùn)練與推理成本,其輸入價(jià)格僅為1元/百萬token,是GPT-4o的十分之一。
在被媒體問到“MiniMax過去一年比較滿意的技術(shù)成果是什么?”時(shí),MiniMax創(chuàng)始人的回答是:AI Infra與算力優(yōu)化,以及多模態(tài)。
單模態(tài)vs 多模態(tài):我們離AGI還有多遠(yuǎn)?
多模態(tài)可能是業(yè)內(nèi)分歧最小,但競爭最為激烈的領(lǐng)域。
模態(tài)(Modal)是計(jì)算機(jī)用語,可以理解為計(jì)算機(jī)和人之間的感知交流模式的分類——如文字、圖像、聲音、視頻等。
目前除了極少數(shù)堅(jiān)持單模態(tài)的玩家外,市場上的大部分AI企業(yè)都會瞄準(zhǔn)多模態(tài)賽道,最基礎(chǔ)的是文字、圖像兩個(gè)賽道,涉獵更多的則會涵蓋音頻、視頻、3D建模等等。
以語音為例,1月20日,MiniMax發(fā)布T2A-01系列語音大模型,支持17種語言,目前已經(jīng)上線其海螺語音產(chǎn)品,面向所有用戶開放。
合成效果可以看看下面的示意視頻。
從視頻的16秒開始,在不看畫面的情況下,你大概也能準(zhǔn)確判斷出說話者的性別、年齡與情緒:白發(fā)蒼蒼的老人、堅(jiān)毅認(rèn)真的女性、憤怒的青少年、稚嫩天真的孩童,語音語調(diào)里有著各自的悲傷、興奮、喜悅、抑揚(yáng)頓挫。
文本轉(zhuǎn)語音其實(shí)是個(gè)老技術(shù)了,此前的發(fā)聲效果一直很生硬,無法像人類一樣控制語調(diào)的情緒起伏、抑揚(yáng)頓挫。谷歌翻譯還曾因?yàn)榘l(fā)音太過機(jī)械,一度成了互聯(lián)網(wǎng)熱梗。
MiniMax這次上線的語音大模型基本已經(jīng)到了商用水準(zhǔn),AI有聲書、廣播劇、動畫、視頻配音這些場景目前看來都能夠覆蓋。
而比語音大模型更受關(guān)注的,則要數(shù)視頻大模型。
2024年2月,Sora橫空出世,帶動全球AI視頻大模型開始“狂飆”。不過,在此期間行業(yè)其他玩家的視頻生成大模型不斷涌現(xiàn),Sora在發(fā)布后卻始終處于“期貨”狀態(tài),直到12月才正式推出。
目前AI視頻大模型領(lǐng)域有兩大主流技術(shù)路徑:文生視頻、圖生視頻。
二者各有優(yōu)劣,文生視頻(Text-to-Video)主流采用Diffusion技術(shù),擁有極好的“發(fā)散思維”能力,用戶可以通過文本描述生成任何想象中的視頻內(nèi)容;但另一方面模型訓(xùn)練和推理的計(jì)算復(fù)雜度高,而且視頻主體穩(wěn)定性極差——尤其是人物的面部。
圖生視頻(Image-to-Video)與其相反,模型將根據(jù)用戶輸入的圖片生成視頻內(nèi)容,一個(gè)典型的應(yīng)用場景就是“讓老照片動起來”,其相比文生視頻主體穩(wěn)定性更好,計(jì)算資源需求更低,但視頻自由度嚴(yán)重受限。
不過,MiniMax在1月10日發(fā)布的最新視頻模型S2V-01卻打破了兩者間的壁壘,其自研基于單張圖片的主體參考功能,用戶在上傳一張圖片創(chuàng)建參考角色后,模型會將圖片中的主體視覺信息抽取出來,再根據(jù)用戶的文本Prompt進(jìn)行視頻生成,在保證視頻主體穩(wěn)定的同時(shí),將創(chuàng)意表達(dá)得更靈活。
以上為海螺AI用戶創(chuàng)作案例。提示詞:一名男性警官打開車門,從警車?yán)锍鰜?。鏡頭跟隨這名男子,保持近景,聚焦于男子的面部。這名男子穿著警服。男子的表情從平靜變?yōu)橛泄粜?。城市被夜晚的場景包圍,周圍有幾輛警燈閃爍的警車。
以上為海螺AI用戶創(chuàng)作案例。提示詞:末日廢土的九龍城寨,一個(gè)退伍老兵,牽著一條狗,警惕性的在街邊移動著,躲避天空中不時(shí)飛過的巡邏無人機(jī),不遠(yuǎn)處還傳來類螳螂的機(jī)器人(隱約看見)在街邊與反抗軍對峙的開槍聲。
尤其如下圖所示,是在用人物特寫圖像生成視頻時(shí),S2V-01能夠保證極高程度的人物五官、面部細(xì)節(jié)穩(wěn)定、自然。
尤為值得一提的是,下圖人物的眉心、臉頰、唇角各有一顆痣,海螺AI所生成的視頻不僅能夠清晰還原參考圖中痣的細(xì)節(jié),還能在不同鏡頭中保持其位置的一致性——在目前所有AI視頻生成大模型中,這可能是第一個(gè)能做到的。
海外平臺上,創(chuàng)作者們對S2V-01表現(xiàn)出極高熱情
值得關(guān)注的是,MiniMax-S2V-01模型對于視覺和文字信息的處理方式,非常接近人類。
事實(shí)上,多任務(wù)、多語境、多模態(tài)是AI界“冠上明珠”——通用人工智能(AGI)——的幾大主要研究方向。
在AI界的目標(biāo)中,AGI是一種極其復(fù)雜、靈活的人工智能,不僅能完成圖像分類或跨語種文本翻譯等任務(wù),還能模擬人類分析、策劃、創(chuàng)造等一切認(rèn)知能力。
不過,多模態(tài)并非是當(dāng)前唯一的技術(shù)路徑,也有技術(shù)流派將語言大模型認(rèn)定為AGI的通路。不過就目前而言,在行業(yè)尚未達(dá)成明確AGI共識的當(dāng)下,Agent(智能體)是個(gè)目標(biāo)更明確的關(guān)鍵節(jié)點(diǎn)。
隨著大模型底層技術(shù)的發(fā)展,各行各業(yè)對Agent能力要求也在不斷提高,任務(wù)變得越來越復(fù)雜、數(shù)據(jù)量越來越龐大,相應(yīng)而言,大模型本身不僅需要更長的上下文處理能力,同時(shí)也需要越來越“像人”,不斷提升其對圖像、視頻、聲音等多模態(tài)信息的處理能力。
2025年,可能是AI Agent爆發(fā)的一年。
結(jié)語
截止至2024年12月,根據(jù)AI產(chǎn)品榜數(shù)據(jù),MiniMax旗下的AI內(nèi)容社區(qū)Talkie以2977萬的月活躍用戶數(shù),成為全球第一大AI內(nèi)容社區(qū)——這是中國AI廠商第一次在海外超過同類應(yīng)用,登頂全球第一。
按理來說,作為這場比賽中的贏家,MiniMax應(yīng)該比任何人都要擁護(hù)“卷應(yīng)用”。
但很有意思的是,MiniMax創(chuàng)始人在最近接受媒體采訪時(shí),卻拋出了“中國人工智能產(chǎn)業(yè)過去一兩年走入了巨大的誤區(qū):認(rèn)為用戶越多,模型能力提升越快。這也導(dǎo)致企業(yè)為了有更多用戶,就花大量的錢來買流量”的觀點(diǎn),引發(fā)了業(yè)內(nèi)激烈討論。
坦白說,他可能是對的。
一直以來,MiniMax都是大模型行業(yè)里一個(gè)非常獨(dú)特的存在。
一個(gè)事實(shí)是,全球許多大模型公司基本都在2022年底ChatGPT火了之后才成立,但MiniMax則早在2021年底就成立了。這也導(dǎo)致當(dāng)年ChatGPT突然爆火之后,所有人都懵了,回過頭來四處打聽這個(gè)MiniMax到底是何方神圣。
在技術(shù)路徑上,MiniMax也始終有些“特立獨(dú)行”。
2023年,彼時(shí)國內(nèi)市場還是Dense(稠密)模型的天下,MiniMax卻將80%以上的算力和資源全部投入MoE(混合專家)模型的開發(fā)中,于2024年初推出了國內(nèi)第一個(gè)MoE大模型。
事后,MiniMax曾經(jīng)透露,當(dāng)時(shí)公司沒有準(zhǔn)備任何MoE以外的備選計(jì)劃。
一年后來看,MiniMax賭對了。如今,MoE路徑已經(jīng)成為各家共識,尤其在模型規(guī)模、計(jì)算規(guī)模越來越大的當(dāng)下,混合專家技術(shù)已成為模型大規(guī)模部署必不可少的核心技術(shù)。
在行業(yè)普遍選擇跟隨GPT-o1路徑的當(dāng)下,MiniMax卻大膽地瞄準(zhǔn)了困擾全行業(yè)的“Transformer撞墻”問題,通過底層架構(gòu)的創(chuàng)新,用有限的算力成本達(dá)到真正可以比肩國際領(lǐng)軍模型的效果。
用戶從來都是用腳投票的。
無論是文本、圖像、語音還是視頻,每當(dāng)模型能力、處理速度有重大提升時(shí),這一提升都會真切地反映在產(chǎn)品與用戶體驗(yàn)中。MiniMax曾經(jīng)透露,每當(dāng)模型能力變強(qiáng)后,產(chǎn)品內(nèi)用戶的留存表現(xiàn)和使用深度都有著顯著提升。
從創(chuàng)業(yè)第一天起,MiniMax就是一個(gè)集合了大量“非共識”的存在,它在業(yè)務(wù)選擇、技術(shù)路線、AGI實(shí)現(xiàn)路徑上都有著獨(dú)立而清晰的判斷,不焦慮,也不跟風(fēng),敢于在非共識路上突破上限、做難而正確的事。
當(dāng)前的大模型產(chǎn)業(yè),已經(jīng)進(jìn)入了比賽的下半場,所有“低處的果子”都已被摘光,僅靠跟風(fēng)與模仿,幾乎毫無勝算。
靠技術(shù)創(chuàng)新打開的市場,終究還是要靠技術(shù)創(chuàng)新站穩(wěn)腳跟。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )