【Gemini 大模型主打多模態(tài),性能對標(biāo)GPT-4】
當(dāng)?shù)貢r間12月6日, 谷歌公司宣布推出其規(guī)模最大、功能最強(qiáng)的多模態(tài)大模型 Gemini, 其最強(qiáng)大的 TPU (張量處理單元)系統(tǒng) “Cloud TPU v5p”, 以及來自谷歌云的人工智能超級計(jì)算機(jī)。
本次谷歌推出的多模態(tài)大模型Gemini 依然采用Transformer 架構(gòu),采用高效Attention 機(jī)制,支持32k 的上下文長度。Gemini 主打在多模態(tài)領(lǐng)域的突出能力,在輸入端,Gemin 可以適應(yīng)文本與音視頻交叉的輸入序列,比如自然圖像、圖表、截圖、pdf 和視頻等。在輸出端, Gemini 兼具文本和圖像兩種輸出形式。與市面上大模型不同的地方在于, Gemini 從設(shè)計(jì)之初開始就是多模態(tài)的,并不像 OpenAI 構(gòu)建 DALL·E 和 Whisper 單獨(dú)訓(xùn)練圖像和語音模型。
Gemini 1.0 家族涵蓋三類模型,各有定位:
1)Gemini Ultra: 用于高度復(fù)雜的任務(wù),為規(guī)模最大、功能最強(qiáng)的類別,定位為 GPT-4的競爭對手;
2)Gemini Pro: 是一款中端型號,用于增強(qiáng)性能和大規(guī)模部署能力,根據(jù)谷歌技術(shù)報告, 其性能優(yōu)于GPT-3.5;
3)Gemini Nano: 主要用于特定任務(wù)和移動設(shè)備。
模型能力方面, Gemini 系列在文本、多模態(tài)、模態(tài)組合等領(lǐng)域均實(shí)現(xiàn)了較大進(jìn)展,在絕大多數(shù)基準(zhǔn)測試中性能領(lǐng)先于GPT-4。
1、文本領(lǐng)域: Gemini Ultra 在多項(xiàng)基準(zhǔn)測試中領(lǐng)先于GPT-4, 并成為現(xiàn)有 第一個在大規(guī)模多任務(wù)語言理解(MMLU) 方面超越人類專家的模型。在谷歌技術(shù)報告中,公司將Gemini 與 GPT-4以及此前谷歌最強(qiáng)的語言大模型 PaLM2 等等進(jìn)行了比較,在大型語言模型 (LLM) 研發(fā)中使用的32個廣泛使用的學(xué)術(shù)基準(zhǔn)中,GeminiUltra 的性能有30個超過了當(dāng)前最先進(jìn)的結(jié)果(SOTA,State Of The Art),全面領(lǐng)先于GPT-4。
2、多模態(tài)領(lǐng)域, Gemini Ultra 在圖像、視頻、音頻多項(xiàng)基準(zhǔn)測試中同樣實(shí)現(xiàn)超越GPT-4V。圖像理解方面,無論是回答自然圖像問題,進(jìn)行掃描文檔的文本識別,還是理解信息圖表、圖表和科學(xué)圖解, Gemini Ultra 在多個任務(wù)上都取得了顯著改進(jìn)。視頻理解方面,Gemini Ultra 彰顯了強(qiáng)大的時態(tài)推理能力,在各種少鏡頭 (Few-shot)視頻字幕任務(wù)和零鏡頭視頻問答任務(wù)上取得了SOTA。 音頻理解方面,Gemini Pro 模型在英語和多語言測試集的所有自動語音識別(ASR) 和自動語音翻譯(AST) 任務(wù)中都明顯優(yōu)于 USM 和 Whisper 模型,Gemini Nano-1 模型在除 FLEURS 以外的所有數(shù)據(jù)集上也優(yōu)于USM 和 Whisper。
3、除此之外,模態(tài)組合領(lǐng)域, Gemini 彰顯了處理多模態(tài)輸入、跨模態(tài)推理 的強(qiáng)大能力。谷歌通過煎雞蛋的烹飪場景示例,展示了Gemini 處理文本、視覺和音頻交叉序列的能力以及跨模態(tài)推理能力。
【算力優(yōu)勢穩(wěn)固,發(fā)布新一代云端 AI 芯片 TPUv5p】
本次谷歌在發(fā)布 Gemini 的同時推出了全新的面向云端AI 加速的 TPU v5p,這也是谷歌迄今為止功能最強(qiáng)大、效率最高且可擴(kuò)展性最強(qiáng)的 TPU 系統(tǒng)。
谷歌于2016年起開始推出第一代 TPU,TPU是為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的專用芯片、 谷歌人工智能產(chǎn)品的核心,為谷歌搜索、YouTube 、Gmail、谷歌地圖、Google Play和 Android 等數(shù)十億用戶提供服務(wù)。
谷歌表示, Gemini 1.0 采用TPU v4和 v5e 芯片上進(jìn)行大規(guī)模訓(xùn)練,在 TPU 上Gemini 的運(yùn)行速度明顯快于早期規(guī)模更小、性能更弱的模型,未來TPU v5p也會應(yīng)用于加速Gemini 開發(fā)。
TPU v5p 性能較 TPU v4 全面提升。谷歌 TPU v5p 在 bfloat16 精度下,可 以實(shí)現(xiàn)459 teraFLOPS; 在 Int8精度下,可以實(shí)現(xiàn)918 teraOPS。谷歌 TPU v5p 配備95GB 的 HBM3 內(nèi)存,內(nèi)存帶寬為2.76TB/sec, 每個Pod 最多有8960 個加速核心,并自研搭載600GB/sec 芯片互聯(lián)主控,可以更快、更準(zhǔn)確地訓(xùn)練 AI模型。與 TPU v4相比, TPU v5p 的浮點(diǎn)運(yùn)算性能大幅提升,在高帶寬內(nèi)存方面是 TPU v4的近3倍。
【背靠谷歌生態(tài)帝國,Gemini 商業(yè)化想象空間廣闊】
從大模型應(yīng)用端來看,相較OpenAI, 谷歌的商業(yè)版圖更為廣闊, Gemini 系列規(guī)模和功能強(qiáng)大,預(yù)計(jì)將快速融入谷歌生態(tài),未來商業(yè)模式擁有極大的想象空間。
內(nèi)部生態(tài)融合計(jì)劃來看,谷歌表示,從發(fā)布日起,Gemini 可開始應(yīng)用 Bard 和 Pixel8Pro 智能手機(jī),并將很快與谷歌服務(wù)中的其他產(chǎn)品集成,包括Chrome、搜索和廣告等。
應(yīng)用于Bard 聊天機(jī)器人: 從發(fā)布會當(dāng)天開始,谷歌聊天機(jī)器人Bard 將使用 Gemini Pro 的微調(diào)版本來實(shí)現(xiàn)高級推理、規(guī)劃、理解和其他功能。明年初,谷 歌將推出 Bard Advanced, 其將使用 Gemini Ultra, 這代表 Bard 發(fā)布以來的最大更新。
應(yīng)用于Pixel8Pro 手機(jī): 從發(fā)布會當(dāng)天開始,Pixel8 Pro 手機(jī)的兩項(xiàng)功 能將由 Gemini Nano 提供支持:錄音機(jī)應(yīng)用(Recorder)中的Summarize 等功能、WhatsApp Gboard 中的 Smart Reply。由于模型在手機(jī)中運(yùn)行,因此兩者都可以離線工作,因此應(yīng)該能擁有快速且原生的體驗(yàn)。谷歌表示,Nano 的目標(biāo)是 創(chuàng)建一個盡可能強(qiáng)大的 Gemini 版本,但同時不會占用手機(jī)的存儲空間或使處理器過熱。
在接下來的幾個月中,Gemini 將出現(xiàn)在谷歌更多的產(chǎn)品和服務(wù)中,例如搜 索、廣告、Chrome 和DuetAI。
外部用戶開放情況來看,谷歌計(jì)劃通過谷歌云將 Gemini 授權(quán)給客戶,供他們在自己的應(yīng)用程序中使用。
12 月 13 日開始,開發(fā)者和企業(yè)客戶可以通過谷歌 AIStudio 或谷歌Cloud VertexAI 中的GeminiAPI(應(yīng)用程序編程接口)訪GeminiPro,安卓開發(fā) 人員可以使用 GeminiNano 完成構(gòu)建。
【全球巨頭角逐激烈,AI 算力需求增長和應(yīng)用場景或拓寬】
谷歌作為全球人工智能龍頭之一,無論在算力、算法還是商業(yè)化各個方面都 積蓄了優(yōu)勢,Gemini 系列大模型的如期推出,打破此前市場關(guān)于延期發(fā)布的傳 聞,同時 Gemini 系列在傳統(tǒng)文本領(lǐng)域以及多模態(tài)領(lǐng)域能力均對標(biāo) GPT-4,總體超出市場預(yù)期。
隨著人工智能巨頭在大模型領(lǐng)域的競爭依然白熱化,在此背景下繼續(xù)看好 AI 算力需求的增長,同時當(dāng)下對于多模態(tài) AI 的激烈角逐也將持續(xù)拔升大模型的 整體能力水平,有助于不斷拓展大模型的應(yīng)用場景和邊界,想象空間廣闊。
當(dāng)前,我國通用人工智能產(chǎn)業(yè)政策逐步完善,國產(chǎn)大模型能力持續(xù)升級。美國對華半導(dǎo)體出口管制升級,將倒逼我國國產(chǎn) AI 芯片產(chǎn)業(yè)鏈加快成熟。隨著國產(chǎn)大模型廠商和 AI 芯片廠商的持續(xù)發(fā)力,我國 AIGC 產(chǎn)業(yè)未來發(fā)展前景廣闊。
算力方面:海光信息、中科曙光、紫光股份、浪潮信息、龍芯中科、神州數(shù)碼、寒武紀(jì)、景嘉微
算法方面:科大訊飛、海天瑞聲、拓爾思、零點(diǎn)有數(shù)、匯納科技、中科創(chuàng)達(dá)
應(yīng)用場景方面:金山辦公、萬興科技、拓爾思
網(wǎng)絡(luò)安全方面:啟明星辰、電科網(wǎng)安、銳捷網(wǎng)絡(luò)
我們篩選出以下潛力標(biāo)的
海光信息(688041)海光 DCU 協(xié)處理器主要部署在服務(wù)器集群或數(shù)據(jù)中心,為應(yīng)用程序提供高性能、高能效比的算力,支撐高復(fù)雜度和高吞吐量的數(shù)據(jù)處理任務(wù),應(yīng)用于大數(shù)據(jù)處理、人工智能、商業(yè)計(jì)算等計(jì)算密集類應(yīng)用領(lǐng)域。
零點(diǎn)有數(shù)(301169)公司應(yīng)用人工智能技術(shù),開發(fā)數(shù)據(jù)智能應(yīng)用軟件,在智能政 務(wù)、智能警務(wù)、智能稅務(wù)和供應(yīng)鏈智能化管理領(lǐng)域已有持續(xù)擴(kuò)展的研發(fā)積累和客戶合作。其中在人工智能技術(shù)的算法技術(shù)產(chǎn)業(yè)化方面,公司目前是積極的引領(lǐng)者之一。
萬興科技(300624)公司致力于通過軟件技術(shù)創(chuàng)新和產(chǎn)品能力提升助力新生代創(chuàng)作者高效、便捷創(chuàng)作。目前公司已布局虛擬數(shù)字人、虛擬場景、虛擬直播等創(chuàng)新 業(yè)務(wù),并與近日在2022全球元宇宙大會論壇上宣布布局AIGC賽道,公司旗下首款A(yù)I繪畫軟件“萬興AI繪畫”正式開啟公測。
參考資料:平安證券-計(jì)算機(jī)行業(yè)動態(tài)跟蹤報告:多模態(tài)能力表現(xiàn)亮眼,谷歌攜Gemini 王者歸來-231208.pdf
免責(zé)聲明:
本文由投資顧問:馮利勇(執(zhí)業(yè)證書編碼: A1280620060001)、 何軍(執(zhí)業(yè)證書編碼: A1280621060001)、 羅力川(登記編號: A1280622110002) 等編 輯整理,僅代表團(tuán)隊(duì)觀點(diǎn),任何投資建議不作為您投資的依據(jù),您須獨(dú)立作出投 資決策,風(fēng)險自擔(dān)。請您確認(rèn)自己具有相應(yīng)的權(quán)利能力、行為能力、風(fēng)險識別 能力及風(fēng)險承受能力,能夠獨(dú)立承擔(dān)法律責(zé)任。所涉及個股僅作投資參考和學(xué)習(xí)交流,不作為買賣依據(jù)。投資有風(fēng)險,入市需謹(jǐn)慎!
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )