123,123

【Gemini 大模型主打多模態(tài)，性能對標GPT-4】

當?shù)貢r間12月6日，谷歌公司宣布推出其規(guī)模最大、功能最強的多模態(tài)大模型 Gemini, 其最強大的 TPU (張量處理單元)系統(tǒng) “Cloud TPU v5p”, 以及來自谷歌云的人工智能超級計算機。

本次谷歌推出的多模態(tài)大模型Gemini 依然采用Transformer 架構，采用高效Attention 機制，支持32k 的上下文長度。Gemini 主打在多模態(tài)領域的突出能力，在輸入端，Gemin 可以適應文本與音視頻交叉的輸入序列，比如自然圖像、圖表、截圖、pdf 和視頻等。在輸出端， Gemini 兼具文本和圖像兩種輸出形式。與市面上大模型不同的地方在于， Gemini 從設計之初開始就是多模態(tài)的，并不像 OpenAI 構建 DALL·E 和 Whisper 單獨訓練圖像和語音模型。

Gemini 1.0 家族涵蓋三類模型，各有定位：

1)Gemini Ultra: 用于高度復雜的任務，為規(guī)模最大、功能最強的類別，定位為 GPT-4的競爭對手;

2)Gemini Pro: 是一款中端型號，用于增強性能和大規(guī)模部署能力，根據(jù)谷歌技術報告，其性能優(yōu)于GPT-3.5;

3)Gemini Nano: 主要用于特定任務和移動設備。

模型能力方面， Gemini 系列在文本、多模態(tài)、模態(tài)組合等領域均實現(xiàn)了較大進展，在絕大多數(shù)基準測試中性能領先于GPT-4。

1、文本領域： Gemini Ultra 在多項基準測試中領先于GPT-4, 并成為現(xiàn)有第一個在大規(guī)模多任務語言理解(MMLU) 方面超越人類專家的模型。在谷歌技術報告中，公司將Gemini 與 GPT-4以及此前谷歌最強的語言大模型 PaLM2 等等進行了比較，在大型語言模型 (LLM) 研發(fā)中使用的32個廣泛使用的學術基準中，GeminiUltra 的性能有30個超過了當前最先進的結果(SOTA,State Of The Art),全面領先于GPT-4。

2、多模態(tài)領域， Gemini Ultra 在圖像、視頻、音頻多項基準測試中同樣實現(xiàn)超越GPT-4V。圖像理解方面，無論是回答自然圖像問題，進行掃描文檔的文本識別，還是理解信息圖表、圖表和科學圖解， Gemini Ultra 在多個任務上都取得了顯著改進。視頻理解方面，Gemini Ultra 彰顯了強大的時態(tài)推理能力，在各種少鏡頭 (Few-shot)視頻字幕任務和零鏡頭視頻問答任務上取得了SOTA。音頻理解方面，Gemini Pro 模型在英語和多語言測試集的所有自動語音識別(ASR) 和自動語音翻譯(AST) 任務中都明顯優(yōu)于 USM 和 Whisper 模型，Gemini Nano-1 模型在除 FLEURS 以外的所有數(shù)據(jù)集上也優(yōu)于USM 和 Whisper。

3、除此之外，模態(tài)組合領域， Gemini 彰顯了處理多模態(tài)輸入、跨模態(tài)推理的強大能力。谷歌通過煎雞蛋的烹飪場景示例，展示了Gemini 處理文本、視覺和音頻交叉序列的能力以及跨模態(tài)推理能力。

【算力優(yōu)勢穩(wěn)固，發(fā)布新一代云端 AI 芯片 TPUv5p】

本次谷歌在發(fā)布 Gemini 的同時推出了全新的面向云端AI 加速的 TPU v5p,這也是谷歌迄今為止功能最強大、效率最高且可擴展性最強的 TPU 系統(tǒng)。

谷歌于2016年起開始推出第一代 TPU,TPU是為神經(jīng)網(wǎng)絡設計的專用芯片、谷歌人工智能產品的核心，為谷歌搜索、YouTube 、Gmail、谷歌地圖、Google Play和 Android 等數(shù)十億用戶提供服務。

谷歌表示， Gemini 1.0 采用TPU v4和 v5e 芯片上進行大規(guī)模訓練，在 TPU 上Gemini 的運行速度明顯快于早期規(guī)模更小、性能更弱的模型，未來TPU v5p也會應用于加速Gemini 開發(fā)。

TPU v5p 性能較 TPU v4 全面提升。谷歌 TPU v5p 在 bfloat16 精度下，可以實現(xiàn)459 teraFLOPS; 在 Int8精度下，可以實現(xiàn)918 teraOPS。谷歌 TPU v5p 配備95GB 的 HBM3 內存，內存帶寬為2.76TB/sec, 每個Pod 最多有8960 個加速核心，并自研搭載600GB/sec 芯片互聯(lián)主控，可以更快、更準確地訓練 AI模型。與 TPU v4相比， TPU v5p 的浮點運算性能大幅提升，在高帶寬內存方面是 TPU v4的近3倍。

【背靠谷歌生態(tài)帝國，Gemini 商業(yè)化想象空間廣闊】

從大模型應用端來看，相較OpenAI, 谷歌的商業(yè)版圖更為廣闊， Gemini 系列規(guī)模和功能強大，預計將快速融入谷歌生態(tài)，未來商業(yè)模式擁有極大的想象空間。

內部生態(tài)融合計劃來看，谷歌表示，從發(fā)布日起，Gemini 可開始應用 Bard 和 Pixel8Pro 智能手機，并將很快與谷歌服務中的其他產品集成，包括Chrome、搜索和廣告等。

應用于Bard 聊天機器人：從發(fā)布會當天開始，谷歌聊天機器人Bard 將使用 Gemini Pro 的微調版本來實現(xiàn)高級推理、規(guī)劃、理解和其他功能。明年初，谷歌將推出 Bard Advanced, 其將使用 Gemini Ultra, 這代表 Bard 發(fā)布以來的最大更新。

應用于Pixel8Pro 手機：從發(fā)布會當天開始，Pixel8 Pro 手機的兩項功能將由 Gemini Nano 提供支持：錄音機應用(Recorder)中的Summarize 等功能、WhatsApp Gboard 中的 Smart Reply。由于模型在手機中運行，因此兩者都可以離線工作，因此應該能擁有快速且原生的體驗。谷歌表示，Nano 的目標是創(chuàng)建一個盡可能強大的 Gemini 版本，但同時不會占用手機的存儲空間或使處理器過熱。

在接下來的幾個月中，Gemini 將出現(xiàn)在谷歌更多的產品和服務中，例如搜索、廣告、Chrome 和DuetAI。

外部用戶開放情況來看，谷歌計劃通過谷歌云將 Gemini 授權給客戶，供他們在自己的應用程序中使用。

12 月 13 日開始，開發(fā)者和企業(yè)客戶可以通過谷歌 AIStudio 或谷歌Cloud VertexAI 中的GeminiAPI(應用程序編程接口)訪GeminiPro，安卓開發(fā) 人員可以使用 GeminiNano 完成構建。

【全球巨頭角逐激烈，AI 算力需求增長和應用場景或拓寬】

谷歌作為全球人工智能龍頭之一，無論在算力、算法還是商業(yè)化各個方面都積蓄了優(yōu)勢，Gemini 系列大模型的如期推出，打破此前市場關于延期發(fā)布的傳聞，同時 Gemini 系列在傳統(tǒng)文本領域以及多模態(tài)領域能力均對標 GPT-4，總體超出市場預期。

隨著人工智能巨頭在大模型領域的競爭依然白熱化，在此背景下繼續(xù)看好 AI 算力需求的增長，同時當下對于多模態(tài) AI 的激烈角逐也將持續(xù)拔升大模型的整體能力水平，有助于不斷拓展大模型的應用場景和邊界，想象空間廣闊。

當前，我國通用人工智能產業(yè)政策逐步完善，國產大模型能力持續(xù)升級。美國對華半導體出口管制升級，將倒逼我國國產 AI 芯片產業(yè)鏈加快成熟。隨著國產大模型廠商和 AI 芯片廠商的持續(xù)發(fā)力，我國 AIGC 產業(yè)未來發(fā)展前景廣闊。

算力方面：海光信息、中科曙光、紫光股份、浪潮信息、龍芯中科、神州數(shù)碼、寒武紀、景嘉微

算法方面：科大訊飛、海天瑞聲、拓爾思、零點有數(shù)、匯納科技、中科創(chuàng)達

應用場景方面：金山辦公、萬興科技、拓爾思

網(wǎng)絡安全方面：啟明星辰、電科網(wǎng)安、銳捷網(wǎng)絡

我們篩選出以下潛力標的

海光信息(688041)海光 DCU 協(xié)處理器主要部署在服務器集群或數(shù)據(jù)中心，為應用程序提供高性能、高能效比的算力，支撐高復雜度和高吞吐量的數(shù)據(jù)處理任務，應用于大數(shù)據(jù)處理、人工智能、商業(yè)計算等計算密集類應用領域。

零點有數(shù)(301169)公司應用人工智能技術，開發(fā)數(shù)據(jù)智能應用軟件，在智能政務、智能警務、智能稅務和供應鏈智能化管理領域已有持續(xù)擴展的研發(fā)積累和客戶合作。其中在人工智能技術的算法技術產業(yè)化方面，公司目前是積極的引領者之一。

萬興科技(300624)公司致力于通過軟件技術創(chuàng)新和產品能力提升助力新生代創(chuàng)作者高效、便捷創(chuàng)作。目前公司已布局虛擬數(shù)字人、虛擬場景、虛擬直播等創(chuàng)新業(yè)務，并與近日在2022全球元宇宙大會論壇上宣布布局AIGC賽道，公司旗下首款AI繪畫軟件“萬興AI繪畫”正式開啟公測。

參考資料：平安證券-計算機行業(yè)動態(tài)跟蹤報告：多模態(tài)能力表現(xiàn)亮眼，谷歌攜Gemini 王者歸來-231208.pdf

免責聲明：

本文由投資顧問：馮利勇(執(zhí)業(yè)證書編碼： A1280620060001)、何軍(執(zhí)業(yè)證書編碼： A1280621060001)、羅力川(登記編號： A1280622110002) 等編輯整理，僅代表團隊觀點，任何投資建議不作為您投資的依據(jù)，您須獨立作出投資決策，風險自擔。請您確認自己具有相應的權利能力、行為能力、風險識別能力及風險承受能力，能夠獨立承擔法律責任。所涉及個股僅作投資參考和學習交流，不作為買賣依據(jù)。投資有風險，入市需謹慎!

（免責聲明：本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時，應及時向本網(wǎng)站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內容或斷開相關鏈接。）

成都匯陽投資關于谷歌攜 Gemini 王者歸來，AI 算力和應用值得期待