大模型推理與訓練的邊界之爭

隨著大模型的發(fā)展日新月異,其推理和訓練的邊界問題也引起了廣泛討論。近日,清程極智CEO湯雄超在一場行業(yè)活動中明確表示,盡管外界有聲音認為OpenAI發(fā)布的o1模型模糊了推理和訓練的界限,但從技術角度來看,這兩個階段的劃分并未發(fā)生本質改變。

湯雄超指出,o1模型之所以展現(xiàn)出強大的“推理”能力,實際上是由于其背后巨大的計算量消耗。這種計算量的增加,使得模型能夠獲得更高質量的回答。然而,這并不意味著推理和訓練的邊界正在變得模糊,而是推理階段的計算需求正在增加。

清程極智認為,推理和訓練需要差異化的系統(tǒng)設計和實現(xiàn)方式。隨著推理計算量的增長,未來不僅在訓練階段,推理階段也將需要集群規(guī)模的算力系統(tǒng)支持,而非目前的小規(guī)模單卡或單機算力系統(tǒng)。這預示著行業(yè)可能需要不同配置的算力集群,以分別應對訓練和推理業(yè)務的需求。

清程極智的技術背景基于高性能計算,尤其在超算方面擁有深厚的技術積累。在超大規(guī)模國產(chǎn)集群進行大模型訓練方面,清程極智有著經(jīng)典的案例。例如,清程極智的大模型訓練系統(tǒng)“八卦爐”能夠擴展到10萬臺服務器的超大規(guī)模集群,用于訓練百萬億參數(shù)量的模型,這一成就在行業(yè)內具有里程碑意義。

除了在訓練領域的卓越表現(xiàn),清程極智也始終關注推理的重要性。其推理側的技術和產(chǎn)品已經(jīng)服務于多家大模型企業(yè)。清程極智的推理引擎軟件“chitu”能夠支持多種模型、不同芯片、提供多種接口形式,如OpenAI API(文本對話)/HTTP API(文生圖),滿足不同場景下的推理需求。

隨著大模型在各行各業(yè)的廣泛應用,推理和訓練的算力需求都在不斷增長。清程極智預測,未來行業(yè)將需要更多專業(yè)化、定制化的算力解決方案,以適應不斷變化的業(yè)務需求。這種趨勢要求AI Infra廠商不僅要在技術上保持領先,還要在服務上提供更高的靈活性和定制化能力。

綜上所述,盡管大模型的推理和訓練在計算需求上呈現(xiàn)出一定的融合趨勢,但從技術實現(xiàn)和系統(tǒng)設計的角度來看,兩者的邊界依然清晰。隨著技術的不斷進步和市場需求的日益增長,我們可以期待,未來AI Infra將為大模型的發(fā)展提供更加堅實的支撐。

(免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )