當前,以ChatGPT為代表的LLM應用正在掀起新一輪的AI 浪潮,數(shù)字產(chǎn)業(yè)生態(tài)也迎來前所未有的變局。隨著LLM應用的興起,如何低成本地實現(xiàn)大模型的構建和應用,成為企業(yè)關注的重點。
近日,國內(nèi)領先的云原生數(shù)據(jù)倉庫廠商酷克數(shù)據(jù)宣布將推出自主研發(fā)的AI開發(fā)工具HashML,通過機器學習、深度學習及預訓練大模型等技術,為開發(fā)者提供簡單易用、算法先進、性能卓越的AI開發(fā)體驗。
HashML是酷克數(shù)據(jù)核心產(chǎn)品HashData云數(shù)倉的擴展實現(xiàn)工具,隨數(shù)倉的部署提供開箱即用的AI能力,讓數(shù)據(jù)科學家、數(shù)據(jù)工程師、應用開發(fā)者無門檻地使用大模型,大幅降低大模型系統(tǒng)部署的成本和復雜度,推動大模型走向規(guī)模化應用。
大模型熱潮涌來 成本問題備受關注
目前,在大模型領域,國內(nèi)外科技巨頭的競爭已經(jīng)白熱化。亞馬遜、谷歌、百度、華為、阿里等企業(yè)競相涌入,相繼推出各自的大模型服務。
中國科學技術信息研究發(fā)布的《中國人工智能大模型地圖研究報告》顯示,截至今年5月,國內(nèi)已公開披露的大模型數(shù)量達到79個。
然而,對于企業(yè)而言,當前要部署和使用大模型,仍面臨著高昂的成本負擔。
據(jù)了解,大模型在企業(yè)落地的成本主要包括模型前期微調(diào)與訓練的成本以及模型后期與業(yè)務結合的運行成本,涉及計算資源、存儲費用、網(wǎng)絡傳輸、數(shù)據(jù)標注等費用。
從訓練成本來看,以ChatGPT為例,其訓練成本一次大概需要數(shù)百萬美元。華為公布的數(shù)據(jù)顯示,大模型開發(fā)和訓練一次所需的費用大約1200萬美元。在高度迭代和反復訓練過程中,再加上供不應求的算力成本,大模型入門門檻將高達上億級別,這對于眾多企業(yè)來說是很難承受的壓力。
可以說,高昂的成本已經(jīng)成為大模型規(guī)?;瘧镁薮笞璧K。與此同時,各大科技企業(yè)也在積極探索利用創(chuàng)新技術降低大模型應用的成本。
降低AI開發(fā)門檻 云原生數(shù)倉助力大模型普惠化
值得關注的是,云計算平臺在大模型訓練方面具備與生俱來的成本優(yōu)勢。企業(yè)可以基于云平臺自動伸縮、按需計費的特性,對大模型訓練成本進行合理規(guī)劃和控制。
大模型的核心邏輯是對海量數(shù)據(jù)的收集、加工、處理和運算結果的輸出。如果將大模型比作“烹飪”,數(shù)據(jù)就好比是“食材”,數(shù)據(jù)倉庫則是必不可少的“廚具”。伴隨大模型熱潮的興起,對于支撐AI的底層數(shù)據(jù)倉庫也提出了更高的要求。
大模型龐大的數(shù)據(jù)量帶來了存儲和計算資源的壓力,這要求數(shù)據(jù)庫能夠提供可以橫向的并發(fā)訪問能力、多范式的數(shù)據(jù)處理分析能力和海量異構數(shù)據(jù)的存儲管理能力。在這種趨勢下,基于云原生架構的數(shù)據(jù)倉庫將成為未來數(shù)據(jù)庫行業(yè)發(fā)展的重要方向。
作為國內(nèi)最早專注于云原生數(shù)倉研發(fā)的企業(yè)之一,酷克數(shù)據(jù)從成立之初,就致力于降低大數(shù)據(jù)分析和應用的門檻,其核心產(chǎn)品HashData云數(shù)倉基于云原生架構設計,通過元數(shù)據(jù)、計算和存儲層解耦,從而最大限度發(fā)揮云平臺的彈性和擴展能力。
酷克數(shù)據(jù)即將推出的AI開發(fā)工具HashML,是一款基于HashData云數(shù)倉打造的新一代高級分析和數(shù)據(jù)科學工具箱,能夠為開發(fā)者提供豐富的AI算法和模型能力,僅需幾行代碼就能開啟模型訓練、推理預測,在統(tǒng)一的框架下支持各種經(jīng)典的機器學習、深度學習算法以及預訓練大模型。
HashML與HashData云數(shù)倉共享統(tǒng)一的存儲和計算資源,隨數(shù)倉的部署提供開箱即用的AI能力,大幅降低了系統(tǒng)部署的成本和復雜度,為開發(fā)者提供了統(tǒng)一的數(shù)據(jù)查詢、分析、建模環(huán)境。
借助HashML,基于HashData的AI應用開發(fā)將會變得非常簡單。HashML提供了從數(shù)據(jù)查詢處理、高級分析到ML/DL模型的訓練、推理和服務部署的全套工具,包括對大語言模型微調(diào)和推理的支持,另外提供了Python和SQL兩種編程語言接口。
同時,HashData正在開發(fā)增強數(shù)據(jù)倉庫支持向量數(shù)據(jù)存儲和處理檢索能力的功能組件,結合云數(shù)倉的高擴展性、高可用和高彈性,實現(xiàn)更好地支撐和擴展大模型的應用場景。
未來,大模型將成為新型基礎設施的關鍵底座之一。酷克數(shù)據(jù)將通過領先的技術和完善的生態(tài),推動人工智能技術普惠化,讓更多企業(yè)“用得起、用得上、用得好”大模型,助力企業(yè)成長。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )