第一個提出自動駕駛并進行研發(fā)的公司是Google,巧的是,它發(fā)布的Transformer模型也為今天的大模型發(fā)展奠定了基礎。
自動駕駛已經(jīng)完成從概念到現(xiàn)實的華麗轉變,徹底重塑了傳統(tǒng)駕車方式,而大模型行業(yè)正在經(jīng)歷的,恰如自動駕駛技術發(fā)展的傳奇征程——
最頂尖的研發(fā)團隊競相投身其中、不斷加速搶跑的技術產(chǎn)品創(chuàng)新,以及持續(xù)被推向極致的用戶體驗。
在大模型賽道中,有一家企業(yè)始終以領先的身位,推動著行業(yè)邊界向前拓展。
為什么是聯(lián)匯科技?
當行業(yè)剛開始關注大模型,他們已經(jīng)錨定多模態(tài)大模型,并高分取得了工信部大模型檢測的001號證書;
去年,當人們關注“百模大戰(zhàn)”,他們不僅發(fā)布了自研OmModel多模態(tài)大模型的V3版本,更發(fā)布了國內(nèi)首批大模型驅動的自主智能體應用;
今年,世界人工智能大會期間,他們再次發(fā)布一系列技術成果,將大模型技術產(chǎn)品推向更深、更廣的應用層面。
聯(lián)匯科技技術團隊有著極強的前瞻思維,這與他們的首席科學家趙天成博士緊密相關,這位師從國際AI領域頂尖學者的Maxine Eskenazi,在CMU LTI (卡內(nèi)基梅隆大學語言技術研究所)完成碩博連讀的天才少年,不僅稱得上「AI 名門正派」,更難得的是,趙天成在技術發(fā)展和戰(zhàn)略規(guī)劃方面有著獨到見解。
趙天成博士指出,在AI主導的第四次工業(yè)革命浪潮中,自主智能將成為變革的核心變量。隨著人類第一次接觸并掌握創(chuàng)造智慧的奧秘,我們將目睹一個新時代的到來——在這個時代中,機器、軟件甚至系統(tǒng),將被賦予前所未有的自主決策能力,自動化將廣泛應用于各個工作領域,開啟前所未有的效率和創(chuàng)新。
2024年是智能體元年。
我們正處于L2級別,并逐步向L3、L4邁進的過程中。
OmAgent來了!
WAIC期間,聯(lián)匯科技正式發(fā)布第二代多模態(tài)智能體 OmAgent。
去年同期,聯(lián)匯科技搶跑行業(yè),率先發(fā)布了國內(nèi)第一批由多模態(tài)大模型驅動的自主智能體,那么,今年聯(lián)匯的第二代多模態(tài)智能體OmAgent有哪些驚喜?
首先是感知模塊全新升級。
隨著AI應用落地,聯(lián)匯科技發(fā)現(xiàn)盡管萬物感知模型在智能識別和處理方面具有巨大潛力,但受限于推理速度的瓶頸。相較于小型模型在推理速度上的優(yōu)勢,Idealab的G-DINO和聯(lián)匯科技的OmDet在速度上的表現(xiàn)都不盡如人意,這極大地限制了它們在邊緣計算設備上的應用。
聯(lián)匯科技最新發(fā)布的OmDet V2,實現(xiàn)萬物感知的全面加速,從底層重新構建了萬物感知的模塊,推出了EFH高性能融合頭,包含了一系列模型加速的優(yōu)化技術、語言向量緩存、輕量化特征編碼與解碼等技術,得益于EFH對每一個環(huán)節(jié)的機制優(yōu)化,相較于G-DINO和聯(lián)匯的第一代感知模型,OmDet V2在每一個環(huán)節(jié)上都實現(xiàn)了20倍以上的速度提高。
這樣的提升意味著OmDet V2正在打開未來邊緣AI與具身智能全新可能。
憑借OmDet V2的推理速度和精確分析能力,單個GPU就可以承載對500路視頻流的實時萬物感知分析,這是對技術性能的新一次刷新。同時,這也意味著打開邊緣AI的可能,OmDet V2讓萬物感知模型擺脫云端束縛,走向邊緣設備,為人形機器人、家庭智算中心等前沿應用提供了強大的智能支持。
這種創(chuàng)新不僅重新定義了大模型產(chǎn)品的開發(fā)思維,更為構建一個更實時、更安全、更注重隱私的大模型應用環(huán)境奠定了基礎。
第二是思考決策能力的提升。
思考是多模態(tài)智能體的核心,只有具備了思考能力,智能體才能夠依據(jù)感知和記憶結果做決策判斷和自主行為,成為真正的助手。但現(xiàn)有多模態(tài)思考模型存在著明顯局限,比如只能基于單張圖片進行思考和決策、無法對多個關聯(lián)圖片之間進行理解處理等。
為了解決這一問題,聯(lián)匯科技全新發(fā)布了第二代思考大模型OmChat V2,一個基于多模態(tài)模型原生預訓練的生成大模型,不僅提供8B、40B、60B多個版本,適配不同需求。更能非常好地支持視頻、圖文混合、文字等多種復雜輸入,完美適配智能體決策過程中所需要的復雜場景。
OmChat V2支持高達512K、50萬的上下文長度,折合視頻長度30分鐘,僅次于Google Gemin-1.5,并遠超GPT-4o及微軟LLaVa-1.5。
OmChat V2在Mantis-Eval、Q-Bench、MileBench Real、MVBench等測試中平均性能均在行業(yè)前列。
更簡單、直接的說法是,OmChat V2不僅能夠看準時序關系,更能夠看懂多圖關系。
△時序關系判斷
△多圖關系理解
為了大模型與智能體技術能夠真正的普惠落地,聯(lián)匯科技還率先完成了與多款國產(chǎn)GPU的適配與性能驗證,通過高效稀疏激活、動態(tài)專家方法,提升推理效率20倍,OmOS大模型運行平臺也是首個支持多地域大模型分布式推理平臺,異構九頭蛇推理能夠提升算力利用率3倍。
就此,聯(lián)匯科技正式解鎖海量行業(yè)應用場景。
△自動化體育解說
△影視劇內(nèi)容解構
△工業(yè)智能助手
OmAgent框架全面開源!
聯(lián)匯科技在多模態(tài)智能體技術上已經(jīng)取得了多項突破性成果,對于是否開源的問題,趙天成博士始終從更宏觀、更長遠的角度看待。
他表示:我們選擇將OmAgent框架全面開源,是因為想要鼓勵更多企業(yè)、開發(fā)者參與,通過知識共享和技術創(chuàng)新構建一個更加開放、更加豐富的智能體生態(tài),進而能夠帶動整個行業(yè)更好的發(fā)展。
OmAgent框架不僅包含了感知、記憶、決策等綜合模塊,并整合融入OmDet、OmChat等多個不同類型的大模型能力,極大方便企業(yè)與開發(fā)者的應用開發(fā),推動智能體技術向更深層次、更廣領域的賦能。
通過OmAgent,能夠快速、準確解決各類場景下的復雜問題。比如,從影視劇中總找出某個問題的答案,盡管影片沒有直接呈現(xiàn)答案,但是OmAgent依然可以通過對全片的整體理解,掌握劇情并根據(jù)原片內(nèi)容進行思考、作答。
Step 01
Step 02
Step 03
Step 04
目前,OmAgent框架已全面開源。
在WAIC,聯(lián)匯科技對OmAgent做了完整的現(xiàn)場互動演示。
為了讓智能體更快地融入日常工作與生活,聯(lián)匯正式發(fā)布了Om多模態(tài)智能體全新產(chǎn)品系列——空間運營智能體、知識服務智能體,為行業(yè)用戶打造“超級助手”。
空間運營智能體是通過攝像頭、拾音器等物聯(lián)設備以及接入的各類數(shù)據(jù)源對空間物理環(huán)境全面感知,深度融入大模型的思考能力,準確處理、分析多模態(tài)數(shù)據(jù)信息,洞察運營中的關鍵問題、潛在機會,基于智能體角色設定的目標任務,結合記憶和學習,實現(xiàn)面向物理空間的思考、規(guī)劃與決策,成為用戶進行空間管理的得力助手。
應用范圍覆蓋線下零售、營業(yè)廳、機房、產(chǎn)業(yè)園區(qū)、文旅景區(qū)、城市街區(qū)等各類單體空間、連鎖環(huán)境,實現(xiàn)對空間的精細化運營與管理。
相較于空間運營智能體對現(xiàn)實物理世界的運營管理,知識服務智能體更強調(diào)對數(shù)字世界的管理和對數(shù)字資產(chǎn)的價值挖掘。
它可以作為專為行業(yè)定制的人工智能助手,廣泛應用于辦公、生產(chǎn)、運維、營銷、培訓、客服等場景,將企業(yè)、組織和個人在特定領域內(nèi)積累的經(jīng)驗、技術、業(yè)務流程等轉化為結構化的行業(yè)專用知識,通過知識管理、知識檢索、知識問答與知識生成等核心能力,提升用戶決策質量、優(yōu)化操作流程,最終將無形的知識資產(chǎn)轉化為有形的生產(chǎn)力。
2024無疑將是智能體元年,智能體也正在成為大模型落地的最佳途徑。
關于未來,趙天成博士透露了他的預判——
智能體的未來不是單打獨斗,而是大模型的組合拳,尤其是當多種類大模型協(xié)同作戰(zhàn)時,它們能釋放出遠超單一大語言模型的潛力。
智能體將打破傳統(tǒng)聊天機器人的界限,它們的應用形態(tài)將經(jīng)歷一場革新,變得更加多樣化和深入人類活動的各個方面。
隨著邊緣AI的興起,大模型將不再局限于大型服務器,它們將走向邊緣,被嵌入到眾多小型設備中,實現(xiàn)真正的無處不在。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )