大模型賦能智能座艙“能聽會看”,NVIDIA 深度適配通義千問大模型

極客網(wǎng)·人工智能(杭州)9月20日杭州云棲大會消息, NVIDIA DRIVE Orin系統(tǒng)級芯片實現(xiàn)了與阿里云通義千問多模態(tài)大模型Qwen2-VL的深度適配。阿里云、斑馬智行聯(lián)合NVIDIA英偉達推出艙駕融合大模型解決方案,基于通義大模型開發(fā)“能聽會看”的智能座艙助理,讓車內(nèi)人員通過語音交流就能操作座艙內(nèi)的各類應用,享受極致豐富的交互體驗。

AI大模型正在引領新一輪產(chǎn)業(yè)變革,汽車行業(yè)是最受關注的大模型應用領域之一。作為“大模型上車”的重要切入點,汽車座艙的智能進化廣受期待。大模型接入智能座艙,有望為乘客提供座艙環(huán)境控制、車內(nèi)休閑娛樂、駕駛行為監(jiān)測等擬人化的服務。

圖片8.jpg 

通義大模型的智能座艙解決方案,能為座艙配備一位具備感知、思考、決策能力的“智能助理”,它不僅能觀察理解用戶的語音、手勢,還能根據(jù)環(huán)境信息和常識判斷做出自主決策。乘客無需物理按鍵,只要動動嘴巴,就能讓智能助理完成各種任務。

這個解決方案以通義大模型為“大腦”,集成了通義大語言模型Qwen2-7B和通義多模態(tài)模型Qwen2-VL。Qwen2-VL是阿里通義實驗室研發(fā)的新一代視覺語言模型,具備業(yè)界最強的圖片識別能力和視覺智能體能力,在多個國際權威測評中創(chuàng)下同等尺寸最優(yōu)成績。Qwen2-VL的2B和7B參數(shù)模型因其性能和尺寸的“極致性價比”,尤其適合汽車等端側場景。同時,通義實驗室最新發(fā)布的 Mobile Agent V3 首次落地汽車座艙場景,提供座艙屏幕感知、復雜任務規(guī)劃以及座艙應用 UI的操作決策能力,大大擴展座艙智能助理的能力邊界。

圖片7.jpg 

跑在NVIDIA DRIVE Orin芯片上的Qwen-VL,可以自動識別右側畫面信息,并回答用戶的提問,如“我可以在這停車嗎?”

本次解決方案基于端云一體架構,端側通義大模型經(jīng)NVIDIA 英偉達自動駕駛和座艙芯片NVIDIA DRIVE Orin加速。NVIDIA英偉達提供了強大的芯片適配技術支持,通過優(yōu)化GPU 架構和驅動軟件,確保充分發(fā)揮大模型的性能潛力。NVIDIA的模型加速技術有效降低了大模型在實時處理復雜任務時的計算成本和時間延遲,為用戶創(chuàng)造了流暢無阻的智能體驗。未來,通義大模型還將采用 NVIDIA DRIVE Thor新一代集中式車載計算平臺。

阿里旗下的智能出行解決方案提供商斑馬智行,為艙駕融合多模態(tài)大模型解決方案的落地提供了工程環(huán)境,將大模型能力絲滑嵌入汽車座艙、匹配用戶操作習慣。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )

贊助商
2024-09-20
大模型賦能智能座艙“能聽會看”,NVIDIA 深度適配通義千問大模型
9月20日杭州云棲大會消息, NVIDIA DRIVE Orin系統(tǒng)級芯片實現(xiàn)了與阿里云通義千問多模態(tài)大模型Qwen2-VL的深度適配。

長按掃碼 閱讀全文