123,123

阿里云通義開源Qwen2.5-VL，視覺理解能力全面超越GPT-4o

人閱讀

2025-01-28 20:54:58

相關(guān)關(guān)鍵詞
- 阿里云通義開源

1月28日凌晨，阿里云通義千問開源全新的視覺模型Qwen2.5-VL，推出3B、7B和72B三個(gè)尺寸版本。其中，旗艦版Qwen2.5-VL-72B在13項(xiàng)權(quán)威評測中奪得視覺理解冠軍，全面超越GPT-4o與Claude3.5。新的Qwen2.5-VL能夠更準(zhǔn)確地解析圖像內(nèi)容，突破性地支持超1小時(shí)的視頻理解，無需微調(diào)就可變身為一個(gè)能操控手機(jī)和電腦的AI視覺智能體（Visual Agents），實(shí)現(xiàn)給指定朋友送祝福、電腦修圖、手機(jī)訂票等多步驟復(fù)雜操作。

圖片1.jpg

通義團(tuán)隊(duì)此前曾開源Qwen-VL及Qwen2-VL兩代模型，支持開發(fā)者在手機(jī)、汽車、教育、金融、天文等不同場景進(jìn)行AI探索，Qwen-VL系列模型全球總下載量超過3200萬次，是業(yè)界最受歡迎的多模態(tài)模型。今天，Qwen-VL再度全新升級到第三代版本。根據(jù)評估，此次發(fā)布的旗艦型模型Qwen2.5-VL-72B-Instruct斬獲OCRBenchV2、MMStar、MathVista等13項(xiàng)評測冠軍，在包括大學(xué)水平的問答、數(shù)學(xué)、文檔理解、視覺問答、視頻理解和視覺智能體方面表現(xiàn)出色，全面超越GPT-4o與Claude3.5；Qwen2.5-VL-7B-Instruct 在多個(gè)任務(wù)中超越了 GPT-40-mini。

新的Qwen2.5-VL視覺知識解析能力實(shí)現(xiàn)了巨大飛躍：不僅能準(zhǔn)確識別萬物，還能解析圖像的布局結(jié)構(gòu)及其中的文本、圖表、圖標(biāo)等復(fù)雜內(nèi)容，從一張app截圖中就能分析出插圖和可點(diǎn)按鈕等元素；可精準(zhǔn)定位視覺元素，擁有強(qiáng)大的關(guān)鍵信息抽取能力，比如準(zhǔn)確識別和定位馬路上騎摩托車未戴頭盔的人，或是以多種格式提取發(fā)票中的核心信息并做結(jié)構(gòu)化的推理輸出；OCR能力提升到全新水平，更擅長理解圖表并擁有更全面的文檔解析能力，在精準(zhǔn)識別的內(nèi)容同時(shí)還能完美還原文檔版面和格式。

圖片2.jpg 圖片3.jpg

圖說：Qwen2.5-VL可精準(zhǔn)定位視覺元素，在理解圖表和文檔方面優(yōu)勢顯著

Qwen2.5-VL 的視頻理解能力也大幅增強(qiáng)，可以更好地看清動態(tài)世界。在時(shí)間處理上，新模型引入了動態(tài)幀率（FPS）訓(xùn)練和絕對時(shí)間編碼技術(shù)，使得Qwen2.5-VL不僅能夠能夠準(zhǔn)確地理解小時(shí)級別的長視頻內(nèi)容，還可以在視頻中搜索具體事件，并對視頻的不同時(shí)間段進(jìn)行要點(diǎn)總結(jié)，從而快速、高效地幫助用戶提取視頻中蘊(yùn)藏的關(guān)鍵信息。打開攝像頭，你就能與Qwen2.5-VL實(shí)時(shí)對話。

視覺感知、解析及推理能力的增強(qiáng)，讓大模型自動化完成任務(wù)、與真實(shí)世界進(jìn)行復(fù)雜交互成為可能。Qwen2.5-VL甚至能夠直接作為視覺智能體進(jìn)行操作，而無需特定任務(wù)的微調(diào)，比如讓模型直接操作電腦和手機(jī)，根據(jù)提示自動完成查詢天氣、訂機(jī)票、下載插件等多步驟復(fù)雜任務(wù)。開發(fā)者基于Qwen2.5-VL也能快速簡單開發(fā) 屬于自己的AI智能體，完成更多自動化處理和分析任務(wù)，比如自動核驗(yàn)快遞單地址與照片中的門牌號是否對應(yīng)，根據(jù)家庭攝像頭判斷貓咪狀況進(jìn)行自動喂食，自動進(jìn)行火災(zāi)報(bào)警等。

圖片4.jpg

動圖：Qwen2.5-VL手機(jī)端AI Agent 演示：幫我給我的QQ好友張三，發(fā)送一條新春祝福

在模型技術(shù)方面，與Qwen2-VL相比，Qwen2.5-VL增強(qiáng)了模型對時(shí)間和空間尺度的感知能力，并進(jìn)一步簡化了網(wǎng)絡(luò)結(jié)構(gòu)以提高模型效率。Qwen2.5-VL創(chuàng)新地利用豐富的檢測框、點(diǎn)等坐標(biāo)，讓模型直接感知和學(xué)習(xí)圖片在空間展示上的尺寸大??；同時(shí)，在時(shí)間維度也引入了動態(tài)FPS訓(xùn)練和絕對時(shí)間編碼，進(jìn)而擁有通過定位來捕捉事件的全新能力。而在重要的視覺編碼器設(shè)計(jì)中，通義團(tuán)隊(duì)從頭開始訓(xùn)練了原生動態(tài)分辨率的ViT，并采用RMSNorm和SwiGLU的結(jié)構(gòu)使得ViT和LLM保持一致，讓Qwen2.5-VL擁有更簡潔高效的視覺編解碼能力。

圖片5.jpg

圖說：Qwen2.5-VL模型結(jié)構(gòu)圖

目前，不同尺寸及量化版本的Qwen2.5-VL模型已在魔搭社區(qū)、HuggingFace等平臺開源，開發(fā)者也可以在Qwen Chat上直接體驗(yàn)最新模型。

附鏈接：

QwenChat：https://chat.qwenlm.ai/

魔搭社區(qū)：https://www.modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47

HuggingFace：https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

（完）

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）