1月26日,阿里云公布多模態(tài)大模型研究進(jìn)展。通義千問視覺理解模型Qwen-VL再次升級,繼Plus版本之后,再次推出Max版本,升級版模型擁有更強的視覺推理能力和中文理解能力,能夠根據(jù)圖片識人、答題、創(chuàng)作、寫代碼,并在多個權(quán)威測評中獲得佳績,比肩OpenAI的GPT-4V和谷歌的Gemini Ultra。
LLM(大語言模型)之后,大模型領(lǐng)域的下一個爆點是什么?多模態(tài)是當(dāng)前最具共識的方向。過去半年來,OpenAI、谷歌等爭相推出多模態(tài)模型,阿里云也在2023年8月發(fā)布并開源具備圖文理解能力的Qwen-VL模型,Qwen-VL取得了同期遠(yuǎn)超同等規(guī)模通用模型的表現(xiàn)。
視覺是多模態(tài)能力中最重要的模態(tài),作為人類感知世界、認(rèn)知世界的第一感官,視覺傳遞的信息占據(jù)了“五感”信息的80%。通義千問視覺語言模型基于通義千問LLM開發(fā),通過將視覺表示學(xué)習(xí)模型與LLM對齊,賦予AI理解視覺信息的能力,在大語言模型的“心靈”上開了一扇視覺的“窗”。
相比Qwen-VL,Qwen-VL-Plus和Qwen-VL-Max擁有更強的視覺推理和中文理解能力,整體性能堪比GPT-4V和Gemini Ultra。在MMMU、MathVista等測評中遠(yuǎn)超業(yè)界所有開源模型,在文檔分析(DocVQA)、中文圖像相關(guān)(MM-Bench-CN)等任務(wù)上超越GPT-4V,達(dá)到世界最佳水平。
基礎(chǔ)能力方面,升級版模型能夠準(zhǔn)確描述和識別圖片信息,并且根據(jù)圖片進(jìn)行信息推理、擴(kuò)展創(chuàng)作;具備視覺定位能力,還可針對畫面指定區(qū)域進(jìn)行問答。
視覺推理方面,Qwen-VL-Plus和Qwen-VL-Max可以理解流程圖等復(fù)雜形式圖片,可以分析復(fù)雜圖標(biāo),看圖做題、看圖作文、看圖寫代碼也不在話下。
Qwen-VL-Max看圖做題
圖像文本處理方面,升級版Qwen-VL的中英文文本識別能力顯著提高,支持百萬像素以上的高清分辨率圖和極端寬高比的圖像,既能完整復(fù)現(xiàn)密集文本,也能從表格和文檔中提取信息。
Qwen-VL-Max復(fù)現(xiàn)密集文本
相比LLM,多模態(tài)大模型擁有更大的應(yīng)用想象力。比如,有研究者在探索將多模態(tài)大模型與自動駕駛場景結(jié)合,為“完全自動駕駛”找到新的技術(shù)路徑;將多模態(tài)模型部署到手機、機器人、智能音箱等端側(cè)設(shè)備,讓智能設(shè)備自動理解物理世界的信息;或者基于多模態(tài)模型開發(fā)應(yīng)用,輔助視力障礙群體的日常生活,等等。
目前,Qwen-VL-Plus和Qwen-VL-Max限時免費,用戶可以在通義千問官網(wǎng)、通義千問APP直接體驗Max版本模型的能力,也可以通過阿里云靈積平臺(DashScope)調(diào)用模型API。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 騰訊隱身,令人生畏
- 迪卡儂的價格、lululemon的品質(zhì),平替正成為年輕消費者的心頭好
- 三場與AI有關(guān)的死亡
- 100億美元史上最大融資的背后,國內(nèi)外巨頭齊瞄準(zhǔn)Data+AI
- 有一種羨慕叫“別人家的年終獎”:京東采銷平均23薪,全網(wǎng)熱議“人的價值”
- 行業(yè)首個“人機大戰(zhàn)”對壘!AI翻譯已媲美人工
- 蘋果開啟年終大促,降價1200元,被國產(chǎn)手機嚇怕了?
- 1999 元起,OPPO A5 Pro 超防水、超抗摔、超耐用
- 長三角,如何把數(shù)據(jù)要素變成新長江?
- 大模型,在內(nèi)卷中尋找出口
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。