阿里、微軟“看圖說話”AI系統(tǒng)競賽,WiMi微美全息機器人AI視覺突出

隨著材料科學、感知人工智能以及5G、云等網絡技術的不斷進步,將出現(xiàn)護理機器人、仿生機器人、社交機器人、管家機器人等形態(tài)豐富的機器人,涌現(xiàn)在家政、教育、健康服務業(yè),帶給人類新的生活方式。以5G、AR/VR、全息技術、機器學習等新技術使能的超級視野,將幫助我們突破空間、表象、時間的局限,見所未見,賦予人類新的能力。

近日,來自中國AI在這項能力上已經打破了世界紀錄。在第二屆全球AI視覺對話競賽(Visual Dialogue Challenge)中,阿里AI擊敗了微軟、首爾大學等十支參賽隊伍,一舉獲得冠軍。

這場視覺對話競賽由美國佐治亞理工大學、Facebook人工智能實驗室(FAIR)等機構聯(lián)合全球視覺技術領域頂級學術會議CVPR發(fā)起,是目前視覺對話領域最權威的競賽之一。

競賽結果顯示,阿里AI以74.57%的準確率獲得冠軍,將上一屆比賽的紀錄提高了16.82%,并且超過微軟AI的64.78%的準確率。而在相同的數(shù)據(jù)集中,人類的準確率僅為64.27%,AI甚至勝過了人類。傳統(tǒng)的視覺AI主要針對目標的檢測和識別,但對復雜場景中目標之間的邏輯關系理解、推理能力較弱,無法回答表達圖片對象直接關系的復雜問題,也難以將圖片信息轉化為人類理解的語言輸出。這意味著,要實現(xiàn)視覺對話能力,傳統(tǒng)的視覺AI在學會“看圖”之后,還要有一種語言模型來支撐它“說話”。阿里AI的突破就在于提出了“遞歸探索對話模型”

目前微軟還開放了能“看圖說話”的AI系統(tǒng),用戶進入官網www.captionbot.ai 上傳圖片,稍等一會,就能看到系統(tǒng)對于圖片的描述。其準確率雖然不低但依舊有待提升,以一張曾經廣為流傳的黑人問號表情圖片為例,AI很快給出了客觀的回答:“我覺得這是籃球隊員尼克·楊露出牙齒微笑。”

阿里、微軟“看圖說話”AI系統(tǒng)競賽,WiMi微美全息機器人AI視覺突出

以“看圖說話”為代表的視覺對話是近年來快速崛起的AI研究方向,目的在于教會機器用自然語言與人類討論視覺內容,這能夠使機器擁有了對真實視覺世界的理解與推斷能力,也意味著AI的認知能力將邁上新的臺階。

正如《2001太空漫游》《流浪地球》等科幻大片中無障礙的人機對話系統(tǒng)所描繪的那樣,擁有智能視覺對話能力的AI隨著技術的不斷突破,正在向我們走來。

市場研究機構 IDC 最新發(fā)布的《全球半年度 AI 系統(tǒng)支出指南》顯示,亞太地區(qū) 2019 年在人工智能 (AI) 系統(tǒng)方面的支出預計將達到 55 億美元,比 2018 年增長近 80 %。隨著各行各業(yè)積極投資于利用 AI 軟件功能的項目,預計 2022 年將增至 150.6 億美元。亞太地區(qū)正迅速推動 AI 應用迅速增長,因為其數(shù)字生態(tài)系統(tǒng)非常適合這種新生技術發(fā)展。

人體識別指的是運用計算機技術在視頻流或圖像中對人體進行檢測、屬性描述以及行為識別,如我們熟知的人體檢測與跟蹤、人體關鍵點定位、人像分割、人體行為識別 ReID 技術、手勢識別等。

微美全息專注于計算機視覺全息云服務,微美全息覆蓋從全息計算機視覺AI合成、全息視覺呈現(xiàn)、全息互動軟件開發(fā)、全息AR線上及線下廣告投放、全息ARSDK支付、5G全息通訊軟件開發(fā)、全息人臉識別開發(fā)、全息AI換臉開發(fā)等全息AR技術的多個環(huán)節(jié),是一家全息云綜合技術方案提供商。

微美全息十分注重底層技術的研發(fā),憑借多年來在計算機視覺領域的耕耘與積累,微美全息已經完成了從0到1的技術沉淀、打磨,微美的AI視覺技術已經到了成熟落地,各項技術指標也達到了行業(yè)的領先水平。技術成熟后,微美著重規(guī)劃了從1到N落地應用,其中機器人是規(guī)劃中非常重要的一環(huán)。微美全息云產品布局商業(yè)應用場景主要聚集在家用娛樂、光場影院、演藝系統(tǒng)、商業(yè)發(fā)布系統(tǒng)及廣告展示系統(tǒng)等五大專業(yè)領域。

微美的全息圖像處理功能定期進行優(yōu)化和改進,包括兩項核心技術:全息AI面部識別技術和全息AI面部變化技術。由于視頻處理和識別技術的發(fā)展,微美基于圖像檢測、識別、模板匹配、圖像動態(tài)融合和替換的全息AR廣告和全息成像服務目前在行業(yè)中處于領先地位。

全息面部變化技術基于全息3D圖層替換技術,包括基于AI的圖像識別和動態(tài)融合處理技術,實時跟蹤圖像以及用其他面部替換面部。該技術取代視頻幀中的人臉,合成視頻并添加原始音頻。微美已經在全息AR插件廣告應用中驗證了這些技術模塊,并將繼續(xù)開發(fā)和升級這些技術模塊。微美相信這項技術將為名人廣告,電影發(fā)行和直播視頻流等應用帶來新的業(yè)務增長。

圖:全息三維人臉識別技術

阿里、微軟“看圖說話”AI系統(tǒng)競賽,WiMi微美全息機器人AI視覺突出

同時,機器人行業(yè)也迫切需要AI視覺技術的支持來突破技術瓶頸,解決機器人現(xiàn)有成本、智能化等問題。通過微美全息的圖像語義技術,機器人可以進行圖像識別、語義分割,結合深度數(shù)據(jù)可以幫助機器人建立語義地圖,實現(xiàn)對周圍環(huán)境的立體感知與理解,使機器人具備從識別到決策的AI交互能力,實現(xiàn)諸如目標行人追蹤、服務機器人送餐上門等功能,大幅提升機器人的智能水平。

近日,中國華為技術有限公司發(fā)布了全球產業(yè)展望報告GIV2025,認為智能世界正在加速而來,觸手可及。根據(jù)該報告的預測,到2025年,智能技術將滲透到每個人、每個家庭、每個組織,全球58%的人口將能享有5G網絡,14%的家庭擁有“機器人管家”,97%的大企業(yè)將應用人工智能。華為全球信息和通信技術基礎設施業(yè)務首席營銷官張宏喜表示:“人類的探索永不止步,從地球到太空要飛得更高,從過去到未來要看得更遠,從創(chuàng)新到創(chuàng)造要想得更深。今天,以人工智能、5G、云計算為主導的第四次工業(yè)革命所帶來的改變,正在改變各行各業(yè),推進智能世界加速到來。

極客網企業(yè)會員

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2019-08-13
阿里、微軟“看圖說話”AI系統(tǒng)競賽,WiMi微美全息機器人AI視覺突出
隨著材料科學、感知人工智能以及5G、云等網絡技術的不斷進步,將出現(xiàn)護理機器人、仿生機器人、社交機器人、管家機器人等形態(tài)豐富的機器人,涌現(xiàn)在家政、教育、健康服務業(yè)

長按掃碼 閱讀全文