原標題:讓計算機“看懂”所有東西?視覺智能超越人類的下一步如何進化
機器視覺帶來什么?
讓無人駕駛“阿波龍”更安全地在路上行駛
讓醫(yī)生們多一雙不知疲倦的眼睛進行診斷
讓“看透”世界的機器人進入災區(qū)挽救傷員
就像一個歌詞所寫,“讓我做你的眼睛,那樣你才看得清”。視覺智能已經(jīng)從模仿人類到超越人類,在人類持續(xù)進化中,它也在不斷自我進化中。
在上一期《AI應用 | 從感知到認知,人工智能的現(xiàn)在與未來》,我們介紹了人工智能的核心技術,這一期我們?nèi)耘f從技術角度介紹視覺智能。
什么是視覺智能?在《百度大腦領導力白皮書》中定義為,計算機視覺是使用計算機模仿人類視覺系統(tǒng)的科學,讓計算機擁有類似人類提取、處理、理解和分析圖像以及圖像序列的能力。
人類視覺是否不斷進化?
讓計算機擁有“眼睛”,這不是簡單給計算機安裝攝像頭或者傳感器就可以實現(xiàn)的,還涉及到“眼睛”的進化。
比如人類的視覺系統(tǒng)的硬件是由“角膜、虹膜、晶狀體及視網(wǎng)膜”構成,是否還在繼續(xù)進化,科學界仍有爭議。
如果說停止了進化,為什么人類還存在藍色眼睛?藍色眼睛被認為最早出現(xiàn)在兩萬年前的土耳其地區(qū),在此之前,人類的眼睛都是以棕褐色為主。
也許這是人類視覺系統(tǒng)持續(xù)進化的佐證之一。
正由于“眼睛”在不斷進化中,人類才能從“智人”發(fā)展到現(xiàn)在的人類,具有看清楚的能力(視力)、感知顏色和亮度、還有對空間頻率和時間頻率的感知。
可以說,視覺一直都是人類最重要的感知系統(tǒng),如今在人工智能時代,這一能力也被“移植”過來,努力讓計算機“看懂”所有東西。
先模仿再超越
“讓機器看到”的第一步就從模仿人類開始。那么在技術如何實現(xiàn)?
這起源于20世紀50年代的統(tǒng)計模式識別的計算機視覺,主要基于二維技術研究,但結果遠不如人類視覺。
在如今公認的第三階段的人工智能中,由于深度學習算法的突破,直接推動了神經(jīng)網(wǎng)絡算法的發(fā)展。有趣的是,人類的大腦皮層有一半的神經(jīng)元與視覺有關,這與神經(jīng)網(wǎng)絡算法中的“神經(jīng)元”很類似。一旦借鑒人類“視覺”系統(tǒng)之后,神經(jīng)網(wǎng)絡算法直接成為計算機視覺的技術引擎,讓視覺智能應用場景豐富起來。
現(xiàn)在,計算機視覺在某些方面甚至超出人類。人眼識別的錯誤率一般為5.1%,而在2012 ImageNet大規(guī)模視覺識別挑戰(zhàn)賽中,計算機視覺錯誤率已經(jīng)下降到了3.57%。
當機器超越人類這一拐點出現(xiàn),預計著視覺智能應用的大規(guī)模爆發(fā)。
圖像理解:看得清清楚楚
根據(jù)解決的問題,計算機視覺可分為圖像理解、三維視覺、動態(tài)視覺三大類。
一是圖像理解,讓計算機看懂圖像、物體的邊緣、邊界甚至是可以識別、檢測姿態(tài)和圖像文字說明等,舉例幾個應用場景。
例子1:你現(xiàn)在想要辦理消費分期、在線貸款、在線考試等……可能會涉及到風險認證,而主要手段就是靠人臉識別。
例子2:你在公共場所抽煙,那么這種違規(guī)行為都會進入智慧安防中的機器人“法眼”中,像百度云對“抽煙”行為能有好幾種判斷,這都是建立在“看清楚”的基礎之上。
例子3:“不減十斤不換頭像”的你還可以進行健康管理,在APP中識別出圖像中的菜品及熱量,還能顯示菜品信息和健康管理建議。同理,在智慧餐廳中,拍攝餐盤就能快速結算;你拿起手機掃描物體就能進行植物識別、動物識別,瞬間成科普專家。
這都是圖像理解的應用場景。
三維視覺:像人類一樣具有“讀心術”
機器視覺還在不斷升級中,可以模仿人類的眼睛以三維視覺對周圍環(huán)境進行精確的定位。
我們在偵探類作品中常看到讀心術,其實這是讀微表情。百度云的“情緒識別專家”,透過鏡頭可以捕捉人的微表情,一不小心就可能比你更懂你的情緒。
現(xiàn)在,百度云將三維視覺應用在人臉識別上,活體識別正確率已經(jīng)提升至99.55%。三維視覺技術可以廣泛應用于機器人、無人駕駛、智慧工廠、虛擬/增強現(xiàn)實等方向。
那么,這怎么實現(xiàn)的?
主要體現(xiàn)在兩層:
硬件層面,百度云有適用于三維視覺的立體視覺AI傳感器,并且采用三維AI視覺模組,使成本大大降低。
軟件層面,開發(fā)了從實時端上運算到大規(guī)模云端分布式計算等多種算法。
動態(tài)視覺:“看透”不是難事
在二維、三維等靜態(tài)圖像識別技術相對成熟之后,百度開始探索讓計算機看懂視頻的技術。
- 嫌視頻直播不夠好玩?機器人可以在視頻中識別,用戶人體輪廓,實時增加各種設定的背景特效、貼紙道具,讓你的娛樂體驗更豐富。
- 影視后期工作量大?機器人也可以識別出影視作品中的人像區(qū)域,進行一鍵摳像、背景替換等后期處理。
百度云視覺技術已經(jīng)把世界“看透”?;诎俣热S視覺技術,機器可以像人一樣看透世界,從而更好地在AR、新零售、工程機械等領域施展才能?;趧討B(tài)視覺研究,可以更好地進行視頻分析以及人機交互。
當前,百度計算機視覺技術也已全線開放,包括人臉識別、文字識別(OCR)、圖像審核、圖像識別、圖像搜索5大類別,58項基礎能力,已服務于幾十萬開發(fā)者。
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 華為研發(fā)中心入駐上海青浦致小鎮(zhèn)房租大漲,帶動周邊租房市場熱潮
- 華為員工涌入蘇滬兩地,房東狂歡:租金幾近翻倍,跨省租房成新常態(tài)
- 制造業(yè)巨頭空客計劃裁員2500人,應對航天業(yè)務虧損與供應鏈挑戰(zhàn)
- 科技創(chuàng)新引領產(chǎn)業(yè)發(fā)展:江陰市與清華大學攜手推進重大科技項目
- 美國或再升級出口管制:考慮限制AI芯片對中東出口
- 劉強東章澤天報案:京東發(fā)言人證實夫婦倆遭有組織造謠,警方已介入
- 東方甄選擬15億出售教育業(yè)務
- 虧764億上熱搜 蔚來裁員10%,銷量跌出前三
- IBM設立5億元AI創(chuàng)投基金
- 聯(lián)想發(fā)布 ThinkStation P8工作站
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。