123,123,123

原標(biāo)題：讓計(jì)算機(jī)“看懂”所有東西？視覺智能超越人類的下一步如何進(jìn)化

機(jī)器視覺帶來什么？

讓無人駕駛“阿波龍”更安全地在路上行駛

讓醫(yī)生們多一雙不知疲倦的眼睛進(jìn)行診斷

讓“看透”世界的機(jī)器人進(jìn)入災(zāi)區(qū)挽救傷員

就像一個(gè)歌詞所寫，“讓我做你的眼睛，那樣你才看得清”。視覺智能已經(jīng)從模仿人類到超越人類，在人類持續(xù)進(jìn)化中，它也在不斷自我進(jìn)化中。

在上一期《AI應(yīng)用 | 從感知到認(rèn)知，人工智能的現(xiàn)在與未來》，我們介紹了人工智能的核心技術(shù)，這一期我們?nèi)耘f從技術(shù)角度介紹視覺智能。

什么是視覺智能？在《百度大腦領(lǐng)導(dǎo)力白皮書》中定義為，計(jì)算機(jī)視覺是使用計(jì)算機(jī)模仿人類視覺系統(tǒng)的科學(xué)，讓計(jì)算機(jī)擁有類似人類提取、處理、理解和分析圖像以及圖像序列的能力。

人類視覺是否不斷進(jìn)化？

讓計(jì)算機(jī)擁有“眼睛”，這不是簡單給計(jì)算機(jī)安裝攝像頭或者傳感器就可以實(shí)現(xiàn)的，還涉及到“眼睛”的進(jìn)化。

比如人類的視覺系統(tǒng)的硬件是由“角膜、虹膜、晶狀體及視網(wǎng)膜”構(gòu)成，是否還在繼續(xù)進(jìn)化，科學(xué)界仍有爭議。

如果說停止了進(jìn)化，為什么人類還存在藍(lán)色眼睛？藍(lán)色眼睛被認(rèn)為最早出現(xiàn)在兩萬年前的土耳其地區(qū)，在此之前，人類的眼睛都是以棕褐色為主。

也許這是人類視覺系統(tǒng)持續(xù)進(jìn)化的佐證之一。

正由于“眼睛”在不斷進(jìn)化中，人類才能從“智人”發(fā)展到現(xiàn)在的人類，具有看清楚的能力（視力）、感知顏色和亮度、還有對空間頻率和時(shí)間頻率的感知。

可以說，視覺一直都是人類最重要的感知系統(tǒng)，如今在人工智能時(shí)代，這一能力也被“移植”過來，努力讓計(jì)算機(jī)“看懂”所有東西。

先模仿再超越

“讓機(jī)器看到”的第一步就從模仿人類開始。那么在技術(shù)如何實(shí)現(xiàn)？

這起源于20世紀(jì)50年代的統(tǒng)計(jì)模式識別的計(jì)算機(jī)視覺，主要基于二維技術(shù)研究，但結(jié)果遠(yuǎn)不如人類視覺。

在如今公認(rèn)的第三階段的人工智能中，由于深度學(xué)習(xí)算法的突破，直接推動(dòng)了神經(jīng)網(wǎng)絡(luò)算法的發(fā)展。有趣的是，人類的大腦皮層有一半的神經(jīng)元與視覺有關(guān)，這與神經(jīng)網(wǎng)絡(luò)算法中的“神經(jīng)元”很類似。一旦借鑒人類“視覺”系統(tǒng)之后，神經(jīng)網(wǎng)絡(luò)算法直接成為計(jì)算機(jī)視覺的技術(shù)引擎，讓視覺智能應(yīng)用場景豐富起來。

現(xiàn)在，計(jì)算機(jī)視覺在某些方面甚至超出人類。人眼識別的錯(cuò)誤率一般為5.1%，而在2012 ImageNet大規(guī)模視覺識別挑戰(zhàn)賽中，計(jì)算機(jī)視覺錯(cuò)誤率已經(jīng)下降到了3.57%。

當(dāng)機(jī)器超越人類這一拐點(diǎn)出現(xiàn)，預(yù)計(jì)著視覺智能應(yīng)用的大規(guī)模爆發(fā)。

圖像理解：看得清清楚楚

根據(jù)解決的問題，計(jì)算機(jī)視覺可分為圖像理解、三維視覺、動(dòng)態(tài)視覺三大類。

一是圖像理解，讓計(jì)算機(jī)看懂圖像、物體的邊緣、邊界甚至是可以識別、檢測姿態(tài)和圖像文字說明等，舉例幾個(gè)應(yīng)用場景。

例子1：你現(xiàn)在想要辦理消費(fèi)分期、在線貸款、在線考試等……可能會(huì)涉及到風(fēng)險(xiǎn)認(rèn)證，而主要手段就是靠人臉識別。

例子2：你在公共場所抽煙，那么這種違規(guī)行為都會(huì)進(jìn)入智慧安防中的機(jī)器人“法眼”中，像百度云對“抽煙”行為能有好幾種判斷，這都是建立在“看清楚”的基礎(chǔ)之上。

例子3：“不減十斤不換頭像”的你還可以進(jìn)行健康管理，在APP中識別出圖像中的菜品及熱量，還能顯示菜品信息和健康管理建議。同理，在智慧餐廳中，拍攝餐盤就能快速結(jié)算；你拿起手機(jī)掃描物體就能進(jìn)行植物識別、動(dòng)物識別，瞬間成科普專家。

這都是圖像理解的應(yīng)用場景。

三維視覺：像人類一樣具有“讀心術(shù)”

機(jī)器視覺還在不斷升級中，可以模仿人類的眼睛以三維視覺對周圍環(huán)境進(jìn)行精確的定位。

我們在偵探類作品中常看到讀心術(shù)，其實(shí)這是讀微表情。百度云的“情緒識別專家”，透過鏡頭可以捕捉人的微表情，一不小心就可能比你更懂你的情緒。

現(xiàn)在，百度云將三維視覺應(yīng)用在人臉識別上，活體識別正確率已經(jīng)提升至99.55%。三維視覺技術(shù)可以廣泛應(yīng)用于機(jī)器人、無人駕駛、智慧工廠、虛擬/增強(qiáng)現(xiàn)實(shí)等方向。

那么，這怎么實(shí)現(xiàn)的？

主要體現(xiàn)在兩層：

硬件層面，百度云有適用于三維視覺的立體視覺AI傳感器，并且采用三維AI視覺模組，使成本大大降低。

軟件層面，開發(fā)了從實(shí)時(shí)端上運(yùn)算到大規(guī)模云端分布式計(jì)算等多種算法。

動(dòng)態(tài)視覺：“看透”不是難事

在二維、三維等靜態(tài)圖像識別技術(shù)相對成熟之后，百度開始探索讓計(jì)算機(jī)看懂視頻的技術(shù)。

嫌視頻直播不夠好玩？機(jī)器人可以在視頻中識別，用戶人體輪廓，實(shí)時(shí)增加各種設(shè)定的背景特效、貼紙道具，讓你的娛樂體驗(yàn)更豐富。
影視后期工作量大？機(jī)器人也可以識別出影視作品中的人像區(qū)域，進(jìn)行一鍵摳像、背景替換等后期處理。

百度云視覺技術(shù)已經(jīng)把世界“看透”?；诎俣热S視覺技術(shù)，機(jī)器可以像人一樣看透世界，從而更好地在AR、新零售、工程機(jī)械等領(lǐng)域施展才能?；趧?dòng)態(tài)視覺研究，可以更好地進(jìn)行視頻分析以及人機(jī)交互。

當(dāng)前，百度計(jì)算機(jī)視覺技術(shù)也已全線開放，包括人臉識別、文字識別（OCR）、圖像審核、圖像識別、圖像搜索5大類別，58項(xiàng)基礎(chǔ)能力，已服務(wù)于幾十萬開發(fā)者。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

讓計(jì)算機(jī)“看懂”所有東西？視覺智能超越人類的下一步如何進(jìn)化

下一篇