騰訊優(yōu)圖賈佳亞在“騰訊·云+未來”AI大數(shù)據(jù)專場分享

騰訊優(yōu)圖實驗室杰出科學(xué)家賈佳亞,香港中文大學(xué)計算機科學(xué)工程系終身教授,于 2017 年 5 月 15 日公布消息,全職加入騰訊優(yōu)圖實驗室,負(fù)責(zé)計算機視覺、圖像處理、模式識別等人工智能領(lǐng)域的研究,及人工智能與各應(yīng)用場景結(jié)合的深度探索。

雷鋒網(wǎng)了解到,賈佳亞在加入騰訊后鮮少露面,本次在“騰訊云+未來”AI大數(shù)據(jù)專場做主題演講,也是為數(shù)不多能一窺騰訊優(yōu)圖實驗室及研究成果的公開場合。以下是賈佳亞在今日“騰訊云+未來”AI大數(shù)據(jù)專場所做的主題演講《計算機視覺前沿與應(yīng)用》,雷鋒網(wǎng)AI科技評論對速記做了不改動原意的編輯和整理。

騰訊優(yōu)圖賈佳亞在“騰訊·云+未來”AI大數(shù)據(jù)專場分享:計算機視覺有哪三種打開方式?

謝謝大家,剛才蔣杰和王龍都介紹了騰訊在整個騰訊云的部署中,其硬件和它的基礎(chǔ)構(gòu)架上的優(yōu)勢,我覺得這是一個非常重要的部分。

我今天給大家講講在 AI 的算法層面,我們能做什么事情。騰訊優(yōu)圖團(tuán)隊在世界上是做圖像識別算法非常有優(yōu)勢的,我們有很強的研發(fā)團(tuán)隊,在深圳、香港、上海都有自己的研發(fā)隊伍。這是騰訊這幾年變化最大的地方,也就是我們會把新的技術(shù)、新的能力、新的硬件、新的軟件全部提供給大家,希望給各位有需求的公司或者是業(yè)務(wù)人員有更加強大的助力。

計算機視覺是什么?它其實就是一種人的理解,我們看到東西的時候,不僅僅是看到紅綠藍(lán)三種顏色,這是我們最基本的對顏色的理解。但是當(dāng)我們看一張圖象的時候,我們不會分離看每一種顏色,我們會把它看成一個整體。這個圖是我非常喜歡的,但是我想找到是誰創(chuàng)造的,在網(wǎng)上很難找到是誰發(fā)明的圖片,這張圖片是一張非常完美的正連和側(cè)臉的結(jié)合,從一個角度看,你可以說這是一張正臉,你也可以說是一個側(cè)臉。

什么叫計算機視覺?計算機視覺的目標(biāo)是讓計算機程序能夠解讀和理解圖片,不僅僅是顏色,而是能夠更高層的理解它的語義、理解它的特征,從表面來看這個事情是很簡單的,事實上很難。1983 年,華盛頓第一次召開計算機視覺大會(雷鋒網(wǎng)(公眾號:雷鋒網(wǎng))AI 科技評論按:即 CVPR,國際計算機視覺與模式識別會議),到現(xiàn)在已經(jīng)超過了 30 年的歷史。在這 30 多年中,對我們現(xiàn)在很多從業(yè)者,或者在工業(yè)界的朋友而言,其實他們并不了解這 30 年里研究者們到底干了什么事情,有什么發(fā)生了。但是到了云的時代,我們會發(fā)現(xiàn)能更加直接地對云的技術(shù)進(jìn)行展示,我們也能更加多地接觸到用戶使用這種技術(shù)。

我們怎么看待這個世界?首先我們要理解計算機視覺為什么要在 1983 年開始?你想想 1983 年的時候大家在用什么樣的計算機?我之前在別的地方進(jìn)行過一個講座,我問大家還記不記得 2000 年的時候我們的是用什么樣的計算機。那時候是沒有 LED 和 LCD 的,那時候是用的很笨重的、很大的顯示器,那時候用的手機是諾基亞,沒有彩色屏幕,全部是一個單獨的小機器,上面一個很小的屏幕。但在 1983 年的時候,我們這個領(lǐng)域開始建立起來的時候,那時候連計算機的基本能力都不具備,但是當(dāng)時很多的科學(xué)家已經(jīng)在開始想象,我們能不能在衛(wèi)星圖像上,比如說當(dāng)時在軍事運用上,或者是在一些非常高精尖的應(yīng)用上,在衛(wèi)星或者是載人飛船上面,能不能利用一些機器幫助人們解決問題,所以那時候就開始了這方面的研究。

這個研究是一種類比,我們之所以研究對視覺的理解過程,是因為我們?nèi)搜劬褪且环N自然智能,我們能看到東西,當(dāng)我們看到東西之后,我們就會自然想象,我能不能讓一個機器也看到東西,這是很自然的。當(dāng)然我們現(xiàn)在能隔空打物,我也想設(shè)計一個新的方案讓機器也隔空打物,顯然我們現(xiàn)在還不行,所以也不會讓機器也這樣。

在大腦皮層里,超過 50% 的神經(jīng)原細(xì)胞是處理視覺的,所以我們說計算機視覺是最重要的方向,它代表了信息的多樣性和可用的信息。

計算機視覺有三個打開方式,第一個是語義理解、識別、檢測。當(dāng)我們看到一張圖的時候,我們能不能像人一樣分析這張圖里有什么東西。比如說現(xiàn)在這樣一個在開車的人,當(dāng)然這明明是一個人,只是他戴了一個頭套,計算機會檢測到這里面有一個狼,然后它有藍(lán)色的眼睛,同時還在開車,這是一個理解過程、檢測過程,這就是語義的理解、識別、檢測,這是非常重要的一個計算機視覺的內(nèi)容,在騰訊云上以后也會陸續(xù)輸出這些部分。

騰訊優(yōu)圖賈佳亞在“騰訊·云+未來”AI大數(shù)據(jù)專場分享:計算機視覺有哪三種打開方式?

其次是不受想象力約束的神奇效果。前幾年有一個電影是講你在一個夢境里的變化,就是你不停地下樓梯,每次下到最后都回到原點。這個事情我們作為科學(xué)家來研究到底是什么原理,我們用軟件重構(gòu)了這樣一個系統(tǒng),我們確實可以在視覺模式上把它搭建起來,雖然在語義邏輯上不是很好理解的,但是我們在視覺上確實可以體現(xiàn)出來,最終產(chǎn)生很酷炫的效果,比如說這個球,它還可以在這上面跳來跳去,跳到最后它就回到原點了,你看他每次都在下臺階,結(jié)果卻回到了原來的起點,這是一個特殊的神奇效果,在視覺上可以做的事情。

還有一些固有需求的圖像視頻計算,比如說我們需要通過一張圖像把一些最重要的內(nèi)容提取出來。

第一個打開方式,理解識別。理解識別的應(yīng)用是非常廣泛的,這張圖是 2006—2012 年我們這個領(lǐng)域里的一個非常大的競賽,這個競賽叫做 PASCAL,這個競賽是給你超過 1000 張圖像,希望你從這幾千張圖像里面找出其中 20 個物體的類別。從 2009 年到 2012 年,在這個領(lǐng)域里有超過 20 種方法解決這個問題,它的準(zhǔn)確率不斷提高,但是它始終是有瓶頸的,因為類別很少,我們發(fā)現(xiàn)大家對這個比賽的認(rèn)可度也就慢慢降低了。

后來出現(xiàn)了這個領(lǐng)域里最出名的一個比賽叫做 IMAGE NET,這是斯坦福大學(xué)的幾個教授發(fā)起的比賽,它推翻了原來所有一切的競賽規(guī)則,他說現(xiàn)在在整個數(shù)據(jù)庫里包含了超過 14000 萬張圖像,相比以前的幾千張或者幾萬張圖象,這是一個巨大的進(jìn)步,在量級上是完全不可同日而語的,同時它有超過 2 萬多種類別,你告訴我這張圖象是屬于 2 萬個類別的哪一個,這一個非常大的匹配過程和檢測過程,所以 IMAGE NET 推翻了當(dāng)時對數(shù)據(jù)的理解,以前大家專注于做小數(shù)據(jù),因為大家覺得反正我沒有大數(shù)據(jù),不如就做小數(shù)據(jù),當(dāng)你在學(xué)術(shù)界真正的把大數(shù)據(jù)放出來的時候,是有更多的研究人員愿意去跟上的。

這張圖是告訴大家,我們從 2010 年到 2014 年的時候,開始在這個數(shù)據(jù)庫上做事情,最開始 2010 年的時候,大家發(fā)現(xiàn)我們的錯誤率是 28%,也就是說有 100 張圖像里面,有 28 張圖像是分錯的,就是說它是找不到的,這個準(zhǔn)確率已經(jīng)是一個比較可以的準(zhǔn)確率,大家會覺得,可能放在一些不太重要的崗位上或者應(yīng)用上的時候就可以用了。但是到了 2011 年的時候,我們把它提高了 2%,也就是說現(xiàn)在可以多兩張圖像,能做得更好了。到 2012 年的時候,我們發(fā)現(xiàn)多了 10%,也就是說在 100 張圖像里面多 10 張圖片可以分析準(zhǔn)確了。因為那一年出現(xiàn)了深度學(xué)習(xí),它驗證自己在整個領(lǐng)域里面,到底能不能推動 AI 的進(jìn)程,就是通過這樣一個競賽,通過在那一年時間,把準(zhǔn)確率提高 10% 這樣一次事件,導(dǎo)致對于整個世界上所有的領(lǐng)域、所有的人,業(yè)界和學(xué)術(shù)界開始意識到,我們可以把這個事情做得更好。到現(xiàn)在可以做到 100 張圖里只有一兩張圖是錯誤的,這個識別率遠(yuǎn)遠(yuǎn)高過人的識別率。人眼看一張圖,你能分辨 2 萬個種類嗎?這是很難的事情。

另外一個就是檢測,大家看到檢測已經(jīng)慢慢的變成這個領(lǐng)域的核心的內(nèi)容或者是應(yīng)用方向。大家可以想像以后我們的智能家居是什么樣的,以后智能家居重要的應(yīng)用可能是冰箱,你打開冰箱的時候,你會發(fā)現(xiàn)里面堆滿了各種各樣的東西,有蘋果、梨、蔬菜、肉類,現(xiàn)在我們想進(jìn)入智能家居的第一步,是不是說我打開一個冰箱,讓電腦自動知道里面還有多少庫存,如果庫存不夠的時候,我們要不要上京東去購買一些,或者我要去其它的電商買一些東西回來,這是一個很有趣的應(yīng)用,我相信很多人或者是機構(gòu)都在研發(fā)這些技術(shù),其中一個重要的組成部分,在算法層面上,就是對物體的檢測,也就是說我們希望發(fā)現(xiàn)中間到底這個是蘋果還是西紅柿,或者是其他的什么東西,它有多大,數(shù)量有多少,它能不能夠用一個禮拜,或者說只夠用 3 天,或者說你現(xiàn)在就必須買,否則明天就沒飯吃了,這種狀況下,我們希望通過一個檢測來發(fā)現(xiàn)。

再往下走就是在最新的研究上,我希望能夠分析到更加細(xì)顆粒度的圖象識別,這個問題就對于智能駕駛、輔助駕駛,或者是大規(guī)模的城市理解和建設(shè)有著巨大的推動作用,因為在這樣一個城市級的道路復(fù)雜環(huán)境下,你會看到每個東西都在動,上面一張圖在下面會分割成不同的部分,機器會告訴你,我識別了這個車,識別了這個樹,我也識別了這個電線桿和路,在智能駕駛或者輔助駕駛里需要有這樣的顆粒度,越精細(xì)越好,以后希望通過計算機視覺幫助我們在自動駕駛這個新興產(chǎn)業(yè),這個市場規(guī)??赡苁怯袔兹f億美金,在這樣的市場下,怎么體現(xiàn)我們在其中的技術(shù)實力,這是一個重要的部分。

第二個打開方式:新視覺效果。我給大家介紹一些好玩的東西。這是很早的一個連續(xù)劇,它當(dāng)時有一個片頭,就是這個人慢慢的從一張素描變成了一個人的狀態(tài),這個過場在當(dāng)時是非??犰诺摹_@是藝術(shù)家做出來的,他請了專門的人幫你畫了一張素描的圖,然后把這個圖貼到視頻里面慢慢的做轉(zhuǎn)換,現(xiàn)在的 AI 已經(jīng)自動實現(xiàn)這種功能了,比如說看到非常漂亮的自然場景的時候,我們團(tuán)隊研發(fā)的 AI 技術(shù)可以自動的產(chǎn)生非常有趣的一些效果,能夠把它變成鉛筆畫、水彩畫、油畫,甚至是各種抽象的畫法,我們在 2011 年的時候已經(jīng)有這方面的一系列的論文介紹這件事情,這個現(xiàn)在變成了一個可控的東西,每一個客戶想去使用這樣的功能的時候,通過我們的云,通過我們這樣一些技術(shù)的擴展方向,我們可以把這件事情很容易的做到,以往你可能需要請一個藝術(shù)家坐在邊上,大概花一天或者兩天時間幫你設(shè)計這樣?xùn)|西,今天你可能只要打開電腦,接上我們的網(wǎng)絡(luò),用上我們這樣一個 API 或者 SDK,然后你在一秒鐘內(nèi)就得到這樣一個結(jié)果,這是一個非常大的進(jìn)步和進(jìn)展,這也是為什么在技術(shù)層面上很多東西可以用的,也就是用得更加舒服,比人的操作來得更加方便和直接。

這是另外一個例子,我們當(dāng)時做的時候有一個初衷,我們看這張表,大家都有做圖表的經(jīng)驗,當(dāng)你做了這個表格很漂亮的時候,結(jié)果打印出來發(fā)現(xiàn)并沒有做的時候這么好的效果,原因是我們在電腦做出來的效果很好,但是打印機打出來的顏色并沒有那么炫。所以我們在前幾年花了一兩個月的時間做了一個非常小的工具,這個工具就是當(dāng)我看到這樣一張彩色圖的時候,我能把它自動轉(zhuǎn)換成一個黑白圖象,這樣大家要打印這樣一張彩色圖象的時候,你可以打印出一張非常漂亮的黑白圖象,這樣你就可以用一個普通的黑白打印機,打印出一個效果上可以媲美于彩色打印機的功能,當(dāng)然這個功能我們當(dāng)年是想推銷給各種各樣的打印機公司的,好像打印機公司也沒有興趣,最后我們就沒有用上。

這是另外一個例子,我們經(jīng)常會畫餅狀圖,在 PPT 里畫的很好看,結(jié)果打印出來給老板觀察的時候發(fā)現(xiàn)分不出具體的顏色的細(xì)節(jié)。我們就通過一個算法把它直接變成這樣一張黑白打印的效果,最后出來的時候,我們可以在 29 毫秒之內(nèi),把這張圖轉(zhuǎn)變成可以接受的效果,這也是一個技術(shù)的進(jìn)步,當(dāng)然我們做這個事情也就花了大概一個月不到的時間,這是我覺得有趣的地方,計算機視覺永遠(yuǎn)可以產(chǎn)生一些新的大家想象不到的效果。

第三個打開方式:固有需求的圖像視頻計算。比如說我要做視頻,我希望做前景、背景分割,我需要做手勢識別,我需要做人的操作,在圖像里面做一些逆運算,比如說去模糊,我看到這樣一張圖,比如說你跟領(lǐng)導(dǎo)站在臺上拍了一張照片,或者是你在領(lǐng)獎的時候,或者是好不容易見到一個你想見的朋友,大家在一塊兒開心的照了一張照片,結(jié)果照模糊了,這時候你就面臨一個非常尷尬的境地,因為你不可能再回到原來的場地再拍一張照片,所以我們當(dāng)時在設(shè)計算法的時候就在想,能不能通過這張圖回復(fù)其中的固有信息呢?我們通過一個非常高級的計算過程,可以把中間所存在的一些字或者是一些重要的信息重構(gòu)出來,這樣的結(jié)果是可以通過我們現(xiàn)在的算法完整實現(xiàn)的。

這是另外一個例子,這個圖是什么東西,估計在座的沒有幾位能看得清楚,但是我們通過算法可以告訴你,這是一張城市方向的圖像,我們甚至可以看得出來上面是「多倫多」,是在這個城市拍攝的圖像。

還有一個是強迫透視。大家如果喜歡攝影,你會發(fā)現(xiàn)這個很有意思,這是一雙筷子,好像是在夾光點,其實是在拍照的時候特意布置的場景。甚至我們可以做這樣一個場景,前面有一個人在吹,后面的人全倒的狀況,實際上前景、后景是有深度分別的,這也是在計算機運算里面非常有趣的效果。我們在前兩年的時候開始研究這樣一些效果上面,是不是背后有自己的原因,我們找找看它的幾何的原因,我們分析對一張完全清晰的圖象,我們也可以分析各個邊緣的細(xì)小的分別,通過這些細(xì)小的分別,我們可以得到一張圖象以后,然后我們可以在后期再去把它變成單反效果,可以把背景虛化,把前景凸顯出來,甚至我們可以切換,把這個模糊的地方換得不一樣,把聚焦點放在別的地方。我知道在所有的相機廠商采用這個方法之前,我們在學(xué)術(shù)界里面已經(jīng)有了一個非常大的研究,我們在這上面是有一系列論文在解決這個問題的,當(dāng)然現(xiàn)在也有一些廠商是在用我們這個技術(shù),在實現(xiàn)自己的一個后期的單反效果的增強。

這是其中的一個例子,比如說在一張圖像上,我先拍一張圖像,后期在這個手機上我可以重新做虛化,顯示哪個地方是你想要的,哪個地方是你不想看的,這也是技術(shù)發(fā)展的一些有趣的進(jìn)展。每到一個時刻,我們總會產(chǎn)生一些新的大家想象不到的事情,這些都會自然而然的產(chǎn)生。

我們優(yōu)圖團(tuán)隊實驗室著力于在做一些最前沿的研發(fā),我們希望把視覺、自然語言處理和語音這樣三個大的方向結(jié)合起來,在語音這一塊,我們在小微的專場里面還有另外一個同事會介紹我們在語音合成、人聲分離等等一系列的技術(shù)上的進(jìn)展,所以大家有興趣可以在小微專場看到我們的另外一個介紹。

在視覺這一塊,新的視覺體驗、識別和視覺內(nèi)容計算,這是我們不可分割的三個巨大的方向。在接下來可能會有更多的方向,但是在這幾個方向上,我們要做的事情,或者是我們的能力是能夠得到充分體現(xiàn)的。其實我加入騰訊的時間并不長,但是我覺得我們整個優(yōu)圖團(tuán)隊在騰訊里面所產(chǎn)生的價值,因為有了云的部署,我們優(yōu)圖的能力會擴展得更加快一些。以后如果是我們的客戶,一定會接觸到更多更有趣的效果和應(yīng)用。

極客網(wǎng)企業(yè)會員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-06-23
騰訊優(yōu)圖賈佳亞在“騰訊·云+未來”AI大數(shù)據(jù)專場分享
騰訊優(yōu)圖實驗室杰出科學(xué)家賈佳亞,香港中文大學(xué)計算機科學(xué)工程系終身教授,于 2017 年 5 月 15 日公布消息,全職加入騰訊優(yōu)圖實驗室,負(fù)責(zé)計算機視覺、圖像處

長按掃碼 閱讀全文