123,123,123

騰訊優(yōu)圖實驗室杰出科學家賈佳亞，香港中文大學計算機科學工程系終身教授，于 2017 年 5 月 15 日公布消息，全職加入騰訊優(yōu)圖實驗室，負責計算機視覺、圖像處理、模式識別等人工智能領域的研究,及人工智能與各應用場景結合的深度探索。

雷鋒網了解到，賈佳亞在加入騰訊后鮮少露面，本次在“騰訊云+未來”AI大數(shù)據(jù)專場做主題演講，也是為數(shù)不多能一窺騰訊優(yōu)圖實驗室及研究成果的公開場合。以下是賈佳亞在今日“騰訊云+未來”AI大數(shù)據(jù)專場所做的主題演講《計算機視覺前沿與應用》，雷鋒網AI科技評論對速記做了不改動原意的編輯和整理。

騰訊優(yōu)圖賈佳亞在“騰訊·云+未來”AI大數(shù)據(jù)專場分享：計算機視覺有哪三種打開方式？

謝謝大家，剛才蔣杰和王龍都介紹了騰訊在整個騰訊云的部署中，其硬件和它的基礎構架上的優(yōu)勢，我覺得這是一個非常重要的部分。

我今天給大家講講在 AI 的算法層面，我們能做什么事情。騰訊優(yōu)圖團隊在世界上是做圖像識別算法非常有優(yōu)勢的，我們有很強的研發(fā)團隊，在深圳、香港、上海都有自己的研發(fā)隊伍。這是騰訊這幾年變化最大的地方，也就是我們會把新的技術、新的能力、新的硬件、新的軟件全部提供給大家，希望給各位有需求的公司或者是業(yè)務人員有更加強大的助力。

計算機視覺是什么？它其實就是一種人的理解，我們看到東西的時候，不僅僅是看到紅綠藍三種顏色，這是我們最基本的對顏色的理解。但是當我們看一張圖象的時候，我們不會分離看每一種顏色，我們會把它看成一個整體。這個圖是我非常喜歡的，但是我想找到是誰創(chuàng)造的，在網上很難找到是誰發(fā)明的圖片，這張圖片是一張非常完美的正連和側臉的結合，從一個角度看，你可以說這是一張正臉，你也可以說是一個側臉。

什么叫計算機視覺？計算機視覺的目標是讓計算機程序能夠解讀和理解圖片，不僅僅是顏色，而是能夠更高層的理解它的語義、理解它的特征，從表面來看這個事情是很簡單的，事實上很難。1983 年，華盛頓第一次召開計算機視覺大會（雷鋒網(公眾號：雷鋒網)AI 科技評論按：即 CVPR，國際計算機視覺與模式識別會議），到現(xiàn)在已經超過了 30 年的歷史。在這 30 多年中，對我們現(xiàn)在很多從業(yè)者，或者在工業(yè)界的朋友而言，其實他們并不了解這 30 年里研究者們到底干了什么事情，有什么發(fā)生了。但是到了云的時代，我們會發(fā)現(xiàn)能更加直接地對云的技術進行展示，我們也能更加多地接觸到用戶使用這種技術。

我們怎么看待這個世界？首先我們要理解計算機視覺為什么要在 1983 年開始？你想想 1983 年的時候大家在用什么樣的計算機？我之前在別的地方進行過一個講座，我問大家還記不記得 2000 年的時候我們的是用什么樣的計算機。那時候是沒有 LED 和 LCD 的，那時候是用的很笨重的、很大的顯示器，那時候用的手機是諾基亞，沒有彩色屏幕，全部是一個單獨的小機器，上面一個很小的屏幕。但在 1983 年的時候，我們這個領域開始建立起來的時候，那時候連計算機的基本能力都不具備，但是當時很多的科學家已經在開始想象，我們能不能在衛(wèi)星圖像上，比如說當時在軍事運用上，或者是在一些非常高精尖的應用上，在衛(wèi)星或者是載人飛船上面，能不能利用一些機器幫助人們解決問題，所以那時候就開始了這方面的研究。

這個研究是一種類比，我們之所以研究對視覺的理解過程，是因為我們人眼就是一種自然智能，我們能看到東西，當我們看到東西之后，我們就會自然想象，我能不能讓一個機器也看到東西，這是很自然的。當然我們現(xiàn)在能隔空打物，我也想設計一個新的方案讓機器也隔空打物，顯然我們現(xiàn)在還不行，所以也不會讓機器也這樣。

在大腦皮層里，超過 50% 的神經原細胞是處理視覺的，所以我們說計算機視覺是最重要的方向，它代表了信息的多樣性和可用的信息。

計算機視覺有三個打開方式，第一個是語義理解、識別、檢測。當我們看到一張圖的時候，我們能不能像人一樣分析這張圖里有什么東西。比如說現(xiàn)在這樣一個在開車的人，當然這明明是一個人，只是他戴了一個頭套，計算機會檢測到這里面有一個狼，然后它有藍色的眼睛，同時還在開車，這是一個理解過程、檢測過程，這就是語義的理解、識別、檢測，這是非常重要的一個計算機視覺的內容，在騰訊云上以后也會陸續(xù)輸出這些部分。

騰訊優(yōu)圖賈佳亞在“騰訊·云+未來”AI大數(shù)據(jù)專場分享：計算機視覺有哪三種打開方式？

其次是不受想象力約束的神奇效果。前幾年有一個電影是講你在一個夢境里的變化，就是你不停地下樓梯，每次下到最后都回到原點。這個事情我們作為科學家來研究到底是什么原理，我們用軟件重構了這樣一個系統(tǒng)，我們確實可以在視覺模式上把它搭建起來，雖然在語義邏輯上不是很好理解的，但是我們在視覺上確實可以體現(xiàn)出來，最終產生很酷炫的效果，比如說這個球，它還可以在這上面跳來跳去，跳到最后它就回到原點了，你看他每次都在下臺階，結果卻回到了原來的起點，這是一個特殊的神奇效果，在視覺上可以做的事情。

還有一些固有需求的圖像視頻計算，比如說我們需要通過一張圖像把一些最重要的內容提取出來。

第一個打開方式，理解識別。理解識別的應用是非常廣泛的，這張圖是 2006—2012 年我們這個領域里的一個非常大的競賽，這個競賽叫做 PASCAL，這個競賽是給你超過 1000 張圖像，希望你從這幾千張圖像里面找出其中 20 個物體的類別。從 2009 年到 2012 年，在這個領域里有超過 20 種方法解決這個問題，它的準確率不斷提高，但是它始終是有瓶頸的，因為類別很少，我們發(fā)現(xiàn)大家對這個比賽的認可度也就慢慢降低了。

后來出現(xiàn)了這個領域里最出名的一個比賽叫做 IMAGE NET，這是斯坦福大學的幾個教授發(fā)起的比賽，它推翻了原來所有一切的競賽規(guī)則，他說現(xiàn)在在整個數(shù)據(jù)庫里包含了超過 14000 萬張圖像，相比以前的幾千張或者幾萬張圖象，這是一個巨大的進步，在量級上是完全不可同日而語的，同時它有超過 2 萬多種類別，你告訴我這張圖象是屬于 2 萬個類別的哪一個，這一個非常大的匹配過程和檢測過程，所以 IMAGE NET 推翻了當時對數(shù)據(jù)的理解，以前大家專注于做小數(shù)據(jù)，因為大家覺得反正我沒有大數(shù)據(jù)，不如就做小數(shù)據(jù)，當你在學術界真正的把大數(shù)據(jù)放出來的時候，是有更多的研究人員愿意去跟上的。

這張圖是告訴大家，我們從 2010 年到 2014 年的時候，開始在這個數(shù)據(jù)庫上做事情，最開始 2010 年的時候，大家發(fā)現(xiàn)我們的錯誤率是 28%，也就是說有 100 張圖像里面，有 28 張圖像是分錯的，就是說它是找不到的，這個準確率已經是一個比較可以的準確率，大家會覺得，可能放在一些不太重要的崗位上或者應用上的時候就可以用了。但是到了 2011 年的時候，我們把它提高了 2%，也就是說現(xiàn)在可以多兩張圖像，能做得更好了。到 2012 年的時候，我們發(fā)現(xiàn)多了 10%，也就是說在 100 張圖像里面多 10 張圖片可以分析準確了。因為那一年出現(xiàn)了深度學習，它驗證自己在整個領域里面，到底能不能推動 AI 的進程，就是通過這樣一個競賽，通過在那一年時間，把準確率提高 10% 這樣一次事件，導致對于整個世界上所有的領域、所有的人，業(yè)界和學術界開始意識到，我們可以把這個事情做得更好。到現(xiàn)在可以做到 100 張圖里只有一兩張圖是錯誤的，這個識別率遠遠高過人的識別率。人眼看一張圖，你能分辨 2 萬個種類嗎？這是很難的事情。

另外一個就是檢測，大家看到檢測已經慢慢的變成這個領域的核心的內容或者是應用方向。大家可以想像以后我們的智能家居是什么樣的，以后智能家居重要的應用可能是冰箱，你打開冰箱的時候，你會發(fā)現(xiàn)里面堆滿了各種各樣的東西，有蘋果、梨、蔬菜、肉類，現(xiàn)在我們想進入智能家居的第一步，是不是說我打開一個冰箱，讓電腦自動知道里面還有多少庫存，如果庫存不夠的時候，我們要不要上京東去購買一些，或者我要去其它的電商買一些東西回來，這是一個很有趣的應用，我相信很多人或者是機構都在研發(fā)這些技術，其中一個重要的組成部分，在算法層面上，就是對物體的檢測，也就是說我們希望發(fā)現(xiàn)中間到底這個是蘋果還是西紅柿，或者是其他的什么東西，它有多大，數(shù)量有多少，它能不能夠用一個禮拜，或者說只夠用 3 天，或者說你現(xiàn)在就必須買，否則明天就沒飯吃了，這種狀況下，我們希望通過一個檢測來發(fā)現(xiàn)。

再往下走就是在最新的研究上，我希望能夠分析到更加細顆粒度的圖象識別，這個問題就對于智能駕駛、輔助駕駛，或者是大規(guī)模的城市理解和建設有著巨大的推動作用，因為在這樣一個城市級的道路復雜環(huán)境下，你會看到每個東西都在動，上面一張圖在下面會分割成不同的部分，機器會告訴你，我識別了這個車，識別了這個樹，我也識別了這個電線桿和路，在智能駕駛或者輔助駕駛里需要有這樣的顆粒度，越精細越好，以后希望通過計算機視覺幫助我們在自動駕駛這個新興產業(yè)，這個市場規(guī)模可能是有幾萬億美金，在這樣的市場下，怎么體現(xiàn)我們在其中的技術實力，這是一個重要的部分。

第二個打開方式：新視覺效果。我給大家介紹一些好玩的東西。這是很早的一個連續(xù)劇，它當時有一個片頭，就是這個人慢慢的從一張素描變成了一個人的狀態(tài)，這個過場在當時是非常酷炫的。這是藝術家做出來的，他請了專門的人幫你畫了一張素描的圖，然后把這個圖貼到視頻里面慢慢的做轉換，現(xiàn)在的 AI 已經自動實現(xiàn)這種功能了，比如說看到非常漂亮的自然場景的時候，我們團隊研發(fā)的 AI 技術可以自動的產生非常有趣的一些效果，能夠把它變成鉛筆畫、水彩畫、油畫，甚至是各種抽象的畫法，我們在 2011 年的時候已經有這方面的一系列的論文介紹這件事情，這個現(xiàn)在變成了一個可控的東西，每一個客戶想去使用這樣的功能的時候，通過我們的云，通過我們這樣一些技術的擴展方向，我們可以把這件事情很容易的做到，以往你可能需要請一個藝術家坐在邊上，大概花一天或者兩天時間幫你設計這樣東西，今天你可能只要打開電腦，接上我們的網絡，用上我們這樣一個 API 或者 SDK，然后你在一秒鐘內就得到這樣一個結果，這是一個非常大的進步和進展，這也是為什么在技術層面上很多東西可以用的，也就是用得更加舒服，比人的操作來得更加方便和直接。

這是另外一個例子，我們當時做的時候有一個初衷，我們看這張表，大家都有做圖表的經驗，當你做了這個表格很漂亮的時候，結果打印出來發(fā)現(xiàn)并沒有做的時候這么好的效果，原因是我們在電腦做出來的效果很好，但是打印機打出來的顏色并沒有那么炫。所以我們在前幾年花了一兩個月的時間做了一個非常小的工具，這個工具就是當我看到這樣一張彩色圖的時候，我能把它自動轉換成一個黑白圖象，這樣大家要打印這樣一張彩色圖象的時候，你可以打印出一張非常漂亮的黑白圖象，這樣你就可以用一個普通的黑白打印機，打印出一個效果上可以媲美于彩色打印機的功能，當然這個功能我們當年是想推銷給各種各樣的打印機公司的，好像打印機公司也沒有興趣，最后我們就沒有用上。

這是另外一個例子，我們經常會畫餅狀圖，在 PPT 里畫的很好看，結果打印出來給老板觀察的時候發(fā)現(xiàn)分不出具體的顏色的細節(jié)。我們就通過一個算法把它直接變成這樣一張黑白打印的效果，最后出來的時候，我們可以在 29 毫秒之內，把這張圖轉變成可以接受的效果，這也是一個技術的進步，當然我們做這個事情也就花了大概一個月不到的時間，這是我覺得有趣的地方，計算機視覺永遠可以產生一些新的大家想象不到的效果。

第三個打開方式：固有需求的圖像視頻計算。比如說我要做視頻，我希望做前景、背景分割，我需要做手勢識別，我需要做人的操作，在圖像里面做一些逆運算，比如說去模糊，我看到這樣一張圖，比如說你跟領導站在臺上拍了一張照片，或者是你在領獎的時候，或者是好不容易見到一個你想見的朋友，大家在一塊兒開心的照了一張照片，結果照模糊了，這時候你就面臨一個非常尷尬的境地，因為你不可能再回到原來的場地再拍一張照片，所以我們當時在設計算法的時候就在想，能不能通過這張圖回復其中的固有信息呢？我們通過一個非常高級的計算過程，可以把中間所存在的一些字或者是一些重要的信息重構出來，這樣的結果是可以通過我們現(xiàn)在的算法完整實現(xiàn)的。

這是另外一個例子，這個圖是什么東西，估計在座的沒有幾位能看得清楚，但是我們通過算法可以告訴你，這是一張城市方向的圖像，我們甚至可以看得出來上面是「多倫多」，是在這個城市拍攝的圖像。

還有一個是強迫透視。大家如果喜歡攝影，你會發(fā)現(xiàn)這個很有意思，這是一雙筷子，好像是在夾光點，其實是在拍照的時候特意布置的場景。甚至我們可以做這樣一個場景，前面有一個人在吹，后面的人全倒的狀況，實際上前景、后景是有深度分別的，這也是在計算機運算里面非常有趣的效果。我們在前兩年的時候開始研究這樣一些效果上面，是不是背后有自己的原因，我們找找看它的幾何的原因，我們分析對一張完全清晰的圖象，我們也可以分析各個邊緣的細小的分別，通過這些細小的分別，我們可以得到一張圖象以后，然后我們可以在后期再去把它變成單反效果，可以把背景虛化，把前景凸顯出來，甚至我們可以切換，把這個模糊的地方換得不一樣，把聚焦點放在別的地方。我知道在所有的相機廠商采用這個方法之前，我們在學術界里面已經有了一個非常大的研究，我們在這上面是有一系列論文在解決這個問題的，當然現(xiàn)在也有一些廠商是在用我們這個技術，在實現(xiàn)自己的一個后期的單反效果的增強。

這是其中的一個例子，比如說在一張圖像上，我先拍一張圖像，后期在這個手機上我可以重新做虛化，顯示哪個地方是你想要的，哪個地方是你不想看的，這也是技術發(fā)展的一些有趣的進展。每到一個時刻，我們總會產生一些新的大家想象不到的事情，這些都會自然而然的產生。

我們優(yōu)圖團隊實驗室著力于在做一些最前沿的研發(fā)，我們希望把視覺、自然語言處理和語音這樣三個大的方向結合起來，在語音這一塊，我們在小微的專場里面還有另外一個同事會介紹我們在語音合成、人聲分離等等一系列的技術上的進展，所以大家有興趣可以在小微專場看到我們的另外一個介紹。

在視覺這一塊，新的視覺體驗、識別和視覺內容計算，這是我們不可分割的三個巨大的方向。在接下來可能會有更多的方向，但是在這幾個方向上，我們要做的事情，或者是我們的能力是能夠得到充分體現(xiàn)的。其實我加入騰訊的時間并不長，但是我覺得我們整個優(yōu)圖團隊在騰訊里面所產生的價值，因為有了云的部署，我們優(yōu)圖的能力會擴展得更加快一些。以后如果是我們的客戶，一定會接觸到更多更有趣的效果和應用。

免責聲明：本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網站出現(xiàn)的信息，均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性，但不保證有關資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時，應及時向本網站提出書面權利通知或不實情況說明，并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后，將會依法盡快聯(lián)系相關文章源頭核實，溝通刪除相關內容或斷開相關鏈接。

騰訊優(yōu)圖賈佳亞在“騰訊·云+未來”AI大數(shù)據(jù)專場分享

下一篇