曠視研究院院長孫劍講述:中國技術(shù)何以打敗Facebook、Google拿下世界第一

COCO 2017競賽,在曠視科技首席科學(xué)家、研究院院長孫劍博士的帶領(lǐng)下,曠視研究院一舉奪得三個(gè)冠軍:參與了COCO物體檢測、物體分割和人體關(guān)鍵點(diǎn)檢測三項(xiàng)任務(wù)的挑戰(zhàn),取得了兩項(xiàng)第一(物體檢測、人體關(guān)鍵點(diǎn)),一項(xiàng)第二(物體分割);還在Places語義分割環(huán)節(jié)戰(zhàn)勝谷歌奪得第一。孫劍博士也是深度殘差網(wǎng)絡(luò)ResNet作者之一,最近倍受關(guān)注的AlphaGo Zero的一個(gè)關(guān)鍵技術(shù)便是ResNet。

2017年11月8日,孫劍博士出席了由新智元舉辦的 AI World 2017世界人工智能大會(huì)上,并發(fā)表了《視覺端計(jì)算:從ResNet到ShuffleNet》的主題演講。

image.png

孫劍博士此前提到,曠視成功的秘訣是創(chuàng)新,不斷地創(chuàng)新,持續(xù)不斷地創(chuàng)新。在接受新智元專訪時(shí),他分享了如何做到本質(zhì)創(chuàng)新的秘訣:本質(zhì)創(chuàng)新是希望能觸及問題的本質(zhì),但也分兩個(gè)層次。

“大層次來看,算法要解決問題,有兩種: 一種是定義問題、理解問題。今天,人工智能很多問題是不清楚的,因?yàn)槿斯ぶ悄軐儆诳鐚W(xué)科的研究,以機(jī)器學(xué)習(xí)為基礎(chǔ),有計(jì)算機(jī)視覺、語音處理等等問題牽扯在一起,其中很多問題沒有定義清楚。所以在講算法創(chuàng)新的時(shí)候,首先要看需要解決什么問題。我認(rèn)為最高層次的算法創(chuàng)新是對(duì)問題的理解以及新的看法。所以首先要理解清楚問題,才能夠有本質(zhì)創(chuàng)新。換句話說,只有方向正確了,才可能做出好的算法,這是比較高的層次。

另外,對(duì)問題的理解需要挺長時(shí)間。如果想真正深刻理解一個(gè)問題的話,非常聰明的人可能要花兩三年,不聰明的人可能需要五年,這樣才可能對(duì)問題有非常深刻的理解。理解以前都做了什么?你現(xiàn)在做的這個(gè)東西是不是有意義的?這是上一層的算法創(chuàng)新,深入理解和清楚定義問題本質(zhì)之后,算法才有意義。

下面一層的算法創(chuàng)新是說,今天在一定時(shí)期內(nèi)發(fā)現(xiàn)了一個(gè)新問題,然后去找一個(gè)算法把這個(gè)問題又快又好地解決。

這里遵守兩條準(zhǔn)則,第一條準(zhǔn)則是這個(gè)算法必須有一定的推廣性,不能太特殊。比如說做物體識(shí)別,舉個(gè)例子,原來我們?cè)?jīng)做過貓頭檢測,利用貓的耳朵比較尖的特性做了算法,這個(gè)問題解決了,但沒有通用性,影響力就不大。 

第二個(gè)原則就是別人會(huì)不會(huì)用、會(huì)不會(huì)重復(fù)使用你的算法。如果你是在學(xué)術(shù)界或者要公開算法的話,只有別人主動(dòng)愿意用你的算法,才能形成網(wǎng)絡(luò)效應(yīng)。你自己很看好,但是別人不看好,或者說別人并不去主動(dòng)用你這個(gè)東西,說明你的這個(gè)東西沒有觸到用戶的痛點(diǎn)。其實(shí),你的同行也是你算法的用戶,如果他們不得不主動(dòng)使用你的算法,這就說明真正觸及到了問題的本質(zhì),這條是非常重要的。我們以前在大公司做的一些算法,今天還有很多人用。我們今天在Face++做的算法(ShuffleNet),第二天就有公開的開源社區(qū),去實(shí)現(xiàn)這個(gè)算法,他們?cè)诓簧俅蠊竞蛣?chuàng)業(yè)公司都第一時(shí)間用了這個(gè)算法。這就說明你的算法特別好用,這樣的東西就是本質(zhì)性創(chuàng)新?!?/p>

曠視研究院院長的帶兵之道:讀《孫子兵法》,鼓勵(lì)出論文,不在乎數(shù)量

孫劍博士曾談到,在帶領(lǐng)團(tuán)隊(duì)拿到COCO競賽冠軍方面,做好了三件事:建團(tuán)隊(duì)、激勵(lì)團(tuán)隊(duì)、培養(yǎng)團(tuán)隊(duì)。在接受新智元專訪時(shí),孫劍詳細(xì)分享了如何帶領(lǐng)好一個(gè)團(tuán)隊(duì),吸引更多的人才。

他說:“帶團(tuán)隊(duì)這件事情其實(shí)是多層次的。我最近看《孫子兵法》上講的,為將者首先要智勇雙全,要仁、要嚴(yán)、要信,還要做到明,誰做得對(duì)、誰做得不對(duì)要非常明。大致就是建立一個(gè)很好的文化,建立一些大的框架,哪些是我們應(yīng)該做的,哪些是不應(yīng)該做的。要圍繞著我們公司的價(jià)值觀,我們公司價(jià)值觀叫“追求、極致、簡單、可靠”,這幾個(gè)字對(duì)一個(gè)團(tuán)隊(duì)非常重要?!白非?、極致”有兩個(gè)含義,一個(gè)是說我們要做到最好,另一個(gè)是說做這件事情的時(shí)候要付出最大的努力,把所有的潛力都發(fā)揮出來?!?/p>

“從人才觀上的話,我們當(dāng)然是希望找最聰明的人,我們要求并不高,你只要數(shù)學(xué)還不錯(cuò)就可以。你如果線性代數(shù)還可以,編程還可以的話就可以做這件事情。我們的環(huán)境非常扁平化,所有的數(shù)據(jù)代碼基本上都是共享的,所有的知識(shí)都是共通的,包括我們內(nèi)部的MegBrain。你如果想了解每個(gè)細(xì)節(jié),就可以找MegBrain的開發(fā)者,他會(huì)給你講細(xì)節(jié),到底MegBrain怎么設(shè)計(jì)的、怎么優(yōu)化,你會(huì)學(xué)到這些東西,可以有一個(gè)很自由的空間來做這件事情。還有一個(gè)很大的因素,讓大家覺得創(chuàng)新是安全的,是他愿意冒風(fēng)險(xiǎn)去做的。我大多數(shù)時(shí)候都不會(huì)說不要做這個(gè)、不要做那個(gè),而是說你試試看,這樣讓大家有一個(gè)安全的、愿意探索的環(huán)境,提高命中率?!?/p>

AI人才非常稀缺的今天,孫劍表示,在研究院,我們鼓勵(lì)出論文。這在國內(nèi)外的創(chuàng)業(yè)公司里面應(yīng)該是少數(shù)現(xiàn)象?!耙?yàn)楹芏鄡?yōu)秀人才希望他們的工作一部分可以被看到。我們通過這樣的方式吸引人才”,他說。

但是,曠視對(duì)論文數(shù)量沒有要求?!拔覀儗?duì)任何的事情都沒有數(shù)量要求,哪怕你只有一篇論文,但只要滿足創(chuàng)新的兩條原則,第一它是通用的,第二別人愿意用,只要有一篇這樣的論文就可以。我以前自己做研究,每次會(huì)議投稿時(shí)會(huì)花很長時(shí)間只做兩篇論文,我自己主做一篇,另一篇讓學(xué)生做,或者跟別人一起做一篇。我們不追求數(shù)量,只要有一篇了不起的論文就可以?!?br/>

以下是曠視科技Face++首席科學(xué)家孫劍博士在新智元AI World 2017世界人工智能大會(huì)上的演講:

孫劍AI WORLD 2017世界人工智能大會(huì)演講:

《視覺端計(jì)算:從ResNet到ShuffleNet 》

孫劍:各位好,非常高興新智元提供了這樣一個(gè)機(jī)會(huì)把我們做計(jì)算機(jī)視覺研究的人聚在一起,也非常高興見到以前的老朋友,比如騰訊的賈佳亞博士,我們之前曾經(jīng)一起做計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)攝影學(xué)。剛才賈佳亞展示了一張圖:那是2004年我們倆合作的第一篇siggraph論文。當(dāng)時(shí)非常難,不亞于今天去 COCO 或者 ImageNet拿一個(gè)冠軍。今天到場的嘉賓中,華先勝博士也是我在微軟的同事。計(jì)算機(jī)視覺在深度學(xué)習(xí)的推動(dòng)下,發(fā)生了天翻地覆的變化,今天也在此分享一些我最近的工作。

image.png

CV (計(jì)算機(jī)視覺)在 AI 中大概的位置我用這一張圖來表現(xiàn),其實(shí)我標(biāo)不同的方塊的顏色代表這個(gè)領(lǐng)域商業(yè)化的成熟度,這里語音和視覺是更接近商業(yè)化落地的,NLP和通用人工智能還有很長的路要走。

image.png

CV今天非?;馃崾且?yàn)樗蟹浅6嗟膽?yīng)用,從互聯(lián)網(wǎng)、安防、無人車、機(jī)器人到AR、VR等等,也允許大公司和創(chuàng)業(yè)公司在整個(gè)市場上并存。

image.png

做CV的話需要什么呢?既需要理論也需要?jiǎng)?chuàng)新,這里分享一下:上周日曠視科技成立了學(xué)術(shù)委員會(huì),非常有幸請(qǐng)到了圖靈獎(jiǎng)唯一一位華人得主姚期智先生擔(dān)任學(xué)術(shù)委員會(huì)首席顧問,幫我們?cè)诶碚摲矫姘殃P(guān)。

今天我會(huì)分享一下算法上面的工作。

計(jì)算方式的變革(或復(fù)興):神經(jīng)網(wǎng)絡(luò)計(jì)算突破馮·諾依曼結(jié)構(gòu)的體系瓶頸

image.png

在講計(jì)算機(jī)視覺之前,我想先講一下對(duì)算法尤其是計(jì)算的理解。我們今天用的計(jì)算機(jī)還是馮·諾依曼結(jié)構(gòu)的計(jì)算機(jī),它的計(jì)算機(jī)體系結(jié)構(gòu)設(shè)計(jì)的思想是要把數(shù)據(jù)和程序同時(shí)放在內(nèi)存里,好處是程序遇到不同的數(shù)據(jù)時(shí)可以改變程序,可以自適應(yīng)地處理數(shù)據(jù),這非常了不起,因?yàn)樵谶@之前,如果不這樣的話,每一次不管是插線還是打孔,都很難去重新編程。后來圖靈也問了個(gè)問題:既然機(jī)器可以根據(jù)自動(dòng)處理數(shù)據(jù),那是不是機(jī)器就可以擁有智能。

image.png

但是今天我們用了很長時(shí)間的馮·諾依曼結(jié)構(gòu),很大一個(gè)局限是它有一個(gè)瓶頸:學(xué)術(shù)界叫做馮·諾依曼瓶頸,其實(shí)是說CPU和內(nèi)存之間的帶寬是不夠的。雖然 CPU 可以加速,但是數(shù)據(jù)越來越大,就會(huì)堵在中間。怎么去突破這一個(gè)瓶頸,目前的傳統(tǒng)計(jì)算機(jī)結(jié)構(gòu)是不能突破這一瓶頸的。

image.png

而我們大腦其實(shí)不是這樣的結(jié)構(gòu),大腦里面所有的計(jì)算和表示都是在一個(gè)并行的網(wǎng)絡(luò)里面運(yùn)行的。

image.png

image.png

這跟我們今天做的神經(jīng)網(wǎng)絡(luò)也非常類似,這是神經(jīng)網(wǎng)絡(luò)的一個(gè)神經(jīng)元或者多個(gè)神經(jīng)元在做的一些處理,右邊是人腦神經(jīng)元的一些類別,基本上一個(gè)神經(jīng)元會(huì)接受相連接的幾百個(gè)、上千個(gè)神經(jīng)元來的輸入,然后做一個(gè)決策:神經(jīng)元到底是激活還是不激活。

image.png

image.png

所以如果我們看今天神經(jīng)網(wǎng)絡(luò)的計(jì)算是在做什么呢?其實(shí)是在通過一個(gè)函數(shù)把一個(gè)高維激活向量變成另外一個(gè)高維激活向量。我們目前的神經(jīng)網(wǎng)絡(luò)就是不停做這樣的變換,做一次、兩次,做很多次,以至于形成一個(gè)非常復(fù)雜的嵌套變換,這就是我們今天的神經(jīng)網(wǎng)絡(luò)。

image.png

image.png

我們可以把它拆成三個(gè)因素,一個(gè)是表示這樣的激活向量,還有里面的標(biāo)量非線性,還有權(quán)重矩陣,這是里面的三要素。激活向量其實(shí)是知識(shí)的表示,非線性是來表示這個(gè)神經(jīng)元是激活還是不激活,這權(quán)重矩陣是通過監(jiān)督學(xué)習(xí)到的知識(shí)。

image.png

這一個(gè)方式有很多好的特性,比如說它是高度并行,內(nèi)存帶寬可以非常大,還有一個(gè)優(yōu)點(diǎn)就是計(jì)算非常簡單,基本上就是矩陣乘,沒有有分枝判斷,沒有馮·諾依曼結(jié)構(gòu)下的復(fù)雜計(jì)算,所以這一種計(jì)算在一定意義上可以突破馮·諾依曼結(jié)構(gòu)的體系瓶頸,比如說右側(cè)是今天神經(jīng)網(wǎng)絡(luò)的主要模式,左邊是以前的模式,可以看到計(jì)算可以提高帶寬10倍甚至上百倍。

image.png

這樣的計(jì)算,現(xiàn)在還有NVIDIA、AMD的GPU這樣的并行處理單元來加速,大家可以看到這個(gè)數(shù)字,120個(gè)TFLOP/S,這是今天 NVIDIA最好的顯卡能做到的計(jì)算力。大家可以比較一下去年GPU的顯卡還是Pascal 系列,是10個(gè)TFLOP/S,今年不管是 NVIDIA還是谷歌第二代的TPU,計(jì)算量提高了10倍、甚至20倍,這遠(yuǎn)遠(yuǎn)打破了摩爾定律,這是在訓(xùn)練端或者服務(wù)器端。

image.png

image.png

在中國也有華為的Mate10的手機(jī),第一款搭載了寒武紀(jì)的1A 神經(jīng)網(wǎng)絡(luò)加速器的手機(jī),可以在客戶端也能夠方便運(yùn)用這樣的計(jì)算能力。所以我們自己做研究就會(huì)問一個(gè)問題,怎么樣去利用這樣的計(jì)算力?

image.png

image.png

我們?cè)贔ace++很早就意識(shí)到計(jì)算帶來非常大的變革。我們做了一個(gè)曠視科技的Brain,就是為了神經(jīng)計(jì)算,這里面最重要的東西是深度學(xué)習(xí)平臺(tái),底層是NVIDIA 的引擎,右邊是我們GPU集群,最核心的深度學(xué)習(xí)平臺(tái)我們內(nèi)部叫做Brain++,是整個(gè)系統(tǒng)管理存儲(chǔ)、標(biāo)注、深度學(xué)習(xí)訓(xùn)練、GPU虛擬化管理甚至模型的發(fā)布,整個(gè)一套軟件系統(tǒng)來管理我們所有數(shù)千塊的GPU。

image.png

曠視科技的Brain++ 內(nèi)部有一個(gè)最重要的東西叫 MegBrain, 它對(duì)應(yīng)的就是一些開源的或者大公司推出的深度學(xué)習(xí)引擎,比如TensorFlow和Caffe。MegBrain是我們自研的一個(gè)引擎,早在TensorFlow之前。據(jù)我所知,這是所有創(chuàng)業(yè)公司中唯一一家自研深度學(xué)習(xí)引擎并且全員使用的,我們內(nèi)部已經(jīng)到了7.0的版本。這兩個(gè)條件非常重要,既要自研又要全員使用,給我們帶來非常多的好處,所以我們要堅(jiān)持使用自己的深度學(xué)習(xí)引擎。

4.6 億美元怎么花?

image.png

大家可能前兩天看了一些新聞關(guān)于Face++拿到了一些融資,那融資拿來怎么用呢?我們主要有兩個(gè)大的方向,一方面是繼續(xù)打造類似于Brain++的引擎需要更多的計(jì)算力,另外一個(gè)方面會(huì)在城市大腦上做一些商業(yè)的開拓。

image.png

為什么花這么多的資源來做這件事情呢?因?yàn)槲覀兿嘈沤裉斓乃惴ㄊ悄壳霸O(shè)計(jì)的,但是如果問一個(gè)問題,如果今天計(jì)算量就提高一萬倍,那你應(yīng)該如何重新設(shè)計(jì)自己的算法。一萬倍聽上去很多,其實(shí)也不是很難達(dá)到。比方說去年到今年就從10 TFLOP/S 通過NVIDIA和Google的努力到120-180 TFLOP/S,其實(shí)達(dá)到了18倍的增速。從計(jì)算力來說,如果有500多塊卡,我們就達(dá)到了一萬倍的加速。這是我在Face++研究院非常嚴(yán)肅地在研究的一個(gè)問題。有了這樣的計(jì)算變化,那視覺計(jì)算產(chǎn)生了什么樣大的變化?

image.png

image.png

我可以回顧一下,計(jì)算機(jī)視覺到底要解決什么問題。剛才賈佳亞教授也非常詳細(xì)地解釋了視覺計(jì)算要處理的一些核心問題。基本上是要描述一張圖片里面都有什么東西,描述這張圖片里正在發(fā)生什么和將要發(fā)生什么。

image.png

我們自己將它定義成四個(gè)核心問題,分別是分類、檢測、分割,序列分析,分別對(duì)應(yīng)圖象、區(qū)域、像素和視頻的處理,這是Face++研究院核心要做的事。

image.png

以前做這一些問題,大家是通過手工設(shè)計(jì)特征的方式加上一個(gè)標(biāo)準(zhǔn)的SVM的分類器,這其實(shí)也是在做非線性變換,但是問題是這樣的非線性變換做不了很多次,很多研究嘗試做三次、五次、十次,發(fā)現(xiàn)超過三次就不太有效了。另外就是手工設(shè)計(jì)特征,人工很難去設(shè)計(jì)很好的特征。

image.png

今天深度神經(jīng)網(wǎng)絡(luò)可以做一個(gè)非常多次的非線性變換,可以逼近非常復(fù)雜的映射。更重要的是,里面的所有參數(shù)都是自動(dòng)學(xué)到的,這是深度學(xué)習(xí)網(wǎng)絡(luò)目前的現(xiàn)狀和基本方式。

image.png

這個(gè)過程來之不易,里面經(jīng)過了很多代人的研究。有很多認(rèn)知邊界的突破,比如說很多人之前不相信深度神經(jīng)網(wǎng)絡(luò)是好的,是有用的,認(rèn)為它根本不可能被訓(xùn)練起來,這個(gè)魔咒其實(shí)是通過這幾年的發(fā)展才慢慢破除的。

image.png

image.png

我們看一下神經(jīng)網(wǎng)絡(luò)為什么叫深度學(xué)習(xí),其實(shí)說神經(jīng)網(wǎng)絡(luò)的層數(shù)非常多,它夠深,這是2012年Hinton和學(xué)生做的 AlexNet,一個(gè)八層的網(wǎng)絡(luò),當(dāng)時(shí)認(rèn)為已經(jīng)非常深了。論文里還有一段,專門說八層比五層深是有道理的,證明深度是有道理的。論文發(fā)布以后還有很多人挑戰(zhàn)說其實(shí)更淺的也能做出來,現(xiàn)在已經(jīng)沒有人挑戰(zhàn)了。過兩年之后,牛津大學(xué)和谷歌分別開發(fā)出了它們的網(wǎng)絡(luò),20層的網(wǎng)絡(luò),性能提高非常多。這兩個(gè)網(wǎng)絡(luò)大概都是20層,這并不是巧合,到了20層以后系統(tǒng)就很難訓(xùn)練起來。我們自己做了一些工作,確實(shí)發(fā)現(xiàn)是這樣的問題,當(dāng)非線性系統(tǒng)非常復(fù)雜的時(shí)候,確實(shí)很難訓(xùn)練它。

image.png

在2015年的時(shí)候,當(dāng)時(shí)我還在微軟亞洲研究院,我們做了一個(gè)工作叫做 ResNet,第一次做了一個(gè)152層的網(wǎng)絡(luò),它有效地解決了神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的優(yōu)化問題。我先放一個(gè)以前同事做的動(dòng)畫,給大家看一下152層網(wǎng)絡(luò)到底有多深。其中一個(gè)小橫桿是一層。

image.png

這網(wǎng)絡(luò)到底為什么能做成呢?其實(shí)核心是引用了一個(gè)殘差學(xué)習(xí)的概念,這概念就是說當(dāng)網(wǎng)絡(luò)非常深的時(shí)候,你要做一個(gè)變換,相鄰兩層的變化差別是不大,那只去學(xué)習(xí)殘差會(huì)比直接學(xué)習(xí)映射會(huì)更容易,所以我們就設(shè)計(jì)了殘差學(xué)習(xí)的思想,實(shí)際上可以用一個(gè)非常簡單的跨層連接來實(shí)現(xiàn),從而達(dá)到非常容易優(yōu)化的復(fù)雜的非線性動(dòng)態(tài)系統(tǒng)。為什么網(wǎng)絡(luò)可以很好的訓(xùn)練起來,我們自己相信的一個(gè)解釋是整個(gè)訓(xùn)練過程是一個(gè)從淺到深的訓(xùn)練動(dòng)態(tài)。還有一個(gè)數(shù)學(xué)上比較嚴(yán)謹(jǐn)?shù)慕忉屖撬軌蚝芎玫南郧吧疃葘W(xué)習(xí)網(wǎng)絡(luò)反傳算法中梯度消失的問題,這是個(gè)非常嚴(yán)重的問題,當(dāng)你層數(shù)非常深的時(shí)候,梯度會(huì)越來越小,以至于計(jì)算機(jī)的精度會(huì)表示不了,就無法訓(xùn)練整個(gè)系統(tǒng)了,這個(gè)就在數(shù)學(xué)上保證了梯度不會(huì)變小。殘差網(wǎng)絡(luò)也代表微軟贏得了 ImageNet 2015年的冠軍,第一次超過了人類在圖像識(shí)別上的表現(xiàn)。

image.png

image.png

image.png

深度學(xué)習(xí):破除魔咒之旅

image.png

ResNet 網(wǎng)絡(luò)說明了什么?它說明了我們走到今天這一步非常不容易的,Geoffrey Hinton總結(jié)了一下為什么深度學(xué)習(xí)做得越來越好,比如說計(jì)算量越來越強(qiáng)、數(shù)據(jù)越來越大,細(xì)節(jié)做的更對(duì)了。其實(shí)我想說的是殘差學(xué)習(xí)隱含了網(wǎng)絡(luò)結(jié)構(gòu)需要對(duì)優(yōu)化友好才可以做好。

image.png

我也分享一下,在前不久 AlphaGo Zero系統(tǒng)里面第一次用不學(xué)習(xí)人類棋譜的方式來戰(zhàn)勝了人類,其中有兩個(gè)核心技術(shù),一個(gè)是自我博弈的增強(qiáng)學(xué)習(xí),另外一個(gè)它也用到了我們的ResNet,用了一個(gè)40層或者80層的網(wǎng)絡(luò)來完成對(duì)棋譜到底哪里下子、到底對(duì)當(dāng)前棋局是贏還是輸?shù)囊粋€(gè)判斷。

image.png

image.png

深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的演化非???,我們給大家羅列了從2012年到2016年的一些代表性工作年。進(jìn)展非??煲灾劣谖覀冏龅暮芏嘁曈X計(jì)算任務(wù)取得了非常大的進(jìn)展,例如Coco是目前物體檢測最重要的一個(gè)基準(zhǔn)測試。

image.png

image.png

今年我們贏得了冠軍。 2015年到2017年僅僅兩年,Coco物體檢測的精度從37變到了52。 37這個(gè)數(shù)字是當(dāng)時(shí)我們?cè)谖④浹芯吭鹤龅囊粋€(gè)工作,是當(dāng)時(shí)COCO的第一名。再往前2014年微軟創(chuàng)建COCO的時(shí)候,當(dāng)時(shí)的結(jié)果只有20多,如果用非深度學(xué)習(xí)方法可能不到20。我們今年也獲得了COCO Keypoint 競賽的冠軍,這個(gè)問題就是說如何把每一個(gè)人的身體骨架都很精確的用3D姿態(tài)恢復(fù)出來,這樣很容易分析這個(gè)人的動(dòng)作。

image.png

另外我們還獲得了今年第一次舉辦的Places Instance Segmentation 的冠軍。這是大家努力的一個(gè)方向,模型越做越大、精度越做越高,所有訓(xùn)練要求計(jì)算力越來越大。還有一個(gè)方向是說,計(jì)算量不夠的時(shí)候,應(yīng)該去如何應(yīng)用這個(gè)技術(shù),將其商業(yè)化。

image.png

我們以前做研究就講究填補(bǔ)國家空白,其實(shí)左邊一個(gè)空白我們看到了,然后我們今年提出來一個(gè)網(wǎng)絡(luò)叫ShuffleNet,它是為了給定計(jì)算量下或者比較小的計(jì)算量下,特別是計(jì)算量只有5到10個(gè)的TFLOP/S的時(shí)候,特別是手機(jī)上你怎么做深度學(xué)習(xí)網(wǎng)絡(luò)的推斷。

image.png

這里是ShuffleNet的一些基本機(jī)構(gòu),左邊是最早的網(wǎng)絡(luò),然后ResNet、然后Bottleneck,ResNet,還有 MobileNets,然后右邊是ShuffleNet。

image.png

核心思想就是把計(jì)算量最昂貴的1乘1的卷集分成很多組引入Shuffle 的一個(gè)操作,我們可以達(dá)到非常好的性能。例如說我們比傳統(tǒng)的AlexNet在同樣精度上可以快15到20倍,這速度并不是理論復(fù)雜度,而是真正在手機(jī)上的實(shí)測速度,理論復(fù)雜度比這還要小。

image.png

我們把這東西用在什么地方呢?第一我們用在FGPA(可編程門陣列)芯片上,中間是FGPA智能抓拍機(jī),把這FGPA塞到相機(jī)里,就是智能的抓拍機(jī)。右邊視頻向大家展示一下成本非常便宜的FGPA上如何做智能人像抓拍,這智能人像抓拍機(jī)目前是業(yè)界第一款全畫幅、全幀率的人像抓拍機(jī)。這是保證視頻里人臉都不漏掉的重要因素。

image.png

我們還把Shufflenet用在手機(jī)上。iPhoneX 有3D人臉解鎖,其實(shí)我們也已經(jīng)幫助安卓手機(jī)廠商,包括VIVO、小米還有錘子手機(jī),都使用了Face++的人臉解鎖技術(shù),其實(shí)就是Shufflenet背后提供的計(jì)算,能夠讓人臉解鎖在手機(jī)上的時(shí)間小于0.1秒,拿起手機(jī)只要看一下屏幕馬上就可以解鎖,這速度會(huì)帶來非常不一樣的體驗(yàn),大家有機(jī)會(huì)可以試試不同款的手機(jī)。

落地:城市大腦及其他

image.png

另外一個(gè)就是剛才華先勝博士講的城市大腦。以前我也玩游戲,玩的一個(gè)游戲叫《模擬城市》其實(shí)就是你怎么去構(gòu)造、管理這個(gè)城市。今天,隨著人工智能和各種技術(shù)的發(fā)展,我們有機(jī)會(huì)去做真實(shí)的模擬城市的工作,右邊是我們做的計(jì)算機(jī)視覺方面的進(jìn)展,是如何在一個(gè)城市里面把所有的人和車進(jìn)行檢測跟蹤,把所有屬性都抽取出來,這是城市大腦傳感器最重要的一部分。

image.png

另外,視覺計(jì)算還有非常廣的商業(yè)用途,我們的一個(gè)產(chǎn)品就是用刷臉做身份認(rèn)證的平臺(tái),目前這個(gè)平臺(tái)叫FaceID,它是世界上最大的人臉識(shí)別云平臺(tái)。它在線上為中國上百家互聯(lián)網(wǎng)金融公司提供服務(wù)。右邊是很好的商業(yè)探索,今天帶手機(jī)而不掃二維碼也可以用人臉支付,這是杭州肯德基第一個(gè)線下用人臉支付的案例。

image.png

還包括我們今天的無人店和新零售的一些探索,這里面是一個(gè)視頻展示一下Face++的技術(shù)如何幫助新零售行業(yè)做更好的線下商業(yè)銷售。

image.png

最后總結(jié)一下,雖然我們做了很多商業(yè)上的應(yīng)用,特別是把核心算法用起來。但是做計(jì)算機(jī)視覺和人工智能的人都知道,真正觸及人工智能冰山一角還是非常困難的。在這過程中,我們內(nèi)部就講幾個(gè)字,做公司的話,“技術(shù)、商業(yè)、數(shù)據(jù)”這個(gè)循環(huán)要轉(zhuǎn)起來。同樣,對(duì)于做算法,“熱情、洞察、耐心”是我們最重要的三個(gè)方向。

人才是根本:巨大的腦力ALL IN,AI 潛力巨大

image.png

中間這一張照片是我一個(gè)朋友分享的,我用這張照片表示人工智能還是很遙遠(yuǎn),前面的路還不知道怎么走,但是我們非常有信心,信心來自于哪里呢?信心來自于人的智力投入,左邊這一張是去年GTC NVIDIA年會(huì)拍的照片,右邊是今年計(jì)算機(jī)視覺年會(huì)CVPR的照片,每一個(gè)會(huì)議參與者都超過了5千人,這標(biāo)志著世界上所有最聰明的人都在做這一件事情,我相信所有人的聰明才智集合在一起,一定能夠非??焖俚赝苿?dòng)這一件事情的發(fā)展。

image.png

最后我再回顧一下,上周日我們請(qǐng)了姚期智院士來擔(dān)任我們Face++學(xué)術(shù)委員會(huì)的首席顧問。我們探討的主題是人工智能的本質(zhì)創(chuàng)新。探討了非常多的話題后,最后回到了根本問題:人才。我們分別讓每一個(gè)人回答了一下對(duì)于人才的最重要要求。姚院士說希望在我們公司里,所有的研究員都能夠人盡其用。我自己在曠視研究院,最大使命是創(chuàng)造一個(gè)好的環(huán)境,讓每一個(gè)人才人盡其用。印奇是我們的CEO,他的使命是為公司找到最大的人工智能應(yīng)用場景,同時(shí)匯聚交叉學(xué)科的人才,因?yàn)槲覀冎廊斯ぶ悄懿皇侵蛔鲇?jì)算機(jī)視覺或語音語意理解,而是做認(rèn)知、做機(jī)器人,甚至腦科學(xué)的人都應(yīng)該匯聚在一起,才真正有可能把人工智能的問題一點(diǎn)點(diǎn)理清楚,定義好問題才能更加踏實(shí)地向前走。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2017-11-20
曠視研究院院長孫劍講述:中國技術(shù)何以打敗Facebook、Google拿下世界第一
COCO 2017競賽,在曠視科技首席科學(xué)家、研究院院長孫劍博士的帶領(lǐng)下,曠視研究院一舉奪得三個(gè)冠軍:參與了COCO物體檢測、物體分割和人體關(guān)鍵點(diǎn)檢測三項(xiàng)任務(wù)的挑戰(zhàn),取得了兩項(xiàng)第一(物體檢測、人體關(guān)鍵點(diǎn)),一項(xiàng)第二(物體分割);還在Places語義分割環(huán)節(jié)戰(zhàn)勝谷歌奪得第一。孫劍博

長按掃碼 閱讀全文