123,123

COCO 2017競(jìng)賽，在曠視科技首席科學(xué)家、研究院院長(zhǎng)孫劍博士的帶領(lǐng)下，曠視研究院一舉奪得三個(gè)冠軍：參與了COCO物體檢測(cè)、物體分割和人體關(guān)鍵點(diǎn)檢測(cè)三項(xiàng)任務(wù)的挑戰(zhàn)，取得了兩項(xiàng)第一（物體檢測(cè)、人體關(guān)鍵點(diǎn)），一項(xiàng)第二（物體分割）；還在Places語義分割環(huán)節(jié)戰(zhàn)勝谷歌奪得第一。孫劍博士也是深度殘差網(wǎng)絡(luò)ResNet作者之一，最近倍受關(guān)注的AlphaGo Zero的一個(gè)關(guān)鍵技術(shù)便是ResNet。

2017年11月8日，孫劍博士出席了由新智元舉辦的 AI World 2017世界人工智能大會(huì)上，并發(fā)表了《視覺端計(jì)算：從ResNet到ShuffleNet》的主題演講。

孫劍博士此前提到，曠視成功的秘訣是創(chuàng)新，不斷地創(chuàng)新，持續(xù)不斷地創(chuàng)新。在接受新智元專訪時(shí)，他分享了如何做到本質(zhì)創(chuàng)新的秘訣：本質(zhì)創(chuàng)新是希望能觸及問題的本質(zhì)，但也分兩個(gè)層次。

“大層次來看，算法要解決問題，有兩種: 一種是定義問題、理解問題。今天，人工智能很多問題是不清楚的，因?yàn)槿斯ぶ悄軐儆诳鐚W(xué)科的研究，以機(jī)器學(xué)習(xí)為基礎(chǔ)，有計(jì)算機(jī)視覺、語音處理等等問題牽扯在一起，其中很多問題沒有定義清楚。所以在講算法創(chuàng)新的時(shí)候，首先要看需要解決什么問題。我認(rèn)為最高層次的算法創(chuàng)新是對(duì)問題的理解以及新的看法。所以首先要理解清楚問題，才能夠有本質(zhì)創(chuàng)新。換句話說，只有方向正確了，才可能做出好的算法，這是比較高的層次。

另外，對(duì)問題的理解需要挺長(zhǎng)時(shí)間。如果想真正深刻理解一個(gè)問題的話，非常聰明的人可能要花兩三年，不聰明的人可能需要五年，這樣才可能對(duì)問題有非常深刻的理解。理解以前都做了什么？你現(xiàn)在做的這個(gè)東西是不是有意義的？這是上一層的算法創(chuàng)新，深入理解和清楚定義問題本質(zhì)之后，算法才有意義。

下面一層的算法創(chuàng)新是說，今天在一定時(shí)期內(nèi)發(fā)現(xiàn)了一個(gè)新問題，然后去找一個(gè)算法把這個(gè)問題又快又好地解決。

這里遵守兩條準(zhǔn)則，第一條準(zhǔn)則是這個(gè)算法必須有一定的推廣性，不能太特殊。比如說做物體識(shí)別，舉個(gè)例子，原來我們?cè)?jīng)做過貓頭檢測(cè)，利用貓的耳朵比較尖的特性做了算法，這個(gè)問題解決了，但沒有通用性，影響力就不大。

第二個(gè)原則就是別人會(huì)不會(huì)用、會(huì)不會(huì)重復(fù)使用你的算法。如果你是在學(xué)術(shù)界或者要公開算法的話，只有別人主動(dòng)愿意用你的算法，才能形成網(wǎng)絡(luò)效應(yīng)。你自己很看好，但是別人不看好，或者說別人并不去主動(dòng)用你這個(gè)東西，說明你的這個(gè)東西沒有觸到用戶的痛點(diǎn)。其實(shí)，你的同行也是你算法的用戶，如果他們不得不主動(dòng)使用你的算法，這就說明真正觸及到了問題的本質(zhì)，這條是非常重要的。我們以前在大公司做的一些算法，今天還有很多人用。我們今天在Face++做的算法（ShuffleNet），第二天就有公開的開源社區(qū)，去實(shí)現(xiàn)這個(gè)算法，他們?cè)诓簧俅蠊竞蛣?chuàng)業(yè)公司都第一時(shí)間用了這個(gè)算法。這就說明你的算法特別好用，這樣的東西就是本質(zhì)性創(chuàng)新?！?/p>

曠視研究院院長(zhǎng)的帶兵之道：讀《孫子兵法》，鼓勵(lì)出論文，不在乎數(shù)量

孫劍博士曾談到，在帶領(lǐng)團(tuán)隊(duì)拿到COCO競(jìng)賽冠軍方面，做好了三件事：建團(tuán)隊(duì)、激勵(lì)團(tuán)隊(duì)、培養(yǎng)團(tuán)隊(duì)。在接受新智元專訪時(shí)，孫劍詳細(xì)分享了如何帶領(lǐng)好一個(gè)團(tuán)隊(duì)，吸引更多的人才。

他說：“帶團(tuán)隊(duì)這件事情其實(shí)是多層次的。我最近看《孫子兵法》上講的，為將者首先要智勇雙全，要仁、要嚴(yán)、要信，還要做到明，誰做得對(duì)、誰做得不對(duì)要非常明。大致就是建立一個(gè)很好的文化，建立一些大的框架，哪些是我們應(yīng)該做的，哪些是不應(yīng)該做的。要圍繞著我們公司的價(jià)值觀，我們公司價(jià)值觀叫“追求、極致、簡(jiǎn)單、可靠”，這幾個(gè)字對(duì)一個(gè)團(tuán)隊(duì)非常重要?！白非?、極致”有兩個(gè)含義，一個(gè)是說我們要做到最好，另一個(gè)是說做這件事情的時(shí)候要付出最大的努力，把所有的潛力都發(fā)揮出來?！?/p>

“從人才觀上的話，我們當(dāng)然是希望找最聰明的人，我們要求并不高，你只要數(shù)學(xué)還不錯(cuò)就可以。你如果線性代數(shù)還可以，編程還可以的話就可以做這件事情。我們的環(huán)境非常扁平化，所有的數(shù)據(jù)代碼基本上都是共享的，所有的知識(shí)都是共通的，包括我們內(nèi)部的MegBrain。你如果想了解每個(gè)細(xì)節(jié)，就可以找MegBrain的開發(fā)者，他會(huì)給你講細(xì)節(jié)，到底MegBrain怎么設(shè)計(jì)的、怎么優(yōu)化，你會(huì)學(xué)到這些東西，可以有一個(gè)很自由的空間來做這件事情。還有一個(gè)很大的因素，讓大家覺得創(chuàng)新是安全的，是他愿意冒風(fēng)險(xiǎn)去做的。我大多數(shù)時(shí)候都不會(huì)說不要做這個(gè)、不要做那個(gè)，而是說你試試看，這樣讓大家有一個(gè)安全的、愿意探索的環(huán)境，提高命中率?！?/p>

在AI人才非常稀缺的今天，孫劍表示，在研究院，我們鼓勵(lì)出論文。這在國(guó)內(nèi)外的創(chuàng)業(yè)公司里面應(yīng)該是少數(shù)現(xiàn)象?！耙?yàn)楹芏鄡?yōu)秀人才希望他們的工作一部分可以被看到。我們通過這樣的方式吸引人才”，他說。

但是，曠視對(duì)論文數(shù)量沒有要求?！拔覀儗?duì)任何的事情都沒有數(shù)量要求，哪怕你只有一篇論文，但只要滿足創(chuàng)新的兩條原則，第一它是通用的，第二別人愿意用，只要有一篇這樣的論文就可以。我以前自己做研究，每次會(huì)議投稿時(shí)會(huì)花很長(zhǎng)時(shí)間只做兩篇論文，我自己主做一篇，另一篇讓學(xué)生做，或者跟別人一起做一篇。我們不追求數(shù)量，只要有一篇了不起的論文就可以?！?br/>

以下是曠視科技Face++首席科學(xué)家孫劍博士在新智元AI World 2017世界人工智能大會(huì)上的演講：

孫劍AI WORLD 2017世界人工智能大會(huì)演講：

《視覺端計(jì)算：從ResNet到ShuffleNet 》

孫劍：各位好，非常高興新智元提供了這樣一個(gè)機(jī)會(huì)把我們做計(jì)算機(jī)視覺研究的人聚在一起，也非常高興見到以前的老朋友，比如騰訊的賈佳亞博士，我們之前曾經(jīng)一起做計(jì)算機(jī)圖形學(xué)和計(jì)算機(jī)攝影學(xué)。剛才賈佳亞展示了一張圖：那是2004年我們倆合作的第一篇siggraph論文。當(dāng)時(shí)非常難，不亞于今天去 COCO 或者 ImageNet拿一個(gè)冠軍。今天到場(chǎng)的嘉賓中，華先勝博士也是我在微軟的同事。計(jì)算機(jī)視覺在深度學(xué)習(xí)的推動(dòng)下，發(fā)生了天翻地覆的變化，今天也在此分享一些我最近的工作。

CV （計(jì)算機(jī)視覺）在 AI 中大概的位置我用這一張圖來表現(xiàn)，其實(shí)我標(biāo)不同的方塊的顏色代表這個(gè)領(lǐng)域商業(yè)化的成熟度，這里語音和視覺是更接近商業(yè)化落地的，NLP和通用人工智能還有很長(zhǎng)的路要走。

CV今天非?；馃崾且?yàn)樗蟹浅６嗟膽?yīng)用，從互聯(lián)網(wǎng)、安防、無人車、機(jī)器人到AR、VR等等，也允許大公司和創(chuàng)業(yè)公司在整個(gè)市場(chǎng)上并存。

做CV的話需要什么呢？既需要理論也需要?jiǎng)?chuàng)新，這里分享一下：上周日曠視科技成立了學(xué)術(shù)委員會(huì)，非常有幸請(qǐng)到了圖靈獎(jiǎng)唯一一位華人得主姚期智先生擔(dān)任學(xué)術(shù)委員會(huì)首席顧問，幫我們?cè)诶碚摲矫姘殃P(guān)。

今天我會(huì)分享一下算法上面的工作。

計(jì)算方式的變革（或復(fù)興）：神經(jīng)網(wǎng)絡(luò)計(jì)算突破馮·諾依曼結(jié)構(gòu)的體系瓶頸

在講計(jì)算機(jī)視覺之前，我想先講一下對(duì)算法尤其是計(jì)算的理解。我們今天用的計(jì)算機(jī)還是馮·諾依曼結(jié)構(gòu)的計(jì)算機(jī)，它的計(jì)算機(jī)體系結(jié)構(gòu)設(shè)計(jì)的思想是要把數(shù)據(jù)和程序同時(shí)放在內(nèi)存里，好處是程序遇到不同的數(shù)據(jù)時(shí)可以改變程序，可以自適應(yīng)地處理數(shù)據(jù)，這非常了不起，因?yàn)樵谶@之前，如果不這樣的話，每一次不管是插線還是打孔，都很難去重新編程。后來圖靈也問了個(gè)問題：既然機(jī)器可以根據(jù)自動(dòng)處理數(shù)據(jù)，那是不是機(jī)器就可以擁有智能。

但是今天我們用了很長(zhǎng)時(shí)間的馮·諾依曼結(jié)構(gòu)，很大一個(gè)局限是它有一個(gè)瓶頸：學(xué)術(shù)界叫做馮·諾依曼瓶頸，其實(shí)是說CPU和內(nèi)存之間的帶寬是不夠的。雖然 CPU 可以加速，但是數(shù)據(jù)越來越大，就會(huì)堵在中間。怎么去突破這一個(gè)瓶頸，目前的傳統(tǒng)計(jì)算機(jī)結(jié)構(gòu)是不能突破這一瓶頸的。

而我們大腦其實(shí)不是這樣的結(jié)構(gòu)，大腦里面所有的計(jì)算和表示都是在一個(gè)并行的網(wǎng)絡(luò)里面運(yùn)行的。

這跟我們今天做的神經(jīng)網(wǎng)絡(luò)也非常類似，這是神經(jīng)網(wǎng)絡(luò)的一個(gè)神經(jīng)元或者多個(gè)神經(jīng)元在做的一些處理，右邊是人腦神經(jīng)元的一些類別，基本上一個(gè)神經(jīng)元會(huì)接受相連接的幾百個(gè)、上千個(gè)神經(jīng)元來的輸入，然后做一個(gè)決策：神經(jīng)元到底是激活還是不激活。

所以如果我們看今天神經(jīng)網(wǎng)絡(luò)的計(jì)算是在做什么呢？其實(shí)是在通過一個(gè)函數(shù)把一個(gè)高維激活向量變成另外一個(gè)高維激活向量。我們目前的神經(jīng)網(wǎng)絡(luò)就是不停做這樣的變換，做一次、兩次，做很多次，以至于形成一個(gè)非常復(fù)雜的嵌套變換，這就是我們今天的神經(jīng)網(wǎng)絡(luò)。

我們可以把它拆成三個(gè)因素，一個(gè)是表示這樣的激活向量，還有里面的標(biāo)量非線性，還有權(quán)重矩陣，這是里面的三要素。激活向量其實(shí)是知識(shí)的表示，非線性是來表示這個(gè)神經(jīng)元是激活還是不激活，這權(quán)重矩陣是通過監(jiān)督學(xué)習(xí)到的知識(shí)。

這一個(gè)方式有很多好的特性，比如說它是高度并行，內(nèi)存帶寬可以非常大，還有一個(gè)優(yōu)點(diǎn)就是計(jì)算非常簡(jiǎn)單，基本上就是矩陣乘，沒有有分枝判斷，沒有馮·諾依曼結(jié)構(gòu)下的復(fù)雜計(jì)算，所以這一種計(jì)算在一定意義上可以突破馮·諾依曼結(jié)構(gòu)的體系瓶頸，比如說右側(cè)是今天神經(jīng)網(wǎng)絡(luò)的主要模式，左邊是以前的模式，可以看到計(jì)算可以提高帶寬10倍甚至上百倍。

這樣的計(jì)算，現(xiàn)在還有NVIDIA、AMD的GPU這樣的并行處理單元來加速，大家可以看到這個(gè)數(shù)字，120個(gè)TFLOP/S，這是今天 NVIDIA最好的顯卡能做到的計(jì)算力。大家可以比較一下去年GPU的顯卡還是Pascal 系列，是10個(gè)TFLOP/S，今年不管是 NVIDIA還是谷歌第二代的TPU，計(jì)算量提高了10倍、甚至20倍，這遠(yuǎn)遠(yuǎn)打破了摩爾定律，這是在訓(xùn)練端或者服務(wù)器端。

在中國(guó)也有華為的Mate10的手機(jī)，第一款搭載了寒武紀(jì)的1A 神經(jīng)網(wǎng)絡(luò)加速器的手機(jī)，可以在客戶端也能夠方便運(yùn)用這樣的計(jì)算能力。所以我們自己做研究就會(huì)問一個(gè)問題，怎么樣去利用這樣的計(jì)算力？

我們?cè)贔ace++很早就意識(shí)到計(jì)算帶來非常大的變革。我們做了一個(gè)曠視科技的Brain，就是為了神經(jīng)計(jì)算，這里面最重要的東西是深度學(xué)習(xí)平臺(tái)，底層是NVIDIA 的引擎，右邊是我們GPU集群，最核心的深度學(xué)習(xí)平臺(tái)我們內(nèi)部叫做Brain++，是整個(gè)系統(tǒng)管理存儲(chǔ)、標(biāo)注、深度學(xué)習(xí)訓(xùn)練、GPU虛擬化管理甚至模型的發(fā)布，整個(gè)一套軟件系統(tǒng)來管理我們所有數(shù)千塊的GPU。

曠視科技的Brain++ 內(nèi)部有一個(gè)最重要的東西叫 MegBrain，它對(duì)應(yīng)的就是一些開源的或者大公司推出的深度學(xué)習(xí)引擎，比如TensorFlow和Caffe。MegBrain是我們自研的一個(gè)引擎，早在TensorFlow之前。據(jù)我所知，這是所有創(chuàng)業(yè)公司中唯一一家自研深度學(xué)習(xí)引擎并且全員使用的，我們內(nèi)部已經(jīng)到了7.0的版本。這兩個(gè)條件非常重要，既要自研又要全員使用，給我們帶來非常多的好處，所以我們要堅(jiān)持使用自己的深度學(xué)習(xí)引擎。

4.6 億美元怎么花？

大家可能前兩天看了一些新聞關(guān)于Face++拿到了一些融資，那融資拿來怎么用呢？我們主要有兩個(gè)大的方向，一方面是繼續(xù)打造類似于Brain++的引擎需要更多的計(jì)算力，另外一個(gè)方面會(huì)在城市大腦上做一些商業(yè)的開拓。

為什么花這么多的資源來做這件事情呢？因?yàn)槲覀兿嘈沤裉斓乃惴ㄊ悄壳霸O(shè)計(jì)的，但是如果問一個(gè)問題，如果今天計(jì)算量就提高一萬倍，那你應(yīng)該如何重新設(shè)計(jì)自己的算法。一萬倍聽上去很多，其實(shí)也不是很難達(dá)到。比方說去年到今年就從10 TFLOP/S 通過NVIDIA和Google的努力到120-180 TFLOP/S，其實(shí)達(dá)到了18倍的增速。從計(jì)算力來說，如果有500多塊卡，我們就達(dá)到了一萬倍的加速。這是我在Face++研究院非常嚴(yán)肅地在研究的一個(gè)問題。有了這樣的計(jì)算變化，那視覺計(jì)算產(chǎn)生了什么樣大的變化？

我可以回顧一下，計(jì)算機(jī)視覺到底要解決什么問題。剛才賈佳亞教授也非常詳細(xì)地解釋了視覺計(jì)算要處理的一些核心問題。基本上是要描述一張圖片里面都有什么東西，描述這張圖片里正在發(fā)生什么和將要發(fā)生什么。

我們自己將它定義成四個(gè)核心問題，分別是分類、檢測(cè)、分割，序列分析，分別對(duì)應(yīng)圖象、區(qū)域、像素和視頻的處理，這是Face++研究院核心要做的事。

以前做這一些問題，大家是通過手工設(shè)計(jì)特征的方式加上一個(gè)標(biāo)準(zhǔn)的SVM的分類器，這其實(shí)也是在做非線性變換，但是問題是這樣的非線性變換做不了很多次，很多研究嘗試做三次、五次、十次，發(fā)現(xiàn)超過三次就不太有效了。另外就是手工設(shè)計(jì)特征，人工很難去設(shè)計(jì)很好的特征。

今天深度神經(jīng)網(wǎng)絡(luò)可以做一個(gè)非常多次的非線性變換，可以逼近非常復(fù)雜的映射。更重要的是，里面的所有參數(shù)都是自動(dòng)學(xué)到的，這是深度學(xué)習(xí)網(wǎng)絡(luò)目前的現(xiàn)狀和基本方式。

這個(gè)過程來之不易，里面經(jīng)過了很多代人的研究。有很多認(rèn)知邊界的突破，比如說很多人之前不相信深度神經(jīng)網(wǎng)絡(luò)是好的，是有用的，認(rèn)為它根本不可能被訓(xùn)練起來，這個(gè)魔咒其實(shí)是通過這幾年的發(fā)展才慢慢破除的。

我們看一下神經(jīng)網(wǎng)絡(luò)為什么叫深度學(xué)習(xí)，其實(shí)說神經(jīng)網(wǎng)絡(luò)的層數(shù)非常多，它夠深，這是2012年Hinton和學(xué)生做的 AlexNet，一個(gè)八層的網(wǎng)絡(luò)，當(dāng)時(shí)認(rèn)為已經(jīng)非常深了。論文里還有一段，專門說八層比五層深是有道理的，證明深度是有道理的。論文發(fā)布以后還有很多人挑戰(zhàn)說其實(shí)更淺的也能做出來，現(xiàn)在已經(jīng)沒有人挑戰(zhàn)了。過兩年之后，牛津大學(xué)和谷歌分別開發(fā)出了它們的網(wǎng)絡(luò)，20層的網(wǎng)絡(luò)，性能提高非常多。這兩個(gè)網(wǎng)絡(luò)大概都是20層，這并不是巧合，到了20層以后系統(tǒng)就很難訓(xùn)練起來。我們自己做了一些工作，確實(shí)發(fā)現(xiàn)是這樣的問題，當(dāng)非線性系統(tǒng)非常復(fù)雜的時(shí)候，確實(shí)很難訓(xùn)練它。

在2015年的時(shí)候，當(dāng)時(shí)我還在微軟亞洲研究院，我們做了一個(gè)工作叫做 ResNet，第一次做了一個(gè)152層的網(wǎng)絡(luò)，它有效地解決了神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的優(yōu)化問題。我先放一個(gè)以前同事做的動(dòng)畫，給大家看一下152層網(wǎng)絡(luò)到底有多深。其中一個(gè)小橫桿是一層。

這網(wǎng)絡(luò)到底為什么能做成呢？其實(shí)核心是引用了一個(gè)殘差學(xué)習(xí)的概念，這概念就是說當(dāng)網(wǎng)絡(luò)非常深的時(shí)候，你要做一個(gè)變換，相鄰兩層的變化差別是不大，那只去學(xué)習(xí)殘差會(huì)比直接學(xué)習(xí)映射會(huì)更容易，所以我們就設(shè)計(jì)了殘差學(xué)習(xí)的思想，實(shí)際上可以用一個(gè)非常簡(jiǎn)單的跨層連接來實(shí)現(xiàn)，從而達(dá)到非常容易優(yōu)化的復(fù)雜的非線性動(dòng)態(tài)系統(tǒng)。為什么網(wǎng)絡(luò)可以很好的訓(xùn)練起來，我們自己相信的一個(gè)解釋是整個(gè)訓(xùn)練過程是一個(gè)從淺到深的訓(xùn)練動(dòng)態(tài)。還有一個(gè)數(shù)學(xué)上比較嚴(yán)謹(jǐn)?shù)慕忉屖撬軌蚝芎玫南郧吧疃葘W(xué)習(xí)網(wǎng)絡(luò)反傳算法中梯度消失的問題，這是個(gè)非常嚴(yán)重的問題，當(dāng)你層數(shù)非常深的時(shí)候，梯度會(huì)越來越小，以至于計(jì)算機(jī)的精度會(huì)表示不了，就無法訓(xùn)練整個(gè)系統(tǒng)了，這個(gè)就在數(shù)學(xué)上保證了梯度不會(huì)變小。殘差網(wǎng)絡(luò)也代表微軟贏得了 ImageNet 2015年的冠軍，第一次超過了人類在圖像識(shí)別上的表現(xiàn)。

深度學(xué)習(xí)：破除魔咒之旅

ResNet 網(wǎng)絡(luò)說明了什么？它說明了我們走到今天這一步非常不容易的，Geoffrey Hinton總結(jié)了一下為什么深度學(xué)習(xí)做得越來越好，比如說計(jì)算量越來越強(qiáng)、數(shù)據(jù)越來越大，細(xì)節(jié)做的更對(duì)了。其實(shí)我想說的是殘差學(xué)習(xí)隱含了網(wǎng)絡(luò)結(jié)構(gòu)需要對(duì)優(yōu)化友好才可以做好。

我也分享一下，在前不久 AlphaGo Zero系統(tǒng)里面第一次用不學(xué)習(xí)人類棋譜的方式來戰(zhàn)勝了人類，其中有兩個(gè)核心技術(shù)，一個(gè)是自我博弈的增強(qiáng)學(xué)習(xí)，另外一個(gè)它也用到了我們的ResNet，用了一個(gè)40層或者80層的網(wǎng)絡(luò)來完成對(duì)棋譜到底哪里下子、到底對(duì)當(dāng)前棋局是贏還是輸?shù)囊粋€(gè)判斷。

深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的演化非常快，我們給大家羅列了從2012年到2016年的一些代表性工作年。進(jìn)展非?？煲灾劣谖覀冏龅暮芏嘁曈X計(jì)算任務(wù)取得了非常大的進(jìn)展，例如Coco是目前物體檢測(cè)最重要的一個(gè)基準(zhǔn)測(cè)試。

今年我們贏得了冠軍。 2015年到2017年僅僅兩年，Coco物體檢測(cè)的精度從37變到了52。 37這個(gè)數(shù)字是當(dāng)時(shí)我們?cè)谖④浹芯吭鹤龅囊粋€(gè)工作，是當(dāng)時(shí)COCO的第一名。再往前2014年微軟創(chuàng)建COCO的時(shí)候，當(dāng)時(shí)的結(jié)果只有20多，如果用非深度學(xué)習(xí)方法可能不到20。我們今年也獲得了COCO Keypoint 競(jìng)賽的冠軍，這個(gè)問題就是說如何把每一個(gè)人的身體骨架都很精確的用3D姿態(tài)恢復(fù)出來，這樣很容易分析這個(gè)人的動(dòng)作。

另外我們還獲得了今年第一次舉辦的Places Instance Segmentation 的冠軍。這是大家努力的一個(gè)方向，模型越做越大、精度越做越高，所有訓(xùn)練要求計(jì)算力越來越大。還有一個(gè)方向是說，計(jì)算量不夠的時(shí)候，應(yīng)該去如何應(yīng)用這個(gè)技術(shù)，將其商業(yè)化。

我們以前做研究就講究填補(bǔ)國(guó)家空白，其實(shí)左邊一個(gè)空白我們看到了，然后我們今年提出來一個(gè)網(wǎng)絡(luò)叫ShuffleNet，它是為了給定計(jì)算量下或者比較小的計(jì)算量下，特別是計(jì)算量只有5到10個(gè)的TFLOP/S的時(shí)候，特別是手機(jī)上你怎么做深度學(xué)習(xí)網(wǎng)絡(luò)的推斷。

這里是ShuffleNet的一些基本機(jī)構(gòu)，左邊是最早的網(wǎng)絡(luò)，然后ResNet、然后Bottleneck，ResNet，還有 MobileNets，然后右邊是ShuffleNet。

核心思想就是把計(jì)算量最昂貴的1乘1的卷集分成很多組引入Shuffle 的一個(gè)操作，我們可以達(dá)到非常好的性能。例如說我們比傳統(tǒng)的AlexNet在同樣精度上可以快15到20倍，這速度并不是理論復(fù)雜度，而是真正在手機(jī)上的實(shí)測(cè)速度，理論復(fù)雜度比這還要小。

我們把這東西用在什么地方呢？第一我們用在FGPA（可編程門陣列）芯片上，中間是FGPA智能抓拍機(jī)，把這FGPA塞到相機(jī)里，就是智能的抓拍機(jī)。右邊視頻向大家展示一下成本非常便宜的FGPA上如何做智能人像抓拍，這智能人像抓拍機(jī)目前是業(yè)界第一款全畫幅、全幀率的人像抓拍機(jī)。這是保證視頻里人臉都不漏掉的重要因素。

我們還把Shufflenet用在手機(jī)上。iPhoneX 有3D人臉解鎖，其實(shí)我們也已經(jīng)幫助安卓手機(jī)廠商，包括VIVO、小米還有錘子手機(jī)，都使用了Face++的人臉解鎖技術(shù)，其實(shí)就是Shufflenet背后提供的計(jì)算，能夠讓人臉解鎖在手機(jī)上的時(shí)間小于0.1秒，拿起手機(jī)只要看一下屏幕馬上就可以解鎖，這速度會(huì)帶來非常不一樣的體驗(yàn)，大家有機(jī)會(huì)可以試試不同款的手機(jī)。

落地：城市大腦及其他

另外一個(gè)就是剛才華先勝博士講的城市大腦。以前我也玩游戲，玩的一個(gè)游戲叫《模擬城市》其實(shí)就是你怎么去構(gòu)造、管理這個(gè)城市。今天，隨著人工智能和各種技術(shù)的發(fā)展，我們有機(jī)會(huì)去做真實(shí)的模擬城市的工作，右邊是我們做的計(jì)算機(jī)視覺方面的進(jìn)展，是如何在一個(gè)城市里面把所有的人和車進(jìn)行檢測(cè)跟蹤，把所有屬性都抽取出來，這是城市大腦傳感器最重要的一部分。

另外，視覺計(jì)算還有非常廣的商業(yè)用途，我們的一個(gè)產(chǎn)品就是用刷臉做身份認(rèn)證的平臺(tái)，目前這個(gè)平臺(tái)叫FaceID，它是世界上最大的人臉識(shí)別云平臺(tái)。它在線上為中國(guó)上百家互聯(lián)網(wǎng)金融公司提供服務(wù)。右邊是很好的商業(yè)探索，今天帶手機(jī)而不掃二維碼也可以用人臉支付，這是杭州肯德基第一個(gè)線下用人臉支付的案例。

還包括我們今天的無人店和新零售的一些探索，這里面是一個(gè)視頻展示一下Face++的技術(shù)如何幫助新零售行業(yè)做更好的線下商業(yè)銷售。

最后總結(jié)一下，雖然我們做了很多商業(yè)上的應(yīng)用，特別是把核心算法用起來。但是做計(jì)算機(jī)視覺和人工智能的人都知道，真正觸及人工智能冰山一角還是非常困難的。在這過程中，我們內(nèi)部就講幾個(gè)字，做公司的話，“技術(shù)、商業(yè)、數(shù)據(jù)”這個(gè)循環(huán)要轉(zhuǎn)起來。同樣，對(duì)于做算法，“熱情、洞察、耐心”是我們最重要的三個(gè)方向。

人才是根本：巨大的腦力ALL IN，AI 潛力巨大

中間這一張照片是我一個(gè)朋友分享的，我用這張照片表示人工智能還是很遙遠(yuǎn)，前面的路還不知道怎么走，但是我們非常有信心，信心來自于哪里呢？信心來自于人的智力投入，左邊這一張是去年GTC NVIDIA年會(huì)拍的照片，右邊是今年計(jì)算機(jī)視覺年會(huì)CVPR的照片，每一個(gè)會(huì)議參與者都超過了5千人，這標(biāo)志著世界上所有最聰明的人都在做這一件事情，我相信所有人的聰明才智集合在一起，一定能夠非?？焖俚赝苿?dòng)這一件事情的發(fā)展。

最后我再回顧一下，上周日我們請(qǐng)了姚期智院士來擔(dān)任我們Face++學(xué)術(shù)委員會(huì)的首席顧問。我們探討的主題是人工智能的本質(zhì)創(chuàng)新。探討了非常多的話題后，最后回到了根本問題：人才。我們分別讓每一個(gè)人回答了一下對(duì)于人才的最重要要求。姚院士說希望在我們公司里，所有的研究員都能夠人盡其用。我自己在曠視研究院，最大使命是創(chuàng)造一個(gè)好的環(huán)境，讓每一個(gè)人才人盡其用。印奇是我們的CEO，他的使命是為公司找到最大的人工智能應(yīng)用場(chǎng)景，同時(shí)匯聚交叉學(xué)科的人才，因?yàn)槲覀冎廊斯ぶ悄懿皇侵蛔鲇?jì)算機(jī)視覺或語音語意理解，而是做認(rèn)知、做機(jī)器人，甚至腦科學(xué)的人都應(yīng)該匯聚在一起，才真正有可能把人工智能的問題一點(diǎn)點(diǎn)理清楚，定義好問題才能更加踏實(shí)地向前走。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

曠視研究院院長(zhǎng)孫劍講述：中國(guó)技術(shù)何以打敗Facebook、Google拿下世界第一

下一篇

曠視研究院院長(zhǎng)孫劍講述：中國(guó)技術(shù)何以打敗Facebook、Google拿下世界第一

下一篇

曠視研究院院長(zhǎng)孫劍講述：中國(guó)技術(shù)何以打敗Facebook、Google拿下世界第一