近日,騰訊優(yōu)圖實驗室總監(jiān)黃飛躍接受CSDN專訪,揭秘了騰訊優(yōu)圖八年間的研發(fā)和落地歷程,以及對計算機視覺的未來展望。以下為專訪內(nèi)容:
12 年前,清華大學(xué)博士畢業(yè)的黃飛躍加入騰訊剛成立不到一年的騰訊研究院,帶著 5 個人的小組,第一個項目是做一款名為“QQ影像”的桌面處理軟件,但由于團隊都屬于 IT 直男,對于產(chǎn)品一竅不通,于是首個項目以并不盡如人意的結(jié)局告終。
12 年后,當(dāng)初的 5 人團隊已經(jīng)擴大到 數(shù)百人的規(guī)模,成為計算機視覺領(lǐng)域鼎鼎有名的優(yōu)圖實驗室。但細算起來,優(yōu)圖正式成立的時間其實在 2012 年,這一年,黃飛躍帶領(lǐng)的這支團隊更名為“優(yōu)圖”,他作為優(yōu)圖團隊的負責(zé)人,帶領(lǐng)這幫人成為國內(nèi)計算機視覺大規(guī)模應(yīng)用最早的一批從業(yè)者。
如今,做計算機視覺的人不會不認識優(yōu)圖這個名字,尤其是人臉識別技術(shù)和產(chǎn)品,優(yōu)圖的名聲更是響亮。作為騰訊消費互聯(lián)網(wǎng)業(yè)務(wù)背后的“隱形 AI 戰(zhàn)隊”,優(yōu)圖實驗室與 騰訊 AI Lab 和微信 AI 團隊一起,并列騰訊 AI 三大人工智能團隊,為包括 QQ、微信、騰訊微視等消費互聯(lián)網(wǎng)產(chǎn)品提供技術(shù)支持。
優(yōu)圖在做什么?
2018 年,騰訊宣布戰(zhàn)略轉(zhuǎn)型升級,擁抱產(chǎn)業(yè)互聯(lián)網(wǎng),優(yōu)圖從騰訊內(nèi)部的一個技術(shù)團隊開始走向前臺,通過騰訊云等對外輸出視覺 AI 能力。
黃飛躍對于優(yōu)圖的定位,就是一個計算機視覺相關(guān)技術(shù)的研發(fā)和落地的實驗室,從最開始的圖像壓縮,到后面的人臉識別,再往后的人體識別、OCR 等一系列技術(shù),優(yōu)圖從最初的圍繞騰訊公司內(nèi)部的需求提供技術(shù)支撐,到現(xiàn)在依托騰訊云等產(chǎn)品對外輸出產(chǎn)品和解決方案。
有人會好奇,優(yōu)圖到底都做了些什么。實際上,從騰訊內(nèi)部到 ToC,優(yōu)圖的AI技術(shù)早已滲透到我們的日常生活中,留心觀察的話會發(fā)現(xiàn),我們平常用到的微信刷臉支付、人臉識別對比、隨申碼、健康碼、微眾銀行等 App 的人臉核身等,背后都是優(yōu)圖在做技術(shù)支撐。比如在微信小程序申請民政服務(wù),檢測人臉時出現(xiàn)的藍色、綠色等不同顏色的光譜,其實就是在做活體檢測,確認是否是本人操作。
天天P圖
黃飛躍表示,最近一兩年,短視頻、泛娛樂場景的視覺AI需求比較旺盛,為此優(yōu)圖打造了一系列泛娛樂方面的解決方案,包括美顏美妝、人像分割、趣味合成和生成、人臉融合和變裝等,你平常打開的美顏軟件,說不定就有優(yōu)圖的存在。
讓筆者印象比較深刻的,還有在尋找走失兒童場景中,優(yōu)圖可以實現(xiàn)跨年齡人臉識別,一兩歲時丟失的嬰兒,丟失十幾年之后的兒童也能被精準識別,這樣的“黑科技”也是優(yōu)圖研發(fā)的。
了解計算機視覺技術(shù)的人應(yīng)該知道,跨年齡人臉識別對于數(shù)據(jù)量和模型訓(xùn)練來說都是巨大的挑戰(zhàn),為了充分的從數(shù)據(jù)中學(xué)習(xí)人臉自然的跨年齡變化規(guī)律,騰訊優(yōu)圖提出了基于 DDL(分布式蒸餾學(xué)習(xí)法則)學(xué)習(xí)策略的正則化遷移學(xué)習(xí)策略?;谠摬呗裕惴P涂沙浞诌M行跨年齡人臉識別學(xué)習(xí),從而讓困難的跨年齡識別更加可靠和精準。用這項技術(shù),騰訊成功幫助警方找回多名被拐超過十年的兒童。
“救人一命勝造七級浮屠”,可以造福、方便人類的事情,正是所有技術(shù)人的追求,因為這讓我們所做的事情變得有了意義。
優(yōu)圖的技術(shù)“家底”有多厚?
各種場景下的應(yīng)用, 當(dāng)然離不開底層技術(shù)的支撐。從團隊成立之初做圖片壓縮,到后來轉(zhuǎn)到人臉檢測和識別,優(yōu)圖不斷洞察新技術(shù)趨勢,積淀下清晰的技術(shù)發(fā)展路線。
黃飛躍在清華大學(xué)讀研讀博時,所學(xué)專業(yè)除了人臉識別和人臉檢測之外,還包括人頭 3D 重建、人體動作識別等技術(shù)。黃飛躍回憶,那時候人臉識別與現(xiàn)在相比有著巨大的差異,十幾年前,火爆的專業(yè)是網(wǎng)絡(luò)工程等方向,計算機視覺方向在當(dāng)時是冷門。
黃飛躍也承認,當(dāng)時學(xué)術(shù)的不成熟導(dǎo)致整個計算機視覺產(chǎn)業(yè)鏈不完整?,F(xiàn)在,我們已經(jīng)可以通過深度學(xué)習(xí)技術(shù),為很多計算機視覺問題找到很好的解決方案,比如人臉檢測識別,我們能夠從幾百人的合照中找到 99% 甚至全部的人臉,有遮擋也可以做到,但在當(dāng)時,深度學(xué)習(xí)還沒有起來,大家更多的是做偏研究的事情,和實際業(yè)務(wù)結(jié)合較少,采集數(shù)據(jù)難度大,算法在實際應(yīng)用中效果差,只能在特定場景和小范圍內(nèi)做有限的應(yīng)用。
總之,當(dāng)時的計算機視覺研究環(huán)境很惡劣,人工智能仍處于發(fā)展瓶頸期,體系建設(shè)沒有展開。2008 年,黃飛躍畢業(yè)時也曾糾結(jié)過去做老師還是進公司,看了很多方向,選擇了加入剛成立不到一年的騰訊研究院,起初是跟著 leader,后來才帶領(lǐng)著 5 人小組,在迷茫中開始視覺AI的探索之路。
因圖像壓縮技術(shù)聲名大噪
上文中也提到,最開始,這支團隊負責(zé)一款名叫“QQ 影像”的桌面處理軟件,這是一款和美圖秀秀類似的圖像管理編輯軟件,既有工程又有黃飛躍學(xué)習(xí)的視覺圖像處理的一系列的能力,所以他認為這兩者的結(jié)合是一個機會。但這個項目做到 2011年,PC 端開始向移動端轉(zhuǎn)移,但 QQ 影像是 PC 軟件,所以失去優(yōu)勢,加上團隊都是技術(shù)人員,缺乏產(chǎn)品思維,導(dǎo)致產(chǎn)品發(fā)展不盡人意。
QQ 影像
2010 年,黃飛躍和團隊遷往上海。2011 年下半年,黃飛躍發(fā)現(xiàn)“圖片二次壓縮”技術(shù)可能存在極大的價值,可以廣泛應(yīng)用到騰訊內(nèi)部的眾多業(yè)務(wù)中,比如圖片的存儲與傳輸,可有效減少存儲、降低帶寬流量,為公司節(jié)省巨額資金及存儲空間。隨著研究的深入和技術(shù)的不斷成熟,黃飛躍帶著團隊開始為騰訊內(nèi)部其他團隊提供圖片二次壓縮技術(shù)——可以將圖片像素壓縮 20%-30%,大大降低帶寬成本。
此時,團隊更名為“優(yōu)圖”——這便是“優(yōu)圖實驗室”的前身。
優(yōu)圖的圖片壓縮技術(shù)為騰訊創(chuàng)造了巨大的價值,也為優(yōu)圖帶來了聲望。
轉(zhuǎn)移到人臉檢測識別方向
2012 年下半年,優(yōu)圖把研究重心轉(zhuǎn)移到人臉檢測識別方向,開始進行人臉技術(shù)研發(fā)和儲備。此時正逢騰訊的組織架構(gòu)調(diào)整,原本隸屬于騰訊研究院的優(yōu)圖并到了騰訊社交網(wǎng)絡(luò)事業(yè)群旗下。
2013 上半年,優(yōu)圖開始將人臉檢測技術(shù)輸出至 QQ 空間,同時將技術(shù)提供給推出爆款“武媚娘”妝容的“天天P圖”前身——“水印相機”團隊。2014 年,QQ 空間“面孔墻”全量上線,這是業(yè)界最早在大規(guī)模社交網(wǎng)絡(luò)平臺中人臉識別技術(shù)的應(yīng)用。此時,黃飛躍帶領(lǐng)的優(yōu)圖團隊只有 20 人不到。
2014 年上半年開始,黃飛躍帶領(lǐng)優(yōu)圖團隊開始探尋大量人臉識別應(yīng)用場景,和騰訊征信負責(zé)人挖掘人臉識別的一個創(chuàng)新應(yīng)用,即通過自拍照和身份證照片比對,來確認是否是用戶本人(人臉核身)。在成功打出微眾銀行這個線上人臉核身案例后,優(yōu)圖將技術(shù)逐漸開放給內(nèi)部超過 50 個業(yè)務(wù),并在 QQ、QQ 空間、QQ 音樂、財付通、微眾銀行、天天 P 圖等明星產(chǎn)品中成功落地,也與滴滴、聯(lián)通等企業(yè)達成合作。
隨著業(yè)務(wù)的發(fā)展壯大,騰訊優(yōu)圖也從最開始的 5 人團隊,成長為現(xiàn)在的百人以上的規(guī)模。
2018 年 9 月 30 日,騰訊宣布組織架構(gòu)調(diào)整,隸屬于 SNG 的優(yōu)圖實驗室調(diào)整歸屬于 CSIG 云與智慧產(chǎn)業(yè)事業(yè)群。優(yōu)圖開始和云與智慧產(chǎn)業(yè)形成更密切的聯(lián)動配合,通過騰訊云、微信等輸出視覺AI能力,在金融、零售、政務(wù)、社區(qū)、物流、文旅等領(lǐng)域落地解決方案。
以上就是優(yōu)圖實驗室大致的技術(shù)發(fā)展路線,在這個過程中,黃飛躍帶領(lǐng)團隊自主研發(fā)了很多創(chuàng)新性的計算機視覺技術(shù)和應(yīng)用。
人臉識別算法迭代
黃飛躍回憶,自 2012 年下半年將重點轉(zhuǎn)移到人臉識別上來之后,優(yōu)圖便開始積累人臉相關(guān)技術(shù)。那時,優(yōu)圖會使用一些傳統(tǒng)的分類 PCA 等方法做檢測識別,從而具備了基礎(chǔ)的人臉相關(guān)能力,包括人臉檢測、人臉五官定位、人臉識別這三要素。
2014 年以后,優(yōu)圖開始跟進深度學(xué)習(xí)相關(guān)技術(shù)潮流和趨勢,最開始是用深度學(xué)習(xí)對齊傳統(tǒng)的人臉方法。
黃飛躍認為,實際上人臉技術(shù)的演進有這幾個點,其一是活體檢測,優(yōu)圖做了人臉安全與身份核驗、紋理檢測、動作識別,以及自主研發(fā)的反光活體技術(shù),即手機側(cè)終端隨機發(fā)出一系列不同的光,根據(jù)光照射用戶的情況,和攝像頭捕捉到的信息,判斷是真的人臉還是一張照片、面具還是視頻。這是人臉安全系列的技術(shù)演進。
其二是人臉識別規(guī)模的大幅提升,從開始的幾千到幾萬的規(guī)模,現(xiàn)在到從數(shù)十億規(guī)模中做人臉檢測,背后依靠的是深度學(xué)習(xí)技術(shù)。
第三個特點是要結(jié)合實際業(yè)務(wù)場景,比如在疫情期間的口罩檢測,就需要做算法和場景交互的設(shè)計調(diào)整。
八年成長路,不斷積累“雪中送炭”的能力
從騰訊內(nèi)部一個名不見經(jīng)傳的小組,到成長為一個頗有名氣的AI實驗室,優(yōu)圖花了八年時間,一路走來也并非一帆風(fēng)順,他們面臨的挑戰(zhàn)不僅來自技術(shù)層面,還有如何向公司證明技術(shù)的價值。
比如讓這支團隊聲名鵲起的圖像壓縮技術(shù)發(fā)明之初,優(yōu)圖團隊就面臨著如何說服公司內(nèi)部客戶、合作伙伴和部門用這項技術(shù)的問題,為了與 QQ 空間團隊合作,他們要經(jīng)常跑到深圳,甚至長期派駐人員了解對方的需求。當(dāng)時,QQ 空間團隊關(guān)注的技術(shù)點很多,如何讓圖片顯示更清晰,PC 端網(wǎng)頁的相冊照片如何更好地展示縮略圖等,都是他們關(guān)心的問題,優(yōu)圖要做的不僅是要把技術(shù)“賣”給他們,還要根據(jù)需求給出具體的解決方案。好在團隊成功完成任務(wù),度過了團隊成立之初的第一個大關(guān)。
2014 年是優(yōu)圖的一個拐點。在這個時間段,雖然優(yōu)圖與 QQ 空間的合作已經(jīng)取得了一系列成果,優(yōu)圖研發(fā)推出的 QQ 空間面孔墻可以幫助用戶按照人的維度來管理自己的相冊、照片,整體的效果體驗,包括準確度、指標都不錯,但是實際上線之后,黃飛躍卻開始思考另一個問題:優(yōu)圖團隊的價值在哪里?因為這個能力始終是錦上添花,并不是雪中送炭,離不開的能力。于是,優(yōu)圖開始挖掘一些剛需、有價值的點。
黃飛躍想到了人臉識別。那時候團隊已經(jīng)開始主打人臉識別相關(guān)技術(shù)的研發(fā),但是存在一定困難。2014 年下半年與微眾銀行的合作是一個契機。當(dāng)時,微眾銀行開業(yè),給自己的定位就是完全線下無網(wǎng)點銀行,沒有線下網(wǎng)點,線上開戶只能通過人臉核身。但當(dāng)時人臉核身技術(shù)層面上不成熟,這就給了優(yōu)圖難得的機遇,從 2014 年 9 月份開始合作,到 2015 年微眾銀行正式上線,優(yōu)圖攻堅了一系列難題,包括提高人臉活體的能力,防止人臉照片、視頻攻擊等,獲得了微眾的認可,把真金白銀的業(yè)務(wù)交給優(yōu)圖。
八年走過來,優(yōu)圖的發(fā)展路線愈發(fā)清晰,聚焦于最核心的能力,比如人臉識別、人臉檢測定位等,避免與其他團隊的研發(fā)“撞車”;另外一方面,一些團隊更多地側(cè)重在優(yōu)圖基礎(chǔ)能力之上做封裝,如與 PCG 合作力,優(yōu)圖負責(zé)提供人臉檢測配準的基礎(chǔ)能力,PCG 在此之上研發(fā)美顏掛件等,提供美顏能力和解決方案。
計算機視覺迎來第二次高潮
以優(yōu)圖為代表,是國內(nèi)互聯(lián)網(wǎng)企業(yè)做計算機視覺技術(shù)研發(fā)與應(yīng)用開發(fā)的縮影。在移動互聯(lián)網(wǎng)時代,計算機視覺乘著東風(fēng),迎來第二次發(fā)展的高潮。
黃飛躍認為,移動互聯(lián)網(wǎng)與計算機視覺之間是相輔相成的關(guān)系,這其中有幾個原因,一個是正好深度學(xué)習(xí)的進展和移動互聯(lián)網(wǎng)發(fā)展的時間重合,移動互聯(lián)網(wǎng)時代的特點是手機上的攝像頭,有了傳感器,數(shù)據(jù)越來越多,UGC 數(shù)據(jù)量急劇增加,帶來大量的需求和機會,因此整個移動互聯(lián)網(wǎng)的產(chǎn)業(yè)鏈、市場空間遠遠大于 PC 互聯(lián)網(wǎng),因為計算終端無所不在,攝像頭獲取數(shù)據(jù)的設(shè)備無限大,市場很大會帶來更多發(fā)展的機會,相關(guān)的企業(yè)也將越來越多。
然而,我們應(yīng)該清楚,計算機視覺技術(shù)現(xiàn)在還處于發(fā)展較前期的前階段,能夠解決一些問題,但是更多地是做到識別模式,而不是理解,也就是偏感知層面,最終還需要向認知層面努力,建立起對圖的深度理解,但目前從技術(shù)層面上來說還沒有一個特別好的解決方案,跨越感知和認知之間的鴻溝將是一個艱難的過程。
談到計算機視覺未來的發(fā)展趨勢,黃飛躍表示優(yōu)圖將緊跟行業(yè)產(chǎn)業(yè)的趨勢,目前他比較關(guān)注的是 5G,5G 將使流量帶寬越來越大,手機終端計算能力越來越強,多媒體的處理、短視頻也可能出現(xiàn)更豐富的表現(xiàn)形式。另外,AR/VR、短視頻等也將成為計算機視覺應(yīng)用較多的場景。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )