CCR2017在滬召開(kāi) 搜狗COO茹立云:AI推動(dòng)五項(xiàng)核心圖像技術(shù)取得突破

10月12-15日,中華醫(yī)學(xué)會(huì)第24次全國(guó)放射學(xué)學(xué)術(shù)大會(huì)(CCR 2017)在上海世博中心拉開(kāi)帷幕,聚集了國(guó)內(nèi)外一流的專家學(xué)者及業(yè)內(nèi)人士共6000余人,集中展示和交流了中國(guó)影像醫(yī)學(xué)的歷史傳承與跨越式發(fā)展。搜狗公司COO茹立云受邀出席此次大會(huì),以“人工智能在圖像領(lǐng)域的進(jìn)展”為題,分享了人工智能推動(dòng)圖像技術(shù)取得的五項(xiàng)重大突破,并指出人工智能技術(shù)在醫(yī)療領(lǐng)域應(yīng)用前景廣闊,未來(lái)將能發(fā)揮更大作用。

  (搜狗公司COO茹立云出席CCR2017并發(fā)表主題演講)

隨著移動(dòng)互聯(lián)網(wǎng)及社交網(wǎng)絡(luò)的發(fā)展,圖片成為主要的信息載體,在這種情況下,計(jì)算機(jī)的圖像識(shí)別技術(shù)就顯得尤為重要。茹立云介紹,21世紀(jì)初,圖像的檢索基本上是由人工去定義特征,在機(jī)器上做簡(jiǎn)單的匹配。人工智能技術(shù)的發(fā)展,讓機(jī)器對(duì)圖像中內(nèi)容的理解能力實(shí)現(xiàn)了全面提升。具體而言,面對(duì)一張圖片時(shí),機(jī)器會(huì)最先判斷“圖像里有什么”,精準(zhǔn)識(shí)別圖像中的內(nèi)容;其次判斷“圖像中物體在哪兒”,以精準(zhǔn)定位物體的位置;最后會(huì)對(duì)“圖像內(nèi)容表達(dá)什么”進(jìn)行智能語(yǔ)義分析。

“機(jī)器對(duì)圖像理解能力的提升,則直接推動(dòng)了OCR文字識(shí)別、識(shí)圖搜索、人臉識(shí)別、圖文翻譯、圖像生成這五大圖像技術(shù)的突破。其中,前三項(xiàng)技術(shù)主要用于解決‘圖像里有什么’和‘圖像中物體在哪兒’的問(wèn)題,后兩項(xiàng)則對(duì)應(yīng)解決‘圖像內(nèi)容表達(dá)什么’的問(wèn)題?!比懔⒃浦赋?,并一一介紹了這五大技術(shù)突破的具體發(fā)展情況。

在文字識(shí)別方面,其目標(biāo)是檢測(cè)并識(shí)別圖像中的文字?!皞鹘y(tǒng)文字檢測(cè)方法步驟繁瑣、人工設(shè)計(jì)流程多,且無(wú)法應(yīng)對(duì)復(fù)雜背景和低質(zhì)量文字?,F(xiàn)有技術(shù)體現(xiàn)了深度學(xué)習(xí)模型的端到端的特點(diǎn),減少了中間環(huán)節(jié),從而能降低識(shí)別錯(cuò)誤率。圖片中的文字無(wú)論是印刷體、手寫體或者夾雜在復(fù)雜背景中,都能被機(jī)器準(zhǔn)確讀出來(lái)?!比懔⒃七€以搜狗翻譯APP最新推出的“菜單翻譯”功能為例,展示了文字識(shí)別技術(shù)的具體應(yīng)用。這項(xiàng)功能基于搜狗領(lǐng)先的圖像識(shí)別技術(shù),對(duì)于用戶從任意角度掃描的中英文菜單,均可準(zhǔn)確識(shí)別,并在原菜單的對(duì)應(yīng)位置標(biāo)識(shí)出相應(yīng)的翻譯結(jié)果。

  (圖:“菜單翻譯”功能翻譯前后對(duì)比截圖)

識(shí)圖搜索則旨在解決圖像分類、查找相同圖、相似圖等問(wèn)題。茹立云表示,當(dāng)前的識(shí)圖搜索技術(shù),以深度學(xué)習(xí)算法替代了人工設(shè)計(jì),有效提升了相同圖和相似圖搜索結(jié)果的質(zhì)量?!叭缢压穲D片的拍照購(gòu)物功能,用戶只需將喜歡的衣服拍照上傳,或者從手機(jī)里上傳相關(guān)照片,系統(tǒng)即可對(duì)上傳照片進(jìn)行快速處理,并與數(shù)據(jù)庫(kù)中上億張商品圖片進(jìn)行高速比對(duì),為用戶找到相同和相近的商品。再如搜狗圖片的‘識(shí)狗’、‘識(shí)花’功能,用戶只需上傳相關(guān)照片,即可直接識(shí)別出狗或者花的種類。”茹立云舉例說(shuō)。

人臉識(shí)別方面,他指出,在深度學(xué)習(xí)以及大數(shù)據(jù)的驅(qū)動(dòng)下,人工智能在人臉識(shí)別的某些方面已遠(yuǎn)超人類的識(shí)別能力。并且,人臉識(shí)別的實(shí)際應(yīng)用場(chǎng)景也已日趨成熟,已經(jīng)越來(lái)越多地應(yīng)用到了機(jī)場(chǎng)安檢、人流監(jiān)控、疑犯查找、身份認(rèn)證等場(chǎng)景下。例如商店的監(jiān)控器,就可以利用人臉識(shí)別技術(shù),對(duì)經(jīng)常出入店鋪的熟客進(jìn)行針對(duì)性營(yíng)銷,將能更好提升銷量。

圖文翻譯技術(shù),其目的是使機(jī)器準(zhǔn)確理解圖像背后的語(yǔ)義?!皞鹘y(tǒng)的圖像識(shí)別技術(shù),只能粗略識(shí)別出圖像中的基本內(nèi)容,如圖像中有一個(gè)人。而人工智能支持下的圖文翻譯技術(shù),不僅能告訴你圖片中有一個(gè)人,還能分辨出這個(gè)人的性別、他手上拿的東西、他周圍有什么物體等更細(xì)致的內(nèi)容。”茹立云說(shuō),這項(xiàng)技術(shù)的突破,也能給人帶來(lái)極大便利,例如盲人朋友以前只能通過(guò)聲音或者文字轉(zhuǎn)化成的聲音來(lái)獲取信息,現(xiàn)在還能把圖片信息轉(zhuǎn)化成的聲音,讓他更好了解視覺(jué)化的世界。

而人工智能技術(shù)發(fā)展到更高階段,則是圖像生成技術(shù),目前這一技術(shù)也已被廣泛應(yīng)用到了人臉合成、圖像修復(fù)、風(fēng)格遷移等方面?!袄鐖D像修復(fù)方面,AI能通過(guò)深度學(xué)習(xí),將帶馬賽克或者畫(huà)面遮擋的圖片修復(fù)成完整圖片,再如黑白照片上色變成彩色照片,等等?!比懔⒃婆e例說(shuō)。

回到大會(huì)核心話題——影像醫(yī)學(xué)領(lǐng)域,茹立云指出,未來(lái)圖像AI在醫(yī)療領(lǐng)域的應(yīng)用前景將會(huì)非常廣闊,主要包括三方面:首先是輔助診斷,人工智能可以學(xué)習(xí)更多醫(yī)學(xué)影像方面的數(shù)據(jù),進(jìn)一步輔助醫(yī)生診斷決策;其次是療效評(píng)估,對(duì)于腫瘤等重大疾病,可依據(jù)AI大數(shù)據(jù)分析,在治療前判斷治療方案對(duì)患者的療效;再次是預(yù)后預(yù)測(cè),科學(xué)預(yù)測(cè)患者生存期,提取患者特征,建立模型,定量分析,給出預(yù)后預(yù)測(cè)。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2017-10-18
CCR2017在滬召開(kāi) 搜狗COO茹立云:AI推動(dòng)五項(xiàng)核心圖像技術(shù)取得突破
10月12-15日,中華醫(yī)學(xué)會(huì)第24次全國(guó)放射學(xué)學(xué)術(shù)大會(huì)(CCR 2017)在上海世博中心拉開(kāi)帷幕,聚集了國(guó)內(nèi)外一流的專家學(xué)者及業(yè)內(nèi)人士共6000余人,集中展示和交流了中國(guó)影像醫(yī)學(xué)的歷史傳承與跨越式發(fā)展。搜狗公司COO茹立云受邀出席此次大會(huì),以“人工智能在圖像領(lǐng)域的進(jìn)展”為題,分享了人工

長(zhǎng)按掃碼 閱讀全文