近日,來自搜狗公司的視覺研究團隊,在國際自動駕駛領(lǐng)域權(quán)威評測集Cityscapes上獲得實例分割評測的第?名,擊敗了Nvidia、Facebook、商湯等幾十支強勁的國際科研機構(gòu),并一舉刷新了世界記錄,代表中國向全世界彰顯了我們出色的技術(shù)實力。
這是今年搜狗繼CVPR大會上奪得WAD自動駕駛識別挑戰(zhàn)賽冠軍之后,所摘得的又一桂冠。短期內(nèi)連奪兩項世界冠軍,充分證明了搜狗在計算機視覺上已經(jīng)位列行業(yè)領(lǐng)先地位。
Cityscapes評測數(shù)據(jù)集是什么?
眾所周知,人工智能技術(shù)在自動駕駛領(lǐng)域有著非常廣闊的市場空間,也是最被人們所看好的一大應(yīng)用前景。而如何決定AI判斷識別路況信息的理解能力,就取決于它的評測數(shù)據(jù)集水準。
Cityscapes評測數(shù)據(jù)集在2015年由奔馳公司推動發(fā)布,是目前公認的自動駕駛領(lǐng)域內(nèi)最具權(quán)威性和專業(yè)性的圖像語義分割評測集之一,其關(guān)注真實場景下的城區(qū)道路環(huán)境理解,任務(wù)難度更?,且更貼近于自動駕駛等熱門需求。在Cityscapes評測數(shù)據(jù)集之中,共分為像素分割和實例分割兩個子任務(wù),其中相較于像素分割,實例分割的難度要更大,也是計算機視覺領(lǐng)域最重要、最具挑戰(zhàn)的任務(wù)之一。
如何讓機器變得更加“聰明”,具備足夠的學習能力,是所有人工智能研發(fā)時的最大難題,更是國內(nèi)外科技企業(yè)爭相研究的自動駕駛技術(shù)。能夠在Cityscapes評測數(shù)據(jù)集中脫穎而出,打破世界紀錄,意味著搜狗已經(jīng)具備了強大的AI技術(shù)硬實力。
實例分割,自動駕駛的曙光已現(xiàn)
實例分割是一個很綜合的問題,融合了目標檢測、圖像分割、圖像分類等多種AI技術(shù)。顧名思義,像素級別的語義分割,是對圖像中的每個像素都劃分出對應(yīng)的類別,即實現(xiàn)像素級別的分類;?分類的具體對象,即為實例。那么實例分割不僅要進行像素級別的分類,還需要在具體的類別基礎(chǔ)上區(qū)別開不同的實例。實例分割對自駕汽車、機器人、視頻監(jiān)控等領(lǐng)域,都有著舉足輕重的重要價值,獲得全世界科學研發(fā)界的密切關(guān)注。
Cityscapes評測集包含50個城市不同情況下的街景,以及30類物體標注。此次搜狗參加的實例場景圖像語義分割評測,類別對象多、場景復雜,挑戰(zhàn)難度非常大。面對復雜的實例環(huán)境,搜狗所展示的技術(shù)十分巧妙。
過去,我們常常會把AI的關(guān)注點放在單一的車道上,而實際的路況信息乃是十分復雜且多變的,必須要求駕駛員有足夠的“眼觀六路耳聽八方”的能力,用縱覽全局的目光來觀察整個路況?;谶@個原因,搜狗通過引?全局編碼模塊,來顯著提升了全局信息在實例分割中的影響。全局編碼模塊可以很好地捕獲圖像中的語義信息,并選擇性地突出顯示與實例相關(guān)聯(lián)的特征映射,從而提升準確率。
另一方面,在訓練過程中如果只是簡單地引?每個像素的分割損失,而不是著重使?場景的全局上下?信息,會導致嚴重的類間不平衡問題。針對這一現(xiàn)狀,搜狗引入了一種全局實例例編碼損失函數(shù)GIE-loss。這種損失函數(shù)會預測場景中出現(xiàn)的實例類別,來加強網(wǎng)絡(luò)學習全局語義信息的能?。不像傳統(tǒng)的針對每個像素的損失函數(shù),GIE-loss對每個物體,不管?大?小都是同等對待的,在使用這個損失函數(shù)后,?物體的分割效果明顯變好。
(對比圖1)
(對比圖2)
(對比圖3)
通過上面的結(jié)果對比圖,我們可以清晰的看出全局編碼模塊的引?,徹底改變了實例分割傳統(tǒng)算法中遠近物體不能兼顧的缺點,近處物體可以識別的很好,遠處小物體的分割效果也提升了非常多,使得最終的AP100指標遠超其他隊伍。
截至目前,Cityscapes評測吸引了近百支隊伍參賽,包括Facebook、香港中?大學、商湯和NVIDIA(英偉達)等眾多國內(nèi)外優(yōu)秀創(chuàng)新企業(yè)和頂尖學術(shù)機構(gòu)參加。值得一提的是,在過去的近兩年時間里,商湯、港中文團隊與NVIDIA(英偉達)幾乎包攬了所有圖像分割評測的冠軍。而首次參賽的搜狗團隊,各項評測指標均遠超其他隊伍,打破了世界紀錄,以無可爭議的成績拿下了第一名。
搜狗視覺研究團隊通過不斷地算法積累和迭代,建立了一套高效易用的通用檢測分割框架,可以針對任務(wù)快速遷移算法模型,達到實際應(yīng)用需求。CVPR2018 WAD檢測任務(wù)和本次實例分割任務(wù)所用模型基本一致,驗證了模型的高效易用性。同時團隊最近也做了一些簡單的實驗, 在少量代碼改動的情況下,僅僅訓練幾個小時,便可以在一些著名的評測數(shù)據(jù)集上達到top的成績。
聚焦“自然交互+知識計算”,將成就搜狗人工智能的未來之路
人工智能的命題范圍很大,而搜狗選擇的突破口很小。以點帶面,正是王小川為搜狗所規(guī)劃的未來道路。
一直以來,搜狗都在堅持著“自然交互+知識計算”的人工智能核心戰(zhàn)略,專注于自然交互領(lǐng)域展開發(fā)力。在語音領(lǐng)域,擁有充足真實語料數(shù)據(jù)優(yōu)勢的搜狗,把語音識別與人機對話相結(jié)合,發(fā)布了知音引擎,并推出了全球首款商用AI同傳。除了單獨的語音識別“聽的能力”之外,搜狗還向著合成方向的“說的能力”展開突破,能夠自動學習的AI機器兼具了聽、說、翻譯等多種能力,位居業(yè)界領(lǐng)先地位。多模態(tài)輸入,已成為了搜狗語音交互的研發(fā)重心。
而在視覺領(lǐng)域,搜狗也實現(xiàn)了AI技術(shù)的不斷突破,讓機器的自然交互變得更加全面。2017年烏鎮(zhèn)互聯(lián)網(wǎng)大會上,搜狗發(fā)布了行業(yè)首款唇語識別技術(shù),實現(xiàn)了視覺與聽覺的首次結(jié)合,幫助機器以更加多元化的維度來理解用戶的訴求。在車載、智能家居等垂直場景下,準確率高達90%。本次在Cityscapes的實例場景圖像語義分割評測中大獲全勝,更是體現(xiàn)了搜狗對于視覺識別的技術(shù)積累,幫助機器進一步提升各項感知能力的交互水準。
連續(xù)獲得多項國際比賽冠軍的搜狗,已經(jīng)證明了自己在人工智能領(lǐng)域的充足技術(shù)底蘊。我們有理由相信,在未來的AI賽道上,占據(jù)領(lǐng)先優(yōu)勢的搜狗一定能取得更加出色的成績,用實際的AI產(chǎn)品來切身改善用戶的交互體驗。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 比亞迪第五代DM技術(shù)問世,首搭秦L/海豹06 DM-i,開創(chuàng)油耗2時代!
- 小紅書沉帖降權(quán)怎么做,有效方法大盤點!
- 亞洲時刻京東送上電視好禮 以舊換新一體化服務(wù)讓低價更靠譜
- 互聯(lián)網(wǎng)營銷師和全媒體運營師的區(qū)別?
- 聯(lián)想集團車計算“超級大腦”概念機亮相
- 華策影視設(shè)立專項基金成立AIGC應(yīng)用研究院
- 三部委審批,聯(lián)合發(fā)布9個新職業(yè),“互聯(lián)網(wǎng)營銷師”上榜
- 互聯(lián)網(wǎng)營銷師的報考條件是什么?
- 互聯(lián)網(wǎng)營銷師的適合人群有哪些?
- 互聯(lián)網(wǎng)營銷師行業(yè)前景怎么樣?
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。