幾天前,世界頂級的計算機視覺會議CVPR2019舉辦了FGVC(細粒度圖像分類)系列挑戰(zhàn)賽。和每一場學(xué)術(shù)會議的競賽一樣,F(xiàn)GVC也成為了中國與世界的競技場。這次FGVC系列挑戰(zhàn)中,深蘭科技所取得的一項成績引起了我們的注意。
一片木薯葉和圖像識別的落地故事
在Cassava Disease Classification這一挑戰(zhàn)賽中,來自中國的深蘭科技DeepBlueAI獲得了第一名。Cassava Disease Classification即是“木薯疾病分類”,挑戰(zhàn)者需要通過不同狀態(tài)木薯葉子的照片,來判斷木薯的健康狀態(tài)以及患了哪種疾病。
而這一競賽所應(yīng)用的數(shù)據(jù)集,來自烏干達農(nóng)民自己在田地里拍攝的木薯照片,數(shù)據(jù)集中的照片來自于不同光線、不同設(shè)備以及不同的非專業(yè)拍攝者。同時木薯疾病分類挑戰(zhàn)并不像很多挑戰(zhàn)賽那樣給參與者提供了海量數(shù)據(jù),其數(shù)據(jù)集中只有不到一萬張已標注照片和一萬余張未標注照片。也就是說,木薯疾病分類挑戰(zhàn)是無盡接近于現(xiàn)實需求的。
DeepBlueAI通過圖像增強方法降低過擬合的風險并提高模型的魯棒性,同時利用多個在ImageNet表現(xiàn)優(yōu)異的模型,以集成方法提升精度,最終獲得了這一分類項目的冠軍。
之所以關(guān)注深蘭科技在細粒度圖像分類上的表現(xiàn),是因為這一問題關(guān)系著圖像識別技術(shù)的落地發(fā)展狀況。
提到圖像識別技術(shù),我們經(jīng)常能聯(lián)想到AI辨識動物、辨識物體等等能力??蓪嶋H上這些識別技術(shù)大多還都流于大致輪廓而非細節(jié),例如AI可以分辨出貓和狗,卻不一定能夠分別出貓與狗具體的品種。而只有當識別能力不斷細化和深入時,AI才能真正發(fā)揮出價值來。這其中最典型的案例就是人臉識別,正因人臉識別在精準度上不斷突破,從一比一到一比N,甚至進化到金融級別,才能應(yīng)用到更多場景之中。
可相比公開數(shù)據(jù)集豐富的人臉數(shù)據(jù)來說,其他領(lǐng)域想要不斷深入細節(jié)提升模型精度,會遇到一系列的問題。
最首要的,就是數(shù)據(jù)集本身不夠豐富。就拿這次木薯疾病分類挑戰(zhàn)來說,木薯這種植物主要被種植于熱帶地區(qū)而非農(nóng)業(yè)現(xiàn)代化水平較高的北美、澳洲,也就是說此前很少有相關(guān)的數(shù)據(jù)累積,自然也就很難通過海量數(shù)據(jù)+暴力計算來建立高精度模型。
伴隨數(shù)據(jù)匱乏的,是標注成本的高昂。相比人臉標注僅僅需要找到眼睛鼻子嘴巴,細節(jié)場景中的標注往往還需要一些專家知識。例如對植物的病變、品種進行分類,很多時候就需要在專家的指導(dǎo)下進行。
最后還有整體產(chǎn)業(yè)生態(tài)的惡性循環(huán)。越是數(shù)據(jù)匱乏,科技企業(yè)參與起來就愈發(fā)困難。讓產(chǎn)業(yè)的數(shù)字化和智能化累積不斷落后,在未來的技術(shù)進化進程中不斷的落后。
但好在,CVPR這樣的學(xué)術(shù)組織正在參與其中改變現(xiàn)狀。就拿FGVC系列挑戰(zhàn)賽來說,所解決的都是貼近現(xiàn)實領(lǐng)域的細粒度圖像分類問題。除了識別木薯疾病以外,還有開花植物科野牡丹科的物種識別、藝術(shù)品文化/時期推理、蝴蝶和蛾物種識別等等。
圖像識別之于現(xiàn)實場景的應(yīng)用性正在不斷擴張和深入,讓人臉識別不再成為唯一的效率工具。底層技術(shù)之于現(xiàn)實世界的張力,會越來越大。
從枝頭到根系:深蘭科技的創(chuàng)新循環(huán)
要說細粒度的圖像分類如何解決現(xiàn)實場景問題,我們同樣也能從深蘭科技的案例中找到答案。
在深蘭科技的商品識別模型中,不僅需要像一般識別問題那樣檢測出例如蘋果,菠蘿的大分類,同時還需要檢測出具體屬于哪一類蘋果,如富士,煙臺等。對農(nóng)產(chǎn)品有所了解的人會知道,很多水果的細分品種之間的差異非常小。例如蘋果中的秦冠和富寒,乍一看都是通紅混圓的,可卻一個口感綿軟一個口感甜脆。想要實現(xiàn)這兩者之間的區(qū)分,除了運用整體信息進行大類識別以外,還需要運用上蘋果顏色、斑點甚至果蒂形狀等等局部信息來進行確認。
有了這種識別模型,任何一個不具備農(nóng)產(chǎn)品知識的人,都可以在不破壞水果的前提下對其品種進行確認,大大提升了人們在選購水果時的效率。
相信看到這里,大家也能發(fā)現(xiàn),為什么深蘭科技的DeepBlueAI能夠在木薯疾病分類挑戰(zhàn)中獲得冠軍——“基礎(chǔ)研究+應(yīng)用開發(fā)”一直是深蘭科技的重要標簽。目前深蘭科技的AI技術(shù)已經(jīng)紛紛在智能駕駛、智能機器人、AI city等等九大應(yīng)用領(lǐng)域之中落地。
深蘭科技的技術(shù)工作人員也在采訪中告訴我們,通過AI底層應(yīng)用的創(chuàng)新,去帶動產(chǎn)品落地、服務(wù)民生,滲透到各種日常應(yīng)用場景,然后在場景中獲得實際數(shù)據(jù)來反哺AI技術(shù)進步,由此形成正向循環(huán)。
就像在FGVC系列挑戰(zhàn)賽中,一旦遇到木薯疾病分類這樣極度貼近現(xiàn)實場景問題。擁有大量落地經(jīng)驗的DeepBlueAI就立刻能找到適應(yīng)于少樣本、低質(zhì)量樣本的解決方案。在學(xué)術(shù)問題的解決過程中,深蘭科技也可以提煉出更多關(guān)于AI底層創(chuàng)新的方法論,繼續(xù)投入到AI的落地應(yīng)用之中。于是我們可以看到,圖像識別算法正在高速公路上識別不同車輛的型號、在野外識別不同物種、在零售場景識別商品……這些都與深蘭科技的基礎(chǔ)創(chuàng)新不無關(guān)系。
技術(shù)領(lǐng)先背后的模式勝利
這一次深蘭科技在FGVC系列挑戰(zhàn)中的勝利,看似是技術(shù)能力的勝利,實際上卻是一種AI商業(yè)模式的勝利。
深蘭科技CEO曾經(jīng)強調(diào)過,深蘭科技的商業(yè)模式是:做強兩端,打通鏈路。所謂做強兩端,既是在自動駕駛、計算機視覺、語音技術(shù)等等基礎(chǔ)AI能力上進行創(chuàng)新,同時也在行業(yè)應(yīng)用上不斷深入,將技術(shù)與具體場景深入融合去增強服務(wù)能力。在這個過程中,硬件、數(shù)據(jù)、技術(shù)能力等等的壁壘被不斷打破,整體產(chǎn)業(yè)中資源被打包重組,最終可以交付給用戶即拿即用的一體化技術(shù)方案。
其實相比之下,深蘭科技的AI商業(yè)模式是更為“長鏈化”的。有很多AI創(chuàng)業(yè)企業(yè)愿意去選擇不斷展示技術(shù)能力,然后直接出售算法。也有很多AI創(chuàng)業(yè)企業(yè),因為掌握了市場資源,直接變身中間商把他人的技術(shù)包裝起來售賣給用戶。這些商業(yè)模式雖然更容易在一時展現(xiàn)出變現(xiàn)能力,卻阻斷了技術(shù)不斷創(chuàng)新的道路——技術(shù)的創(chuàng)造者向第三方出售算法,就很難見到自己的技術(shù)成果在現(xiàn)實應(yīng)用場景中的表現(xiàn),也很難進一步對技術(shù)做出改進。技術(shù)的發(fā)展在不斷被分叉、被階段,也就一步步的遠離目的地。
而今天我們所講述的“深蘭模式”,雖然要在算法投入到現(xiàn)實場景中才能獲得商業(yè)收益,卻給了技術(shù)能力不斷趨向應(yīng)用生長更新的可能。
相信在CVPR這類學(xué)術(shù)組織和AI企業(yè)的共同努力下,AI的基礎(chǔ)創(chuàng)新會越來越貼近現(xiàn)實應(yīng)用場景。不分叉、不截斷,在一條筆直的通路中走下去。
免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 國產(chǎn)芯片的尷尬,美國NVIDIA的芯片在中國大賣,暴漲超六成
- OPPO Find N5首銷賣斷貨:折疊屏市場迎來“輕薄革命”
- 人民大學(xué)勞動人事學(xué)院課題組:建議京東披露外賣全職騎手數(shù)量及構(gòu)成
- 沒有黃章,可能就沒有小米,雷軍也成不了頂級富豪
- 多行業(yè)擁抱DeepSeek,全不顧它身上的“刺”
- 向超高端進發(fā)!小米15 Ultra、SU7 Ultra等產(chǎn)品重磅發(fā)布
- 十年領(lǐng)跑云數(shù)據(jù)庫,亞馬遜云科技背后的訣竅
- 老外瘋搶國產(chǎn)AI耳機?小米、訊飛早下局了!
- 留給雷軍的時間不多了
- 小米15 Ultra、SU7 Ultra等新品重磅發(fā)布,雷軍:一個全新時代開始
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。