云天勵(lì)飛王孝宇:如何高效地獲取最好的數(shù)據(jù),比模型本身要重要得多

云天勵(lì)飛王孝宇:如何高效地獲取最好的數(shù)據(jù),比模型本身要重要得多

2021年12月11日,由雷峰網(wǎng) & AI 掘金志主辦的第四屆中國(guó)人工智能安防峰會(huì),在深圳正式召開(kāi)。

本屆峰會(huì)以「數(shù)字城市的時(shí)代突圍」為主題,會(huì)上代表城市AIoT的14家標(biāo)桿企業(yè),為現(xiàn)場(chǎng)和線上觀眾,分享迎接數(shù)字城市的經(jīng)營(yíng)理念與技術(shù)應(yīng)用方法論。

在下午場(chǎng)的演講環(huán)節(jié)中,云天勵(lì)飛首席科學(xué)家王孝宇發(fā)表了精彩演講。

王孝宇認(rèn)為,AI的研發(fā)模式有兩大關(guān)鍵點(diǎn):一是用什么樣的數(shù)據(jù)訓(xùn)練模型;二是模型如何基于數(shù)據(jù)得到更好的結(jié)果。

過(guò)去的研發(fā)模式大都以模型為中心,依賴專家,找數(shù)據(jù)、標(biāo)注數(shù)據(jù),然后讓AI博士調(diào)參,如同工業(yè)化時(shí)代的“擰螺絲釘”,導(dǎo)致AI無(wú)法大規(guī)模產(chǎn)業(yè)化。

同時(shí),過(guò)去的研發(fā)范式,大都集中于用更好的技術(shù)建立更好的模型。但幾年之后,業(yè)界發(fā)現(xiàn)所用的技術(shù)越來(lái)越趨同,標(biāo)準(zhǔn)化的條件成熟了

事實(shí)上,對(duì)比不同研發(fā)模型,可以發(fā)現(xiàn)對(duì)AI研發(fā)和應(yīng)用來(lái)說(shuō),高效地獲取最好的數(shù)據(jù),比模型本身要重要得多。

究其原因是技術(shù)迭代快,容易被趕上,但數(shù)據(jù)迭代慢,因此如何在最短時(shí)間內(nèi)得到可以使模型達(dá)到最優(yōu)效果的數(shù)據(jù)集,這才是最重要的。

因此鑒于人力成本和模型標(biāo)準(zhǔn)化條件的成熟,云天勵(lì)飛在內(nèi)部打造了一套標(biāo)準(zhǔn)化、流程化、平臺(tái)化的模型研發(fā)方式。

云天勵(lì)飛大規(guī)模算法研發(fā)的流程是:

第一步,獲取初始模型。通過(guò)分布式標(biāo)注平臺(tái)定義任務(wù),再利用被千億、百億級(jí)的數(shù)據(jù)訓(xùn)練出來(lái)的大模型和無(wú)監(jiān)督學(xué)習(xí),配合少量數(shù)據(jù)的標(biāo)注,得到不錯(cuò)的初始模型。

第二步,數(shù)據(jù)迭代。在海量還沒(méi)有標(biāo)注好的數(shù)據(jù)中,用技術(shù)、算法找到真正有用的數(shù)據(jù),用主動(dòng)學(xué)習(xí)算法做數(shù)據(jù)擇優(yōu)。

第三步,模型訓(xùn)練。在云天勵(lì)飛的平臺(tái)上用一鍵化方式,完成調(diào)整參數(shù)、數(shù)據(jù)挖掘等工作,降低對(duì)訓(xùn)練模型人員的從業(yè)要求。同時(shí)讓數(shù)據(jù)、研發(fā)軌跡、開(kāi)發(fā)技巧都沉淀在平臺(tái)上,動(dòng)作可復(fù)用,流程可追溯,降低AI人員高流動(dòng)性帶來(lái)的負(fù)面影響。

他認(rèn)為視覺(jué)AI目前還處在拓荒階段,是一片沙漠,沒(méi)有變成綠洲,只有等到其變成綠洲時(shí),才能“長(zhǎng)”出很多AI企業(yè),而云天勵(lì)飛建立的這套平臺(tái),就是加速沙漠變綠洲的驅(qū)動(dòng)底座。

以下是王孝宇演講全文,雷峰網(wǎng)AI掘金志作了不改變?cè)獾恼砼c編輯:

很高興與大家一起分享云天勵(lì)飛從事AI研發(fā)十幾年來(lái)總結(jié)的一套模型研發(fā)范式,我這次的演講題目是——AI大規(guī)模產(chǎn)業(yè)化實(shí)踐。

首先做下自我介紹。我畢業(yè)之后去了硅谷,在NEC Labs做無(wú)人車、人臉?lè)矫娴难芯俊?015年,我和另外幾人一起去洛杉磯,幫Snap公司創(chuàng)建了AI研究院。2017年,回國(guó)之后,我來(lái)到了云天勵(lì)飛。

2017年的時(shí)候,人工智能開(kāi)始火爆起來(lái),有非常多的應(yīng)用,像聊天機(jī)器人、無(wú)人車、人臉識(shí)別,健康領(lǐng)域,智慧家居、AR等。但是只有人臉識(shí)別有人相信,其他的,不管是業(yè)界還是投資人,都認(rèn)為是騙子,覺(jué)得做不出來(lái)什么東西。

時(shí)隔五年,再回頭來(lái)看行業(yè),我覺(jué)得很有意思。聊天機(jī)器人在每個(gè)社交網(wǎng)絡(luò)平臺(tái),像阿里、京東,現(xiàn)在在電商平臺(tái)上都有應(yīng)用。無(wú)人車,慢慢也有Robotaxi的落地,現(xiàn)在也有很多企業(yè)在這方面興起。在健康領(lǐng)域,五年前我們還在討論IBM沃森的失敗,當(dāng)時(shí)折騰了很大的動(dòng)靜,但現(xiàn)在有很多這方面的優(yōu)秀企業(yè)興起。

當(dāng)時(shí)美國(guó)一些知名的AR公司也倒閉了,但現(xiàn)在很多公司把自己的名字改成元宇宙,又火了起來(lái),AR又讓大家看到了希望。

這些變化其實(shí)印證了我的一個(gè)觀點(diǎn):不要高估AI帶來(lái)的改變,也不要低估AI帶來(lái)的影響,我們是在這片沙漠里墾荒的一批人。

在墾荒的過(guò)程中,我們回過(guò)頭來(lái)看AI,落地應(yīng)用的最大瓶頸是什么?

人才太貴了。

六年前,我們招聘AI博士的時(shí)候,給到40萬(wàn)美金一年,光是養(yǎng)一群技術(shù)人員,每年的人力成本就是一個(gè)巨額數(shù)字。但是現(xiàn)在,這項(xiàng)成本正在降低,究其原因,是AI的研發(fā)模式發(fā)生了變化。

AI的研發(fā)模式,有兩個(gè)關(guān)鍵點(diǎn)。首先,有什么樣的數(shù)據(jù)訓(xùn)練模型;其次,如何用各種技術(shù)基于數(shù)據(jù)來(lái)讓模型取得更好的效果。

過(guò)去,大家把重心放在模型上,需要數(shù)據(jù)就要找,不停標(biāo)注,標(biāo)注完以后,就是專家干的事了,天天調(diào)模型參數(shù)、損失函數(shù)、優(yōu)化器,很多AI博士畢業(yè)之后就干這個(gè)事。

這個(gè)事其實(shí)跟工業(yè)化時(shí)代擰螺絲釘?shù)墓ぷ鳑](méi)太大區(qū)別,但沒(méi)有博士相關(guān)的學(xué)習(xí)經(jīng)歷,還干不了這個(gè)事,所以很難規(guī)?;?、產(chǎn)業(yè)化。

我們之前的研發(fā)范式,都是集中用更好的技術(shù)建立更好的模型上的,但現(xiàn)在不是那么回事了。

12月8日,Andrej Karpathy 發(fā)了一個(gè)推文,他是李飛飛的學(xué)生,畢業(yè)之后去了特斯拉,擔(dān)任無(wú)人駕駛總監(jiān)。他說(shuō),現(xiàn)在的AI技術(shù)都趨同了,大家都一樣。

什么意思?

以視覺(jué)為例,五六年前,做自然語(yǔ)言處理的有一套技術(shù),做圖像識(shí)別的也有一套技術(shù),但是做了五年之后,大家發(fā)現(xiàn)做的技術(shù)是一樣的。不管是視覺(jué)、語(yǔ)音還是自然語(yǔ)言處理,大家用的都是同一套技術(shù)框架和模型架構(gòu)來(lái)解決問(wèn)題。

最近,機(jī)器學(xué)習(xí)領(lǐng)域的國(guó)際頂尖會(huì)議NIPS也提到:慢慢的,那些通用模型的結(jié)構(gòu),已經(jīng)占據(jù)所有任務(wù)的主導(dǎo)地位了。

這有點(diǎn)像通信或編碼時(shí)期,大家剛開(kāi)始是百花齊放的,后來(lái)慢慢的,大家都用同一套技術(shù)架構(gòu)解決所有的問(wèn)題,也就是走向了標(biāo)準(zhǔn)化階段。

如果把這兩個(gè)模型研發(fā)的過(guò)程放在一起做比較,我認(rèn)為更重要的,不是模型有多好,而是數(shù)據(jù)有多優(yōu)質(zhì)。

有句話說(shuō)得好:“巧婦難為無(wú)米之炊”,你的廚藝再好,沒(méi)有素材做不出任何東西,所以有好的數(shù)據(jù)才是最重要的。

在云天勵(lì)飛十多年的研發(fā)過(guò)程中,我們發(fā)現(xiàn),如何高效地獲取最好的數(shù)據(jù),比模型本身要重要得多。

因?yàn)榧夹g(shù)是很容易趕上的,今天這個(gè)技術(shù)不行,可能再過(guò)三個(gè)月、六個(gè)月會(huì)有新技術(shù)出現(xiàn),會(huì)不停地更新迭代。但數(shù)據(jù)的迭代效率往往沒(méi)那么高,而且我們也發(fā)現(xiàn),在研發(fā)過(guò)程中,90%以上的時(shí)間是放在數(shù)據(jù)上的,而不是做模型。

由此帶來(lái)研發(fā)觀念的轉(zhuǎn)變:之前我們的觀念是招聘最好的人,開(kāi)發(fā)最好的技術(shù),達(dá)到最好的效果。但實(shí)際不是這樣的,如何在最短的時(shí)間內(nèi),得到可以使模型達(dá)到最優(yōu)效果的數(shù)據(jù)集,這才是最重要的。

云天勵(lì)飛從創(chuàng)立到現(xiàn)在,從來(lái)沒(méi)有一個(gè)研發(fā)任務(wù)是,把數(shù)據(jù)收集好,模型做一遍就結(jié)束了,這個(gè)模型永遠(yuǎn)要在用戶的實(shí)際場(chǎng)景中迭代。

怎么在實(shí)際場(chǎng)景中迭代?

需要在做的不夠好的地方,把數(shù)據(jù)收集起來(lái)。也就是說(shuō),數(shù)據(jù)集的分布會(huì)慢慢讓模型的精度達(dá)到最好。

云天勵(lì)飛對(duì)研發(fā)部門KPI的制定,不僅僅是訓(xùn)練出了多少模型,或者說(shuō)模型的精度是多少。而且明確把數(shù)據(jù)集的產(chǎn)生作為KPI的導(dǎo)向之一,它其實(shí)更重要。

優(yōu)秀的開(kāi)發(fā)者和一般的開(kāi)發(fā)者之間,對(duì)數(shù)據(jù)的認(rèn)知是不一樣的,優(yōu)秀的開(kāi)發(fā)者對(duì)數(shù)據(jù)有非常良好的認(rèn)知,模型被數(shù)據(jù)cap得很明顯,在最短的時(shí)間內(nèi)拿到最好的數(shù)據(jù),才能做到最好的模型精度。

為什么說(shuō)模型大規(guī)模生產(chǎn)?

因?yàn)楝F(xiàn)在面向城市治理算法的應(yīng)用,已經(jīng)不僅僅是幾個(gè)算法模型了。大家經(jīng)常一看,有幾百個(gè)模型的需求,但企業(yè)不可能招幾百個(gè)人做這個(gè)事,所以需要大規(guī)模地跑這些技術(shù),必須要有平臺(tái)化的東西進(jìn)行研發(fā)。

所以云天勵(lì)飛在內(nèi)部打造了一套標(biāo)準(zhǔn)化、流程化、平臺(tái)化的研發(fā)方式。

什么叫流程化?

流程化的英文叫Streamline。不需要切換上下文就可以把所有的事情做完,現(xiàn)在美國(guó)的創(chuàng)業(yè)非常流行這樣做,RPA也是同樣的思路,做機(jī)器人流程自動(dòng)化,把業(yè)務(wù)的流程放在無(wú)縫銜接的框架下完成。

只有在這種情況下,效率才是最高的,不需要一會(huì)兒做這個(gè)事,一會(huì)兒做那個(gè)事,頻繁切換會(huì)影響工作效率。

標(biāo)準(zhǔn)化(standardization),把里面跟模型相關(guān)的非標(biāo)準(zhǔn)化的部分全部呈現(xiàn)在技術(shù)上,整個(gè)平臺(tái)上只剩下標(biāo)準(zhǔn)化的東西。

這樣做的好處是什么?容易學(xué)習(xí),所以不需要博士做這個(gè)事情,可能本科生甚至是高中生就可以干這個(gè)事,從而把博士資源放在更緊要的地方。

平臺(tái)化(platform),這也是整個(gè)軟件行業(yè)的趨勢(shì)。

云天勵(lì)飛王孝宇:如何高效地獲取最好的數(shù)據(jù),比模型本身要重要得多

這張圖是我們大規(guī)模算法研發(fā)的流程:

第一步,搜集數(shù)據(jù),這時(shí)候數(shù)據(jù)是沒(méi)有標(biāo)注的。

第二步,做數(shù)據(jù)標(biāo)注;

第三步,模型訓(xùn)練;

第四步,data mining,有了初始模型后,在海量沒(méi)有標(biāo)注的數(shù)據(jù)里找到可以提高性能的數(shù)據(jù);

第五步,再進(jìn)行標(biāo)注。

如果把這個(gè)平臺(tái)分成三步,前兩步就是做初始模型的建立,后面就是做完整閉環(huán),像飛輪一樣,它在不停地轉(zhuǎn),每轉(zhuǎn)一次都可以得到更好的精度。這個(gè)轉(zhuǎn)法是在我們平臺(tái)上實(shí)現(xiàn)的,不需要專家級(jí)別的人專門來(lái)做。

第一步,獲取初始模型。

首先我們有分布式標(biāo)注平臺(tái),開(kāi)發(fā)人員可以定義一個(gè)任務(wù)。比如做街道下水道井蓋有沒(méi)有被人拿走的檢測(cè),也許我們會(huì)標(biāo)注10-20個(gè)數(shù)據(jù)。

標(biāo)注之后怎么辦?這是學(xué)術(shù)界和工業(yè)界很火的大模型和無(wú)監(jiān)督學(xué)習(xí)。

為什么我們?cè)谶@里面放了大模型和無(wú)監(jiān)督學(xué)習(xí)?剛才我們講到,一開(kāi)始我們想做井蓋被人拿走的事實(shí)檢測(cè),我們一開(kāi)始可能沒(méi)有這么多標(biāo)注好的數(shù)據(jù),可能只有100個(gè),但數(shù)據(jù)標(biāo)注的效率可能是萬(wàn)分之一。

如果你想標(biāo)1萬(wàn)個(gè)這樣的數(shù)據(jù),需要標(biāo)1億個(gè)data,這個(gè)量非常大。怎么辦?

先標(biāo)100個(gè),為什么要用大模型和無(wú)監(jiān)督學(xué)習(xí)配合這個(gè)數(shù)據(jù)去跑模型?就是為了讓你初始模型的精度達(dá)到最高。

無(wú)監(jiān)督和大模型最好的方式,本來(lái)100個(gè)數(shù)據(jù)訓(xùn)練出來(lái)的精度只有30%,用大模型和無(wú)監(jiān)督學(xué)習(xí)的方法訓(xùn)練之后,精度可以達(dá)到80%,那挖掘數(shù)據(jù)的效率可以提高10倍,也就是說(shuō)我少標(biāo)了10倍的數(shù)據(jù),一切都是為了后面數(shù)據(jù)迭代的效率來(lái)做的。

為什么大模型和無(wú)監(jiān)督學(xué)習(xí)可以提高這個(gè)性能?雖然它自己沒(méi)有標(biāo)注數(shù)據(jù),但它是被千億、百億級(jí)的數(shù)據(jù)訓(xùn)練出來(lái)的,知道井蓋是什么樣的,這種特征的編輯其實(shí)已經(jīng)實(shí)現(xiàn)了,再配合少量數(shù)據(jù)的標(biāo)注,就可以得到一個(gè)還不錯(cuò)的初始模型。

為什么要得到還不錯(cuò)的初始模型?因?yàn)閿?shù)據(jù)迭代的效率會(huì)更高,首先是為了第一步方便。

第二步,我們不說(shuō)模型迭代,而是數(shù)據(jù)迭代,因?yàn)槲覀冋J(rèn)為模型的訓(xùn)練已經(jīng)被標(biāo)準(zhǔn)化了,在平臺(tái)上,點(diǎn)個(gè)按鈕它就訓(xùn)練好了,不需要有模型訓(xùn)練的知識(shí),我們專家的系統(tǒng)已經(jīng)把它做好了。

所謂的數(shù)據(jù)迭代,就是在海量還沒(méi)有標(biāo)注好的數(shù)據(jù)中,找到能夠提高模型性能的數(shù)據(jù),進(jìn)行主動(dòng)學(xué)習(xí)。

傳統(tǒng)模型研發(fā)的范式是缺數(shù)據(jù)再去標(biāo),但發(fā)現(xiàn)標(biāo)過(guò)來(lái)的數(shù)據(jù)跟以前的分布是一樣的,對(duì)模型的分布沒(méi)有太大用處。所以需要用技術(shù)、算法找到對(duì)自己真正有用的數(shù)據(jù),右邊我們從海量數(shù)據(jù)中找出了9張有用的數(shù)據(jù)。

模型挖掘怎么做?在左邊平臺(tái)界面,點(diǎn)一個(gè)按鈕,選一個(gè)數(shù)據(jù)集,可以自動(dòng)在這里面挖掘,從幾億的數(shù)據(jù)里找到幾張跟井蓋相關(guān)的數(shù)據(jù)做訓(xùn)練,我們是用主動(dòng)學(xué)習(xí)算法做數(shù)據(jù)擇優(yōu)的。

云天勵(lì)飛王孝宇:如何高效地獲取最好的數(shù)據(jù),比模型本身要重要得多

數(shù)據(jù)迭代之后,要做模型訓(xùn)練,在這個(gè)平臺(tái)上用一鍵化的方式去做,這就是我們花幾百萬(wàn)招過(guò)來(lái)的博士應(yīng)該干的事情,他們不應(yīng)該天天調(diào)參數(shù)、挖數(shù)據(jù),這些事情應(yīng)該讓平臺(tái)去干。

這一步,只要你點(diǎn)訓(xùn)練,它可以自動(dòng)訓(xùn)練,背后怎么訓(xùn)練?是由開(kāi)發(fā)者去開(kāi)發(fā)的。但是在整個(gè)平臺(tái)上去進(jìn)行操作的人,不需要知道大規(guī)模模型訓(xùn)練,這降低了訓(xùn)練模型人員的從業(yè)要求,只要他知道這是怎么回事,把數(shù)據(jù)拿進(jìn)去就可以訓(xùn)練,無(wú)代碼一鍵完成模型開(kāi)發(fā)。

做這種平臺(tái)研發(fā)環(huán)境的好處是什么?數(shù)據(jù)沉淀在平臺(tái)上,動(dòng)作可復(fù)用,流程可追溯。這里面有幾個(gè)界面:數(shù)據(jù)集管理、模型管理、任務(wù)管理。

數(shù)據(jù)集管理,就是一些標(biāo)注好的數(shù)據(jù)集,以及挖掘、生成的數(shù)據(jù)集;模型管理,就是訓(xùn)練好的模型;任務(wù)管理,可以是標(biāo)注任務(wù),也可以是挖掘任務(wù),也可以是訓(xùn)練任務(wù),所有研發(fā)的軌跡全部停留在這里面。

為什么要做這個(gè)事?很簡(jiǎn)單,因?yàn)槿肆Τ杀咎?,企業(yè)無(wú)法招聘太多人從事每一個(gè)算法的研發(fā)。有了這套平臺(tái)之后,我們可以實(shí)現(xiàn)非算法人員開(kāi)發(fā)模型的方式,讓算法工程師做更高級(jí)別的技術(shù),這些平臺(tái)話、流程化的事情,可交給一般的技術(shù)人員或者學(xué)生來(lái)做。

整個(gè)過(guò)程中,我們認(rèn)為沉淀更多的是數(shù)據(jù)價(jià)值,這比模型的價(jià)值更大。

為什么數(shù)據(jù)的價(jià)值比模型的價(jià)值更大?

數(shù)據(jù)沒(méi)有了,模型是訓(xùn)練不出來(lái)的,你不會(huì)再得到提高,即使得不到模型,數(shù)據(jù)在這兒,所以很容易再訓(xùn)練一個(gè)模型出來(lái)。

數(shù)據(jù)的重要性遠(yuǎn)遠(yuǎn)高于模型的重要性,所謂持續(xù)性的研發(fā),沉淀出來(lái)的是有價(jià)值的數(shù)據(jù),而不是其他。

因?yàn)槟P秃苋菀字匦掠?xùn)練,或者用不同的數(shù)據(jù)迭代。但數(shù)據(jù)日積月累需要很長(zhǎng)的時(shí)間。在整個(gè)平臺(tái)上,通過(guò)數(shù)據(jù)不停的挖掘、訓(xùn)練、標(biāo)注、迭代,會(huì)一輪一輪增加新的數(shù)據(jù),為每個(gè)任務(wù)沉淀出非常優(yōu)質(zhì)的數(shù)據(jù)集。

也就是說(shuō),在這個(gè)平臺(tái)上,數(shù)據(jù)變成了最重要的資產(chǎn)。

另外,所有的開(kāi)發(fā)技巧也沉淀到平臺(tái)上了。

如果大家搞研發(fā)管理,就會(huì)發(fā)現(xiàn)一個(gè)現(xiàn)象:部分人能做得特別好,部分人怎么都做不好。這是因?yàn)?,任?wù)、指令都是一樣的,但不同的人研發(fā)經(jīng)驗(yàn)是不一樣的。

人才的素質(zhì)屬于不可控因素,如果把這套技術(shù)能力進(jìn)行沉淀,每個(gè)模型研發(fā)過(guò)程都能實(shí)現(xiàn)可追蹤,這樣就能讓做不好的人,通過(guò)學(xué)習(xí),把事做好。

這樣做的另一個(gè)好處是,不會(huì)因?yàn)槿瞬帕魇?dǎo)致既有的模型失效。

所有公司都會(huì)面臨人員流動(dòng)這個(gè)問(wèn)題,一位優(yōu)秀員工離職之后,其模型很難復(fù)現(xiàn),因?yàn)閯e人不知道這個(gè)模型怎樣迭代才達(dá)到現(xiàn)有的精度,上下銜接很困難,費(fèi)時(shí)費(fèi)力。

但是在這個(gè)平臺(tái)上,就不會(huì)出現(xiàn)問(wèn)題。模型訓(xùn)練過(guò)程中所做的所有數(shù)據(jù)的標(biāo)注、操作,全部都在這個(gè)平臺(tái)上,主要進(jìn)行相關(guān)操作,全部流程都可以重復(fù),不需要重新做。

在座如果有做研發(fā)管理的,肯定會(huì)感覺(jué)這個(gè)東西用起來(lái)非常不錯(cuò)。

現(xiàn)在,云天勵(lì)飛內(nèi)部的研發(fā),除了一些非常高難度的,或者非要人工介入的算法研發(fā)(如人臉),其他的算法研發(fā)全部依賴于大規(guī)模算法開(kāi)發(fā)平臺(tái)。也就是說(shuō)基本全部不需要算法工程師去做,都是標(biāo)注人員在做。

以大堂搬運(yùn)貨物檢測(cè)案例為例,每個(gè)工程師大概開(kāi)發(fā)成本50萬(wàn),一個(gè)月的時(shí)間差不多5萬(wàn)塊錢的投入,但現(xiàn)在只需要1個(gè)標(biāo)注人員,5-7天就可以做完從0到實(shí)用部署。

為什么能力稍微差一點(diǎn),時(shí)間反而縮短了?

這就是流程化,所有模型的訓(xùn)練只在一個(gè)平臺(tái)上完成。以前的方式,來(lái)來(lái)回回對(duì)接的成本太高,但在這個(gè)平臺(tái)上,點(diǎn)擊挖掘,自動(dòng)尋找,再點(diǎn)標(biāo)注,尋找標(biāo)注人物,后臺(tái)人員標(biāo)注好,再點(diǎn)訓(xùn)練,全部就完成了,整個(gè)流程即使和非常有算法經(jīng)驗(yàn)的工程師相比,這個(gè)平臺(tái)也有4倍以上的提升。

我們憑借這個(gè)平臺(tái)在深圳做了幾個(gè)項(xiàng)目,像龍華智能運(yùn)算能力平臺(tái)。

這里面涉及的算法有上百個(gè),公司不可能在短期內(nèi)招聘幾百個(gè)算法人員進(jìn)行研發(fā),因?yàn)檫@套平臺(tái)當(dāng)時(shí)還沒(méi)有做得完備,所以讓2個(gè)算法人員、10個(gè)標(biāo)注人員,在6個(gè)月的時(shí)間把20多個(gè)算法開(kāi)發(fā)全部完成了,成本也降低了很多。

為什么它需要這么多的算法?

這其實(shí)是整個(gè)城市管理思路的轉(zhuǎn)變:以前是巡視型管理,需要實(shí)地巡查,才能發(fā)現(xiàn)、處理;現(xiàn)在布置相關(guān)攝像頭,就能在后臺(tái)發(fā)現(xiàn),從而解決。

這種管理思路的轉(zhuǎn)變,需要大量算法技術(shù)能力的支撐。云天勵(lì)飛在龍崗算法倉(cāng)做了一個(gè)項(xiàng)目,也是算法訓(xùn)練與賦能平臺(tái),這里面也有上百種算法的需求。

需要強(qiáng)調(diào)的是,這套研發(fā)平臺(tái)沒(méi)有犧牲模型的精度,不同的人群訓(xùn)練這套模型沒(méi)有太大差別,因?yàn)樵谶@個(gè)平臺(tái)里,可以通過(guò)主動(dòng)學(xué)習(xí)算法,基于數(shù)據(jù)集做快速迭代,從而得到比較高的檢測(cè)精度。

最后提一點(diǎn),云天勵(lì)飛為什么要建立這套平臺(tái)?

從行業(yè)看,視覺(jué)AI還處在拓荒階段,仍然是一片沙漠,沒(méi)有變成一片綠洲,只有等到它變成綠洲的時(shí)候,才能長(zhǎng)出一顆顆參天大樹(shù),長(zhǎng)出許多AI企業(yè)。

城市治理對(duì)于算法的需求是成千上萬(wàn)的,每個(gè)算法都靠有經(jīng)驗(yàn)的人員去開(kāi)發(fā),成本會(huì)非常高昂,因此云天勵(lì)飛開(kāi)發(fā)了這套系統(tǒng),縮減成本的同時(shí),加快AI應(yīng)用的進(jìn)程。

可以設(shè)想,未來(lái)的城市,有一張網(wǎng)絡(luò)可以檢測(cè)方方面面,所有的事件都可以在城市大腦里解決。

這背后的技術(shù)邏輯是,算法可以做智能調(diào)度。比如對(duì)著大海的攝像頭,不用把汽車檢測(cè)的算法集成到攝像頭上,當(dāng)城市擁有一萬(wàn)種算法時(shí),可以在不同場(chǎng)景下,調(diào)度合適的算法,來(lái)解決問(wèn)題。

云天勵(lì)飛的愿景是,通過(guò)知識(shí)圖譜和整個(gè)平臺(tái)的研發(fā),讓城市超腦實(shí)現(xiàn)自我進(jìn)化,從而達(dá)到更高的智能化水平。

值得一提的是,云天勵(lì)飛的自進(jìn)化城市智能體的思路,已經(jīng)被寫入深圳市政府工作報(bào)告中。

(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )