2020年伊始,全球領(lǐng)先的研究和咨詢(xún)機(jī)構(gòu)Gartner發(fā)布了《2020年十大戰(zhàn)略性技術(shù)趨勢(shì):民主化》報(bào)告,系統(tǒng)闡述了“AI民主化”在企業(yè)智能化轉(zhuǎn)型過(guò)程中的意義,以及AutoML對(duì)實(shí)現(xiàn)AI民主化的關(guān)鍵作用。在該份報(bào)告中,第四范式獲得了Gartner的認(rèn)可,被列入了AutoML技術(shù)代表性廠商。為此,第四范式聯(lián)合Gartner發(fā)布了全球首個(gè)針對(duì)AutoML的系列白皮書(shū)——《AI for Everyone,AutoML引領(lǐng)AI民主化》以及《AutoML成就指數(shù)級(jí)增長(zhǎng):感知、認(rèn)知、決策算法布局提升企業(yè)決策水平》。
今天,AutoML正在幫助來(lái)自各行各業(yè)、處于不同技能水平和發(fā)展階段的企業(yè)落地AI應(yīng)用。毫無(wú)機(jī)器學(xué)習(xí)經(jīng)驗(yàn)的醫(yī)生使用AutoML,提升了新生兒體重預(yù)測(cè)的準(zhǔn)確率;第三方互聯(lián)網(wǎng)營(yíng)銷(xiāo)平臺(tái)的科學(xué)家使用AutoML,相較專(zhuān)家規(guī)則進(jìn)一步提升了廣告推薦點(diǎn)擊率;大型企業(yè)軟件開(kāi)發(fā)人員使用AutoML實(shí)現(xiàn)了AI應(yīng)用的規(guī)?;涞?,將應(yīng)用上線周期由6個(gè)月縮短至1個(gè)月。
《AI for Everyone,AutoML引領(lǐng)AI民主化》報(bào)告結(jié)合了Gartner對(duì)企業(yè)AI應(yīng)用現(xiàn)狀的調(diào)查報(bào)告,針對(duì)企業(yè)AI應(yīng)用過(guò)程中的兩大關(guān)鍵挑戰(zhàn)——高技能門(mén)檻和低開(kāi)發(fā)效率,深入解析了支撐AI民主化的引領(lǐng)性技術(shù)AutoML,并提出實(shí)現(xiàn)AutoML落地的正確方式,旨在幫助企業(yè)從容面對(duì)智能化轉(zhuǎn)型中的機(jī)遇和挑戰(zhàn)。
AI人才供需嚴(yán)重失衡,深層原因是高人才門(mén)檻和低開(kāi)發(fā)效率
近年來(lái),成功應(yīng)用AI所帶來(lái)的業(yè)務(wù)價(jià)值增長(zhǎng),使得企業(yè)對(duì)AI應(yīng)用需求呈現(xiàn)井噴增長(zhǎng)趨勢(shì)。Gartner預(yù)測(cè),2022年企業(yè)平均部署人工智能和機(jī)器學(xué)習(xí)項(xiàng)目將達(dá)到35個(gè)。
2019-2022年企業(yè)AI/ML項(xiàng)目平均部署數(shù)量
面對(duì)即將到來(lái)的AI應(yīng)用場(chǎng)景爆發(fā),企業(yè)是否已經(jīng)做好充足準(zhǔn)備?答案是否定的。在Gartner調(diào)查中,56%的受訪企業(yè)都將“人才不足”作為AI項(xiàng)目落地的首要挑戰(zhàn)。
阻礙企業(yè)應(yīng)用AI的主要挑戰(zhàn)
AI人才不足體現(xiàn)在兩個(gè)方面,一是數(shù)量匱乏。以中國(guó)地區(qū)為例,教育體系每年培養(yǎng)的AI高級(jí)人才數(shù)量只有千人級(jí)別,遠(yuǎn)遠(yuǎn)無(wú)法滿(mǎn)足每年達(dá)百萬(wàn)級(jí)的AI場(chǎng)景數(shù)增長(zhǎng)。二是分布不均,全球AI科學(xué)家高度集中在美國(guó)硅谷和北京中關(guān)村,而絕大多數(shù)企業(yè)所在地都沒(méi)有足夠的AI科學(xué)家。
人才缺失阻礙企業(yè)享受AI帶來(lái)的紅利,究其背后原因,是過(guò)高的人才門(mén)檻和低下的開(kāi)發(fā)效率,導(dǎo)致AI人才無(wú)法實(shí)現(xiàn)快速培養(yǎng)并有效產(chǎn)出價(jià)值。
首先是人才門(mén)檻過(guò)高。傳統(tǒng)機(jī)器學(xué)習(xí)模型構(gòu)建通常由問(wèn)題定義、數(shù)據(jù)收集、特征工程、模型訓(xùn)練、模型評(píng)估等環(huán)節(jié)組成。模型構(gòu)建難度大、技術(shù)門(mén)檻高,往往需要具備專(zhuān)業(yè)知識(shí)的科學(xué)家完成。培養(yǎng)AI科學(xué)家的門(mén)檻極高,往往需要8-10年時(shí)間,即使是IT專(zhuān)業(yè)人員,沒(méi)有經(jīng)過(guò)長(zhǎng)時(shí)間的學(xué)習(xí)和實(shí)踐積累,也很難掌握模型構(gòu)建、參數(shù)調(diào)整等關(guān)鍵技能。
其次是開(kāi)發(fā)效率低下。即使那些投擲重金聘請(qǐng)科學(xué)家的企業(yè),也并未收獲到所期望的業(yè)務(wù)價(jià)值。這背后的突出問(wèn)題是,科學(xué)家大量時(shí)間都消耗在數(shù)據(jù)、特征及模型選擇等重復(fù)性工作上。而真正用于定義業(yè)務(wù)問(wèn)題、提供創(chuàng)新性解決方案的時(shí)間卻少之又少。這些工作占用了科學(xué)家的寶貴時(shí)間,導(dǎo)致其建模效率不足,使其無(wú)法發(fā)揮出企業(yè)所期待的價(jià)值,企業(yè)AI應(yīng)用落地進(jìn)程嚴(yán)重滯后。
AutoML開(kāi)啟企業(yè)AI民主化實(shí)踐,讓AI發(fā)展突破人的瓶頸
AI人才的高技能門(mén)檻和低開(kāi)發(fā)效率,讓人工智能的發(fā)展受制于“人”。AutoML作為支撐AI民主化發(fā)展的代表性技術(shù),將賦予企業(yè)以低門(mén)檻、高效率實(shí)現(xiàn)AI規(guī)?;_(kāi)發(fā)的能力。
AutoML通過(guò)自動(dòng)化機(jī)器學(xué)習(xí)算法覆蓋建模全流程,減少人在數(shù)據(jù)準(zhǔn)備、特征工程、模型訓(xùn)練和模型評(píng)估等環(huán)節(jié)重復(fù)性工作,釋放AI人才被浪費(fèi)的寶貴時(shí)間,解決AI專(zhuān)業(yè)人才短缺和開(kāi)發(fā)效率不足的難題。Gartner預(yù)測(cè),到2023年,有40%的公民數(shù)據(jù)科學(xué)家(即企業(yè)的IT開(kāi)發(fā)者或業(yè)務(wù)人員)將使用自動(dòng)化機(jī)器學(xué)習(xí)來(lái)完成業(yè)務(wù)場(chǎng)景的建模,這將極大程度釋放AI帶來(lái)的價(jià)值。
AutoML自動(dòng)化機(jī)器學(xué)習(xí)建模全流程
目前,頂級(jí)AutoML建模效果已經(jīng)與頂尖的數(shù)據(jù)科學(xué)家水平相當(dāng)。在全球知名的Kaggle機(jī)器學(xué)習(xí)競(jìng)賽中,第四范式的AutoML算法在結(jié)構(gòu)化和非結(jié)構(gòu)化等挑戰(zhàn)項(xiàng)目中的建模效果戰(zhàn)勝了超過(guò)98%數(shù)據(jù)科學(xué)參賽選手,意味著每50位全球頂尖數(shù)據(jù)科學(xué)競(jìng)賽選手,只有1位能戰(zhàn)勝第四范式的AutoML。
AutoML的大規(guī)模應(yīng)用,需要以產(chǎn)品化形式輸出和投產(chǎn)
頂尖的AutoML算法相當(dāng)于AI應(yīng)用構(gòu)建的“引擎”。而AI應(yīng)用的開(kāi)發(fā)是一項(xiàng)非常復(fù)雜的精細(xì)化工程,涉及諸多環(huán)節(jié)。假如沒(méi)有一套完整的AI開(kāi)發(fā)工具,各個(gè)環(huán)節(jié)就會(huì)變成彼此割裂、互不兼容的“孤島”,不僅導(dǎo)致科學(xué)家在開(kāi)發(fā)過(guò)程中疲于奔命,也會(huì)讓AI規(guī)模化變成“泡影”。只有打造基于AutoML算法“引擎”的“自動(dòng)化工廠”,實(shí)現(xiàn)全面產(chǎn)品化,才能真正推動(dòng)AI產(chǎn)業(yè)化落地。
為此,第四范式將AutoML算法進(jìn)行了產(chǎn)品化封裝,打造了一款低門(mén)檻、高效率、持續(xù)優(yōu)化的自動(dòng)化AI生產(chǎn)力平臺(tái)Sage HyperCycle ML。作為一款成熟的企業(yè)級(jí)AutoML產(chǎn)品,Sage HyperCycle ML有三方面的優(yōu)勢(shì),首先通過(guò)領(lǐng)先AutoML算法加持,降低了使用人員的技能門(mén)檻,使得AI應(yīng)用開(kāi)發(fā)不再局限于科學(xué)家,把企業(yè)IT開(kāi)發(fā)者及業(yè)務(wù)人員轉(zhuǎn)變?yōu)锳I模型開(kāi)發(fā)的生力軍;其次是AI建模的全流程自動(dòng)化,提升落地效率,將AI應(yīng)用上線周期從以半年為單位縮短至周、天、乃至小時(shí)級(jí)別;此外,Sage HyperCycle ML的閉環(huán)自學(xué)習(xí)技術(shù)支持模型持續(xù)動(dòng)態(tài)調(diào)優(yōu),實(shí)現(xiàn)小時(shí)、分鐘乃至秒級(jí)的數(shù)據(jù)更新和模型迭代,解決了模型上線后模型迭代頻率低、人力成本居高不下的問(wèn)題。
極簡(jiǎn)界面的第四范式Sage HyperCycle ML平臺(tái)
通過(guò)打造該平臺(tái),將AutoML算法嵌入到平臺(tái)產(chǎn)品中,算法的“引擎”作用才可能充分發(fā)揮,從而支撐AI的規(guī)?;涞亍?/p>
AI產(chǎn)品和工具的落地,需要正確的方法論指導(dǎo)
AutoML的產(chǎn)品化,意味著機(jī)器學(xué)習(xí)項(xiàng)目取得了一半的成功。然而,模型應(yīng)用上線過(guò)程中,錯(cuò)誤的認(rèn)知造成各種各樣的問(wèn)題和挑戰(zhàn)。這些問(wèn)題和挑戰(zhàn)影響模型效果,延長(zhǎng)建模周期,帶來(lái)極大的人力和時(shí)間消耗,嚴(yán)重影響企業(yè)業(yè)務(wù)價(jià)值創(chuàng)造。
只有當(dāng)AutoML產(chǎn)品被正確的使用,AI項(xiàng)目才能真正落地并創(chuàng)造業(yè)務(wù)價(jià)值。為此,第四范式凝練出AI項(xiàng)目落地的方法論,解決模型構(gòu)建與模型應(yīng)用上線之間存在的割裂問(wèn)題,幫助企業(yè)實(shí)現(xiàn)AI應(yīng)用落地。
具體來(lái)看,第四范式針對(duì)企業(yè)落地AI過(guò)程中四個(gè)方面的誤區(qū)提出了解決辦法。首先,在系統(tǒng)構(gòu)建方面,企業(yè)應(yīng)當(dāng)搭建閉環(huán)的數(shù)據(jù)治理架構(gòu),明確定義AI的目標(biāo)、行為和反饋,避免在數(shù)據(jù)治理過(guò)程中消耗大量不必要的精力;第二,在數(shù)據(jù)準(zhǔn)備方面,企業(yè)應(yīng)當(dāng)基于線上的單一數(shù)據(jù)來(lái)源進(jìn)行收集和處理,避免多來(lái)源數(shù)據(jù)的形式和邏輯不一致,導(dǎo)致模型效果與實(shí)驗(yàn)室效果產(chǎn)生巨大差距乃至反轉(zhuǎn);第三,在模型構(gòu)建方面,企業(yè)應(yīng)當(dāng)利用自動(dòng)化的機(jī)器學(xué)習(xí)平臺(tái)實(shí)現(xiàn)全流程自動(dòng)化,讓業(yè)務(wù)人員也能開(kāi)發(fā)AI模型,避免AI落地受制于“人”。第四,在模型上線后,企業(yè)應(yīng)通過(guò)自學(xué)習(xí)技術(shù)保持模型效果的持續(xù)迭代,避免模型停滯不前,效果隨時(shí)間推移而衰減?;谡_的方法論,企業(yè)利用AI產(chǎn)品實(shí)現(xiàn)AI的規(guī)?;涞貙睦硐胱?yōu)楝F(xiàn)實(shí)。
總結(jié)來(lái)說(shuō),面對(duì)AI落地需求井噴和AI人才嚴(yán)重不足的失衡局面,AI民主化是實(shí)現(xiàn)AI規(guī)?;涞貞?yīng)用、創(chuàng)造更大商業(yè)價(jià)值的必然路徑。而AutoML技術(shù)是AI民主化的關(guān)鍵技術(shù)支撐。通過(guò)將AutoML技術(shù)進(jìn)行產(chǎn)品化嵌套,配合正確的落地方法論,構(gòu)成一套系統(tǒng)的AutoML落地解決方案和路徑,這將使更多的企業(yè)和人才有機(jī)會(huì)享受到AI帶來(lái)的效率,從而釋放巨大的商業(yè)價(jià)值。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )