百度AI「開(kāi)源」:止近渴,解遠(yuǎn)慮

2020年3月,注定是中國(guó)AI開(kāi)發(fā)者不會(huì)遺忘的一個(gè)月。

3月20日,清華大學(xué)計(jì)算機(jī)系圖形實(shí)驗(yàn)室開(kāi)源AI框架計(jì)圖(Jittor),這是首個(gè)由中國(guó)學(xué)界開(kāi)源的AI框架,直接對(duì)標(biāo)PyTorch;

3月24日,AI獨(dú)角獸曠視科技宣布開(kāi)源天元(MegEngine)——訓(xùn)練推理一體化、動(dòng)靜態(tài)合一的工業(yè)級(jí)深度學(xué)習(xí)框架;

3月28日,華為在開(kāi)發(fā)者大會(huì)2020上宣布正式開(kāi)源MindSpore,這是一款支持端邊云全場(chǎng)景的深度學(xué)習(xí)訓(xùn)練推理框架。

短短8天,中國(guó)AI領(lǐng)域刮起一股開(kāi)源風(fēng)潮,而目標(biāo)正是AI開(kāi)源框架領(lǐng)域的霸主TensorFlow和PyTorch,這也許會(huì)成為國(guó)產(chǎn)深度學(xué)習(xí)框架開(kāi)源歷史上重要的高光時(shí)刻。

而這股風(fēng)潮的領(lǐng)頭人,是4年前打響國(guó)產(chǎn)AI框架開(kāi)源第一槍的百度飛槳。

2016年百度飛槳開(kāi)源之后,就已帶動(dòng)了一波風(fēng)潮,騰訊機(jī)器學(xué)習(xí)平臺(tái)Angel、阿里深度學(xué)習(xí)框架X-DeepLearning相繼開(kāi)源,也有OneFlow這樣的初創(chuàng)公司加入,一個(gè)欣欣向榮的AI生態(tài)正在走近。

而百度,也在持續(xù)引領(lǐng)AI生態(tài)走向繁榮。

根據(jù)最新GitHub開(kāi)源項(xiàng)目數(shù)據(jù)集GitHubArchive之中關(guān)于pull request的發(fā)起和合入數(shù)據(jù),百度飛槳的open數(shù)據(jù)由去年的2759次躍升到今年同期的3391次,飛槳的 merged數(shù)據(jù)由1924次躍升為2428次,由此,百度飛槳在pull request的數(shù)據(jù)上已經(jīng)成為國(guó)內(nèi)第一、全球第二的領(lǐng)軍存在。

這也意味著“動(dòng)靜統(tǒng)一、軟硬融合”的飛槳一直在致力于讓深度學(xué)習(xí)技術(shù)的創(chuàng)新與應(yīng)用更簡(jiǎn)單,其提供的AI底層技術(shù)也深受開(kāi)發(fā)者歡迎。

2020/2019年度全球開(kāi)源深度學(xué)習(xí)框架活躍度排名榜單

AI開(kāi)源框架的搭建是一項(xiàng)費(fèi)時(shí)費(fèi)力的大工程,如果沒(méi)有超越現(xiàn)有主流框架的想法,去重復(fù)造一套沒(méi)有技術(shù)創(chuàng)新的輪子,不僅性?xún)r(jià)比不高,而且對(duì)開(kāi)發(fā)者的吸引力也不夠大。

這就引申出一個(gè)問(wèn)題,在TensorFlow和PyTorch已有完整框架生態(tài)的情況下,為何百度以及一眾的后來(lái)者還要執(zhí)著于國(guó)產(chǎn)AI框架的開(kāi)源?另造一套技術(shù)輪子,他們自研AI開(kāi)源框架的價(jià)值和意義是什么?

止近渴:技術(shù)創(chuàng)新、業(yè)務(wù)需要

TensorFlow、PyTorch的強(qiáng)大毋庸置疑,例如TensorFlow在中國(guó)的用戶(hù)就不乏網(wǎng)易、京東、360、聯(lián)想、美團(tuán)等科技企業(yè)。

但從戰(zhàn)略和戰(zhàn)術(shù)上,TensorFlow、PyTorch的缺點(diǎn)和劣勢(shì)也顯而易見(jiàn)。

戰(zhàn)略上,雖然TensorFlow是開(kāi)源的,但其與谷歌的深度綁定,不排除會(huì)出現(xiàn)類(lèi)似Android的局面。所以,國(guó)內(nèi)有百度自研,國(guó)外亞馬遜、Facebook、微軟、蘋(píng)果等都在自研。

戰(zhàn)術(shù)上,深度學(xué)習(xí)框架開(kāi)源背后是商業(yè)利益的捆綁,而且在技術(shù)層面,TensorFlow、PyTorch也并非沒(méi)有提升空間。

舉個(gè)簡(jiǎn)單的例子,像TensorFlow在語(yǔ)音交互、神經(jīng)網(wǎng)絡(luò)翻譯等核心技術(shù)上,很少有中文數(shù)據(jù)集以及中文領(lǐng)域的技術(shù)探索。

換言之,只有深諳中國(guó)開(kāi)發(fā)者需求和中國(guó)AI市場(chǎng)生態(tài)的深度學(xué)習(xí)框架,才能精準(zhǔn)滿(mǎn)足本土用戶(hù)需求。

并且,中國(guó)有其他國(guó)家無(wú)法比擬的商業(yè)優(yōu)勢(shì),數(shù)據(jù)紅利和龐大的應(yīng)用場(chǎng)景促使AI相關(guān)技術(shù)更快落地。但是,無(wú)法逃避的一個(gè)問(wèn)題是,不掌握底層技術(shù),上層應(yīng)用仍要面臨「卡脖子」。

所以,無(wú)論是百度,還是阿里、華為等后來(lái)者,自研+開(kāi)源是擺脫「卡脖子」的最佳方案。

百度飛槳作為國(guó)內(nèi)AI開(kāi)源的扛把子,2012年就開(kāi)始著手深度學(xué)習(xí)平臺(tái)框架研發(fā),2016年飛槳正式開(kāi)源。飛槳開(kāi)源的歷史動(dòng)機(jī)由主觀(guān)因素主導(dǎo),也有客觀(guān)因素存在。

百度飛槳全景圖

主觀(guān)因素是百度一直以來(lái)的技術(shù)背景和開(kāi)源策略,從2009年大規(guī)模定制Hadoop開(kāi)始到2013年率先開(kāi)源ECharts,百度從布局AI開(kāi)始,就一直堅(jiān)持開(kāi)源戰(zhàn)略。

這種戰(zhàn)略的具體落地,正是不斷開(kāi)源AI能力,這里面不僅有百度的基因和能力因素,更重要是表達(dá)一種開(kāi)放的態(tài)度。

客觀(guān)因素則是谷歌、Facebook、IBM等海外科技巨頭先后將AI框架開(kāi)源,AI框架開(kāi)源背后往往跟隨著各個(gè)公司的業(yè)務(wù),比如谷歌的云服務(wù)、TPU資源等等,打一個(gè)形象的比方,深度學(xué)習(xí)框架是一條高速公路,你可以免費(fèi)在上面行駛,但你也需要服務(wù)區(qū)加油、吃飯、休息,這一連串的配套設(shè)施就形成了一個(gè)生態(tài)。

經(jīng)過(guò)4年開(kāi)源發(fā)展,百度飛槳已經(jīng)籌備起了自己的生態(tài)模型,在完備性、易用性、高效性三個(gè)方面搭建了一定的壁壘。

完備性:

百度飛槳集核心訓(xùn)練和推理框架、基礎(chǔ)模型庫(kù)、端到端開(kāi)發(fā)套件和豐富的工具組件于一體,并根據(jù)本土化特點(diǎn)將開(kāi)源框架與應(yīng)用層面做了更好的結(jié)合,旨在打造自主可控的人工智能操作系統(tǒng),持續(xù)賦能廣大開(kāi)發(fā)者。2020 年也迎來(lái)一系列重要升級(jí),比如在核心框架上實(shí)現(xiàn)了動(dòng)靜統(tǒng)一,全面支持動(dòng)態(tài)圖調(diào)試,自動(dòng)轉(zhuǎn)靜態(tài)圖訓(xùn)練和部署的理想開(kāi)發(fā)模式。

易用性:

相比于其他開(kāi)源的深度學(xué)習(xí)框架,飛槳最大的特點(diǎn)在于easy to use,對(duì)很多算法進(jìn)行了完整封裝,開(kāi)發(fā)者只需要略微了解下源碼原理,導(dǎo)入自己的數(shù)據(jù)就可以執(zhí)行運(yùn)行的命令。

高效性:

基于其簡(jiǎn)潔、靈活、快速的特性,百度飛槳推動(dòng)了各個(gè)行業(yè)的深度學(xué)習(xí)應(yīng)用,在液晶顯示屏的檢測(cè)、機(jī)器人安全巡檢、遙感監(jiān)測(cè)等領(lǐng)域發(fā)揮著不可代替的作用。

拿液晶顯示屏檢測(cè)來(lái)說(shuō),精測(cè)電子應(yīng)用飛槳開(kāi)源深度學(xué)習(xí)框架開(kāi)發(fā)后,基于其分類(lèi)、檢測(cè)、分割等多種功能模塊,對(duì)具有缺陷的液晶屏幕檢測(cè)的精度上有很大提升。

解遠(yuǎn)慮:國(guó)家新基建戰(zhàn)略下的自主創(chuàng)新

近兩年,基礎(chǔ)技術(shù)的「卡脖子」話(huà)題成為近兩年中國(guó)科技界探討的熱點(diǎn),擔(dān)心中國(guó)AI的發(fā)展會(huì)像芯片發(fā)展那樣遭遇空中樓閣的困境。

與其信任他人「不作惡」的承諾,不如技術(shù)自立。

一定程度上,華為中興事件之后,人工智能競(jìng)賽已經(jīng)演化成一場(chǎng)「框架之爭(zhēng)」。以高文院士為代表的AI專(zhuān)家就在四處布道「做人工智能必須要做開(kāi)源,中國(guó)要想發(fā)展好新一代的人工智能,必須要有高效和風(fēng)險(xiǎn)可控的開(kāi)源開(kāi)放平臺(tái)」的觀(guān)點(diǎn)。

與此同時(shí),國(guó)家也在戰(zhàn)略層面給予支持。

對(duì)于AI基礎(chǔ)設(shè)施的建設(shè),中國(guó)政府在《新一代人工智能發(fā)展規(guī)劃》等關(guān)于AI頂層規(guī)劃的政策中都著重提及,除了加大應(yīng)用層技術(shù)落地,更希望業(yè)界和學(xué)界深入AI底層技術(shù)研發(fā)。

而AI底層技術(shù)研發(fā)的根基就在深度學(xué)習(xí)框架,跑在自家的高速公路上,不會(huì)有被攔路、斷供的風(fēng)險(xiǎn),而且在生態(tài)建設(shè)層面,自研深度學(xué)習(xí)框架的成熟度并不亞于TensorFlow或PyTorch。

以百度飛槳為例,數(shù)據(jù)顯示,飛槳當(dāng)前支持140+個(gè)產(chǎn)業(yè)及開(kāi)源算法,累計(jì)開(kāi)發(fā)者230萬(wàn),服務(wù)企業(yè)9萬(wàn)家,基于飛槳開(kāi)源深度學(xué)習(xí)平臺(tái)產(chǎn)生了31萬(wàn)個(gè)模型。今年9月,百度飛槳深度學(xué)習(xí)平臺(tái)還入選了2020服貿(mào)會(huì)「科技創(chuàng)新服務(wù)示范案例」。

此外,在城市、工業(yè)、電力、通信等很多關(guān)乎國(guó)計(jì)民生的領(lǐng)域都有飛槳在發(fā)揮作用。

今年5月,百度發(fā)布了Paddle Quantum,這是建立在百度飛槳深度學(xué)習(xí)平臺(tái)之上的開(kāi)放源代碼的機(jī)器學(xué)習(xí)工具包,它包括量子開(kāi)發(fā)工具集,量子化學(xué)庫(kù)以及一系列優(yōu)化工具,可以幫助領(lǐng)域內(nèi)的科研人員以及開(kāi)發(fā)者在量子計(jì)算應(yīng)用程序中訓(xùn)練和開(kāi)發(fā)AI,也為相關(guān)領(lǐng)域的愛(ài)好者開(kāi)發(fā)量子人工智能的應(yīng)用提供了強(qiáng)有力的支撐。

百度「開(kāi)源」家族

在技術(shù)領(lǐng)域,一枝獨(dú)秀不是春,沒(méi)有對(duì)外開(kāi)源,很多技術(shù)和產(chǎn)品不會(huì)拓展如此之快。還是高速公路的例子,在別人為你搭建好的公路上馳騁,相當(dāng)于站在巨人的肩膀上做創(chuàng)新,不僅加速了自我產(chǎn)品迭代,更有助于AI技術(shù)生態(tài)的構(gòu)建。

信奉技術(shù)的巨頭都甚至「開(kāi)源」的重要性,百度更是如此。

從2009年大規(guī)模定制Hadoop到2013年率先開(kāi)源ECharts,百度的開(kāi)源之路從未停止。

2017年,對(duì)百度而言是開(kāi)源的突破之年,從深度學(xué)習(xí)平臺(tái)飛槳 PaddlePaddle,到Apollo自動(dòng)駕駛,百度落實(shí)了多項(xiàng)重大開(kāi)源技術(shù),也將AI開(kāi)源提升到前所未有的戰(zhàn)略高度。

2016年開(kāi)源飛槳后,次年百度發(fā)布全球首個(gè)自動(dòng)駕駛Apollo自動(dòng)駕駛開(kāi)放平臺(tái)。

截至目前,百度Apollo平臺(tái)已經(jīng)匯聚了全球177家生態(tài)合作伙伴。在全球,有97個(gè)國(guó)家超過(guò)3.6萬(wàn)名開(kāi)發(fā)者使用Apollo開(kāi)源代碼,開(kāi)源代碼數(shù)量超過(guò)56萬(wàn),Apollo自動(dòng)駕駛平臺(tái)已成為全球最強(qiáng)大、最開(kāi)放、最活躍的自動(dòng)駕駛平臺(tái)。

除了飛槳和Apollo,疫情期間從紅到白、可視化的疫情地圖背后還有早已開(kāi)源的ECharts身影。

作為當(dāng)前最流行、最強(qiáng)大的可視化庫(kù)之一,ECharts提供了直觀(guān)、生動(dòng)、可交互、可個(gè)性化定制的數(shù)據(jù)可視化圖表,包括常規(guī)的折線(xiàn)圖、柱狀圖、散點(diǎn)圖、餅圖、K線(xiàn)圖,用于統(tǒng)計(jì)的盒形圖,用于地理數(shù)據(jù)可視化的地圖、熱力圖、線(xiàn)圖,用于關(guān)系數(shù)據(jù)可視化的關(guān)系圖、treemap、旭日?qǐng)D,多維數(shù)據(jù)可視化的平行坐標(biāo),還有用于BI的漏斗圖,儀表盤(pán)。

ECharts創(chuàng)新的拖拽重計(jì)算、數(shù)據(jù)視圖、值域漫游等特性大大增強(qiáng)了用戶(hù)體驗(yàn),賦予了用戶(hù)對(duì)數(shù)據(jù)進(jìn)行挖掘、整合的能力。

通過(guò)ECharts的數(shù)據(jù)可視化圖表可以直觀(guān)、生動(dòng)的展現(xiàn)數(shù)據(jù)

目前,Apache ECharts (incubating) 在Github中的star數(shù)已經(jīng)超過(guò)41.4k,每周npm下載量超過(guò)22萬(wàn)。

除了自身開(kāi)源,百度還參與了國(guó)內(nèi)外頂級(jí)開(kāi)源基金會(huì)和組織,成為了 Apache基金會(huì)、Linux基金會(huì)以及云原生計(jì)算基金會(huì)的金牌會(huì)員,其旗下Echarts、Doris、Brpc等多個(gè)項(xiàng)目已經(jīng)成為Apache基金會(huì)孵化項(xiàng)目,Baetyl、IME、EDL 等項(xiàng)目也捐贈(zèng)給了Linux基金會(huì)進(jìn)行孵化。

2019年,百度戰(zhàn)略投資了開(kāi)源中國(guó),作為中國(guó)最大的開(kāi)源技術(shù)社區(qū),開(kāi)源中國(guó)旗下運(yùn)營(yíng)的Gitee代碼托管平臺(tái)是全球僅次于GitHub的代碼托管平臺(tái),每日約增加5000名開(kāi)發(fā)者、200家企業(yè)客戶(hù)、1.7萬(wàn)代碼倉(cāng)庫(kù),已經(jīng)具備了在國(guó)際市場(chǎng)與GitHub全面抗衡的基礎(chǔ)。

諾貝爾獎(jiǎng)得主理查德費(fèi)曼曾說(shuō)過(guò),what you can not create, you can not understand,不會(huì)創(chuàng)造出來(lái)就不理解。

深度學(xué)習(xí)框架也一樣,只會(huì)使用,不會(huì)研發(fā),就不會(huì)理解。不理解,不僅僅是能不能研發(fā)出來(lái)深度學(xué)習(xí)框架的問(wèn)題,也意味著不能在算法上領(lǐng)先,不能在芯片上領(lǐng)先,最終會(huì)導(dǎo)致在應(yīng)用層面也不能領(lǐng)先,結(jié)局只能是全面的落后。

實(shí)際上,包括百度在內(nèi),騰訊、阿里、華為等科技巨頭紛紛將AI框架開(kāi)源的道理也在此。開(kāi)源,某種程度上能有效減少閉源壟斷市場(chǎng)的局面出現(xiàn),同時(shí),還能在根本上解決「卡脖子」的窘迫。

開(kāi)源深度學(xué)習(xí)框架意味著,在語(yǔ)音識(shí)別、自然語(yǔ)言理解、計(jì)算機(jī)視覺(jué)、廣告等很多地方可以應(yīng)用,同時(shí),例如百度這樣的領(lǐng)航者也提供了深度學(xué)習(xí)算法之外,海量數(shù)據(jù)收集和工程系統(tǒng)架構(gòu)的搭建,為AI開(kāi)發(fā)者提供了一站式服務(wù)。

總的來(lái)說(shuō),開(kāi)源對(duì)于中國(guó)本土的AI開(kāi)發(fā)者和公司來(lái)說(shuō),有能力理解并基于一個(gè)與國(guó)際同步的深度學(xué)習(xí)框架開(kāi)發(fā)AI技術(shù)、應(yīng)用,這將大大降低深度學(xué)習(xí)在各個(gè)行業(yè)中的應(yīng)用難度。

正如李彥宏在2020百度世界大會(huì)上提到,推動(dòng)人工智能扎實(shí)滲透,行業(yè)要充分利用開(kāi)源、開(kāi)放平臺(tái),它在人工智能發(fā)展當(dāng)中的作用會(huì)越來(lái)越受到重視。

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2020-09-30
百度AI「開(kāi)源」:止近渴,解遠(yuǎn)慮
2020年3月,注定是中國(guó)AI開(kāi)發(fā)者不會(huì)遺忘的一個(gè)月。3月20日,清華大學(xué)計(jì)算機(jī)系圖形實(shí)驗(yàn)室開(kāi)源AI框架計(jì)圖(Jittor)...

長(zhǎng)按掃碼 閱讀全文