百度AI「開源」:止近渴,解遠慮

2020年3月,注定是中國AI開發(fā)者不會遺忘的一個月。

3月20日,清華大學計算機系圖形實驗室開源AI框架計圖(Jittor),這是首個由中國學界開源的AI框架,直接對標PyTorch;

3月24日,AI獨角獸曠視科技宣布開源天元(MegEngine)——訓練推理一體化、動靜態(tài)合一的工業(yè)級深度學習框架;

3月28日,華為在開發(fā)者大會2020上宣布正式開源MindSpore,這是一款支持端邊云全場景的深度學習訓練推理框架。

短短8天,中國AI領域刮起一股開源風潮,而目標正是AI開源框架領域的霸主TensorFlow和PyTorch,這也許會成為國產深度學習框架開源歷史上重要的高光時刻。

而這股風潮的領頭人,是4年前打響國產AI框架開源第一槍的百度飛槳。

2016年百度飛槳開源之后,就已帶動了一波風潮,騰訊機器學習平臺Angel、阿里深度學習框架X-DeepLearning相繼開源,也有OneFlow這樣的初創(chuàng)公司加入,一個欣欣向榮的AI生態(tài)正在走近。

而百度,也在持續(xù)引領AI生態(tài)走向繁榮。

根據最新GitHub開源項目數據集GitHubArchive之中關于pull request的發(fā)起和合入數據,百度飛槳的open數據由去年的2759次躍升到今年同期的3391次,飛槳的 merged數據由1924次躍升為2428次,由此,百度飛槳在pull request的數據上已經成為國內第一、全球第二的領軍存在。

這也意味著“動靜統(tǒng)一、軟硬融合”的飛槳一直在致力于讓深度學習技術的創(chuàng)新與應用更簡單,其提供的AI底層技術也深受開發(fā)者歡迎。

2020/2019年度全球開源深度學習框架活躍度排名榜單

AI開源框架的搭建是一項費時費力的大工程,如果沒有超越現有主流框架的想法,去重復造一套沒有技術創(chuàng)新的輪子,不僅性價比不高,而且對開發(fā)者的吸引力也不夠大。

這就引申出一個問題,在TensorFlow和PyTorch已有完整框架生態(tài)的情況下,為何百度以及一眾的后來者還要執(zhí)著于國產AI框架的開源?另造一套技術輪子,他們自研AI開源框架的價值和意義是什么?

止近渴:技術創(chuàng)新、業(yè)務需要

TensorFlow、PyTorch的強大毋庸置疑,例如TensorFlow在中國的用戶就不乏網易、京東、360、聯想、美團等科技企業(yè)。

但從戰(zhàn)略和戰(zhàn)術上,TensorFlow、PyTorch的缺點和劣勢也顯而易見。

戰(zhàn)略上,雖然TensorFlow是開源的,但其與谷歌的深度綁定,不排除會出現類似Android的局面。所以,國內有百度自研,國外亞馬遜、Facebook、微軟、蘋果等都在自研。

戰(zhàn)術上,深度學習框架開源背后是商業(yè)利益的捆綁,而且在技術層面,TensorFlow、PyTorch也并非沒有提升空間。

舉個簡單的例子,像TensorFlow在語音交互、神經網絡翻譯等核心技術上,很少有中文數據集以及中文領域的技術探索。

換言之,只有深諳中國開發(fā)者需求和中國AI市場生態(tài)的深度學習框架,才能精準滿足本土用戶需求。

并且,中國有其他國家無法比擬的商業(yè)優(yōu)勢,數據紅利和龐大的應用場景促使AI相關技術更快落地。但是,無法逃避的一個問題是,不掌握底層技術,上層應用仍要面臨「卡脖子」。

所以,無論是百度,還是阿里、華為等后來者,自研+開源是擺脫「卡脖子」的最佳方案。

百度飛槳作為國內AI開源的扛把子,2012年就開始著手深度學習平臺框架研發(fā),2016年飛槳正式開源。飛槳開源的歷史動機由主觀因素主導,也有客觀因素存在。

百度飛槳全景圖

主觀因素是百度一直以來的技術背景和開源策略,從2009年大規(guī)模定制Hadoop開始到2013年率先開源ECharts,百度從布局AI開始,就一直堅持開源戰(zhàn)略。

這種戰(zhàn)略的具體落地,正是不斷開源AI能力,這里面不僅有百度的基因和能力因素,更重要是表達一種開放的態(tài)度。

客觀因素則是谷歌、Facebook、IBM等海外科技巨頭先后將AI框架開源,AI框架開源背后往往跟隨著各個公司的業(yè)務,比如谷歌的云服務、TPU資源等等,打一個形象的比方,深度學習框架是一條高速公路,你可以免費在上面行駛,但你也需要服務區(qū)加油、吃飯、休息,這一連串的配套設施就形成了一個生態(tài)。

經過4年開源發(fā)展,百度飛槳已經籌備起了自己的生態(tài)模型,在完備性、易用性、高效性三個方面搭建了一定的壁壘。

完備性:

百度飛槳集核心訓練和推理框架、基礎模型庫、端到端開發(fā)套件和豐富的工具組件于一體,并根據本土化特點將開源框架與應用層面做了更好的結合,旨在打造自主可控的人工智能操作系統(tǒng),持續(xù)賦能廣大開發(fā)者。2020 年也迎來一系列重要升級,比如在核心框架上實現了動靜統(tǒng)一,全面支持動態(tài)圖調試,自動轉靜態(tài)圖訓練和部署的理想開發(fā)模式。

易用性:

相比于其他開源的深度學習框架,飛槳最大的特點在于easy to use,對很多算法進行了完整封裝,開發(fā)者只需要略微了解下源碼原理,導入自己的數據就可以執(zhí)行運行的命令。

高效性:

基于其簡潔、靈活、快速的特性,百度飛槳推動了各個行業(yè)的深度學習應用,在液晶顯示屏的檢測、機器人安全巡檢、遙感監(jiān)測等領域發(fā)揮著不可代替的作用。

拿液晶顯示屏檢測來說,精測電子應用飛槳開源深度學習框架開發(fā)后,基于其分類、檢測、分割等多種功能模塊,對具有缺陷的液晶屏幕檢測的精度上有很大提升。

解遠慮:國家新基建戰(zhàn)略下的自主創(chuàng)新

近兩年,基礎技術的「卡脖子」話題成為近兩年中國科技界探討的熱點,擔心中國AI的發(fā)展會像芯片發(fā)展那樣遭遇空中樓閣的困境。

與其信任他人「不作惡」的承諾,不如技術自立。

一定程度上,華為中興事件之后,人工智能競賽已經演化成一場「框架之爭」。以高文院士為代表的AI專家就在四處布道「做人工智能必須要做開源,中國要想發(fā)展好新一代的人工智能,必須要有高效和風險可控的開源開放平臺」的觀點。

與此同時,國家也在戰(zhàn)略層面給予支持。

對于AI基礎設施的建設,中國政府在《新一代人工智能發(fā)展規(guī)劃》等關于AI頂層規(guī)劃的政策中都著重提及,除了加大應用層技術落地,更希望業(yè)界和學界深入AI底層技術研發(fā)。

而AI底層技術研發(fā)的根基就在深度學習框架,跑在自家的高速公路上,不會有被攔路、斷供的風險,而且在生態(tài)建設層面,自研深度學習框架的成熟度并不亞于TensorFlow或PyTorch。

以百度飛槳為例,數據顯示,飛槳當前支持140+個產業(yè)及開源算法,累計開發(fā)者230萬,服務企業(yè)9萬家,基于飛槳開源深度學習平臺產生了31萬個模型。今年9月,百度飛槳深度學習平臺還入選了2020服貿會「科技創(chuàng)新服務示范案例」。

此外,在城市、工業(yè)、電力、通信等很多關乎國計民生的領域都有飛槳在發(fā)揮作用。

今年5月,百度發(fā)布了Paddle Quantum,這是建立在百度飛槳深度學習平臺之上的開放源代碼的機器學習工具包,它包括量子開發(fā)工具集,量子化學庫以及一系列優(yōu)化工具,可以幫助領域內的科研人員以及開發(fā)者在量子計算應用程序中訓練和開發(fā)AI,也為相關領域的愛好者開發(fā)量子人工智能的應用提供了強有力的支撐。

百度「開源」家族

在技術領域,一枝獨秀不是春,沒有對外開源,很多技術和產品不會拓展如此之快。還是高速公路的例子,在別人為你搭建好的公路上馳騁,相當于站在巨人的肩膀上做創(chuàng)新,不僅加速了自我產品迭代,更有助于AI技術生態(tài)的構建。

信奉技術的巨頭都甚至「開源」的重要性,百度更是如此。

從2009年大規(guī)模定制Hadoop到2013年率先開源ECharts,百度的開源之路從未停止。

2017年,對百度而言是開源的突破之年,從深度學習平臺飛槳 PaddlePaddle,到Apollo自動駕駛,百度落實了多項重大開源技術,也將AI開源提升到前所未有的戰(zhàn)略高度。

2016年開源飛槳后,次年百度發(fā)布全球首個自動駕駛Apollo自動駕駛開放平臺。

截至目前,百度Apollo平臺已經匯聚了全球177家生態(tài)合作伙伴。在全球,有97個國家超過3.6萬名開發(fā)者使用Apollo開源代碼,開源代碼數量超過56萬,Apollo自動駕駛平臺已成為全球最強大、最開放、最活躍的自動駕駛平臺。

除了飛槳和Apollo,疫情期間從紅到白、可視化的疫情地圖背后還有早已開源的ECharts身影。

作為當前最流行、最強大的可視化庫之一,ECharts提供了直觀、生動、可交互、可個性化定制的數據可視化圖表,包括常規(guī)的折線圖、柱狀圖、散點圖、餅圖、K線圖,用于統(tǒng)計的盒形圖,用于地理數據可視化的地圖、熱力圖、線圖,用于關系數據可視化的關系圖、treemap、旭日圖,多維數據可視化的平行坐標,還有用于BI的漏斗圖,儀表盤。

ECharts創(chuàng)新的拖拽重計算、數據視圖、值域漫游等特性大大增強了用戶體驗,賦予了用戶對數據進行挖掘、整合的能力。

通過ECharts的數據可視化圖表可以直觀、生動的展現數據

目前,Apache ECharts (incubating) 在Github中的star數已經超過41.4k,每周npm下載量超過22萬。

除了自身開源,百度還參與了國內外頂級開源基金會和組織,成為了 Apache基金會、Linux基金會以及云原生計算基金會的金牌會員,其旗下Echarts、Doris、Brpc等多個項目已經成為Apache基金會孵化項目,Baetyl、IME、EDL 等項目也捐贈給了Linux基金會進行孵化。

2019年,百度戰(zhàn)略投資了開源中國,作為中國最大的開源技術社區(qū),開源中國旗下運營的Gitee代碼托管平臺是全球僅次于GitHub的代碼托管平臺,每日約增加5000名開發(fā)者、200家企業(yè)客戶、1.7萬代碼倉庫,已經具備了在國際市場與GitHub全面抗衡的基礎。

諾貝爾獎得主理查德費曼曾說過,what you can not create, you can not understand,不會創(chuàng)造出來就不理解。

深度學習框架也一樣,只會使用,不會研發(fā),就不會理解。不理解,不僅僅是能不能研發(fā)出來深度學習框架的問題,也意味著不能在算法上領先,不能在芯片上領先,最終會導致在應用層面也不能領先,結局只能是全面的落后。

實際上,包括百度在內,騰訊、阿里、華為等科技巨頭紛紛將AI框架開源的道理也在此。開源,某種程度上能有效減少閉源壟斷市場的局面出現,同時,還能在根本上解決「卡脖子」的窘迫。

開源深度學習框架意味著,在語音識別、自然語言理解、計算機視覺、廣告等很多地方可以應用,同時,例如百度這樣的領航者也提供了深度學習算法之外,海量數據收集和工程系統(tǒng)架構的搭建,為AI開發(fā)者提供了一站式服務。

總的來說,開源對于中國本土的AI開發(fā)者和公司來說,有能力理解并基于一個與國際同步的深度學習框架開發(fā)AI技術、應用,這將大大降低深度學習在各個行業(yè)中的應用難度。

正如李彥宏在2020百度世界大會上提到,推動人工智能扎實滲透,行業(yè)要充分利用開源、開放平臺,它在人工智能發(fā)展當中的作用會越來越受到重視。

免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。

極客網企業(yè)會員

免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。

2020-09-30
百度AI「開源」:止近渴,解遠慮
2020年3月,注定是中國AI開發(fā)者不會遺忘的一個月。3月20日,清華大學計算機系圖形實驗室開源AI框架計圖(Jittor)...

長按掃碼 閱讀全文