從0到1打造AI應用模型,華為云EI ModelArts實戰(zhàn)全記錄

現(xiàn)如今 AI 技術、概念火爆、落地應用更是繁多,但開發(fā)呢?是否困難?到底有多痛?

據(jù)了解,大部分 AI 開發(fā)者的工作時間并不長,并且十有八九可能不是“科班出身”。從編寫的教材、錄制的課程中就可以看出,所有的教學都不可避免地帶有很強的的學術性,即便有意避免研究導向,仍然離產(chǎn)業(yè)界的需求相去甚遠。

并且隨著新一波人工智能的熱潮,人們發(fā)現(xiàn)手里的數(shù)據(jù)多了,電腦運算的更快了,但實際上,這些 AI 開發(fā)者使用的工具并不順手。

為幫助開發(fā)者更深入地了解 AI 開發(fā),快速上手 AI 開發(fā)必備技能,12 月 20 日的AIcon活動上,華為云舉辦了一場以「基于 ModelArts 平臺的 AI 開發(fā)實戰(zhàn)」為主題的現(xiàn)場挑戰(zhàn) Workshop!現(xiàn)場由來自華為云EI深度學習服務團隊負責人為開發(fā)者講解了 ModelArts 的 相關技術與應用,幫助開發(fā)者學習如何從 0 到 1 打造一款 AI 應用模型。

ModelArts——更快的普惠 AI 開發(fā)平臺

ModelArts 是面向 AI 開發(fā)者的一站式開發(fā)平臺,提供海量數(shù)據(jù)預處理及半自動化標注、大規(guī)模分布式訓練、自動化模型生成,以及端-邊-云模型按需部署能力,幫助用戶快速創(chuàng)建和部署模型,管理全周期 AI 工作流。

同時,ModelArts 能夠在 AI 開發(fā)全生命周期中,從原始數(shù)據(jù)、標注數(shù)據(jù)、訓練作業(yè)、算法、模型、推理服務等,提供全流程可視化管理。支持千萬級模型、數(shù)據(jù)集以及服務等對象的管理,無需人工干預,自動生成溯源圖,選擇任一模型就可以找到對應的數(shù)據(jù)集、參數(shù)、模型部署在哪里。其中最實用的訓練斷點接續(xù)功能、訓練結果比對功能,在華為內(nèi)部開發(fā)者中也頗受歡迎。

簡單來說,ModelArts 的特點是“四快”:

數(shù)據(jù)管理快——讓數(shù)據(jù)準備效率百倍提升

想象一下,如果你的老板給了你 10 萬張無標簽的圖片,并要求你為這些數(shù)據(jù)打上標簽。你該怎么辦呢?

許多公司都在數(shù)據(jù)的大海里遨游,不論是交易數(shù)據(jù)、物聯(lián)網(wǎng)傳感器產(chǎn)生的海量數(shù)據(jù)、安全日志,還是圖像、語音數(shù)據(jù)等等,這些都是未標注的數(shù)據(jù)。

正如華為云EI深度學習服務團隊負責人所說,“當前做 AI 開發(fā),最讓開發(fā)者頭疼的就是數(shù)據(jù)的采集和數(shù)據(jù)的處理。曾有開發(fā)者吐槽,光是數(shù)據(jù)準備就要占掉整體開發(fā)時間的 70%。”那么,為什么數(shù)據(jù)的處理這么難?效率為什么這么低呢?

人工智能界有一個說法:“有多少人工就有多少智能。”因為目前實現(xiàn)人工智能的主要方法是機器學習(目前火熱的深度學習也是機器學習的一部分),而機器學習中目前大部分應用都是有監(jiān)督的學習,即需要大量的標注樣本去訓練人工智能算法模型。

例如圖像識別任務中,必須有大量已經(jīng)標注好的圖片,比如一張貓的圖片,狗的圖片等,你必須明確的告訴 AI 算法,這些圖片里面是什么東西,它再從中去學習出相應的“知識”。

所以,AI 并不像傳統(tǒng)想象的那樣,丟一堆數(shù)據(jù)給 AI 算法,AI 算法就能夠從中學習到各種有用的知識。而是背后有大量的人工在標注數(shù)據(jù)。

而 ModelArts 在數(shù)據(jù)管理方面,會將數(shù)據(jù)進行預處理,用 AI 的數(shù)據(jù)去標注數(shù)據(jù),即自動化標注和半自動化標注。ModelArts 可對數(shù)據(jù)采樣和篩選,預標注,縮減需要標記的數(shù)據(jù)量,降低工作量。目前, ModelArts 已經(jīng)在自動駕駛領域有非常多的應用,包括人車模型、信號燈模型等等,這些模型在自動駕駛的場景里面,可以快速地提升數(shù)據(jù)處理的效率,實時地處理數(shù)據(jù)。在未來,ModelArts 也將面向通用計算機的其他領域。

訓練快——模型訓練耗時減低一半

在模型訓練部分,ModelArts 通過硬件、軟件和算法協(xié)同優(yōu)化來實現(xiàn)訓練加速。尤其在深度學習模型訓練方面,華為將分布式加速層抽象出來,形成一套通用框架——MoXing(“模型”的拼音,意味著一切優(yōu)化都圍繞模型展開)。

從0到1打造AI應用模型,華為云EI ModelArts實戰(zhàn)全記錄

采用與 fast.ai 一樣的硬件、模型和訓練數(shù)據(jù),ModelArts 可將訓練時長可縮短到 10 分鐘,創(chuàng)造了新的紀錄,為用戶節(jié)省 44% 的時間。

MoXing 是華為云 ModelArts 團隊自研的分布式訓練加速框架,它構建于開源的深度學習引擎 TensorFlow、MXNet、PyTorch、Keras 之上,使得這些計算引擎分布式性能更高,同時易用性更好。

MoXing 內(nèi)置了多種模型參數(shù)切分和聚合策略、分布式 SGD 優(yōu)化算法、級聯(lián)式混合并行技術、超參數(shù)自動調(diào)優(yōu)算法,并且在分布式訓練數(shù)據(jù)切分策略、數(shù)據(jù)讀取和預處理、分布式通信等多個方面做了優(yōu)化,結合華為云 Atlas 高性能服務器,實現(xiàn)了硬件、軟件和算法協(xié)同優(yōu)化的分布式深度學習加速。

有了MoXing后,上層開發(fā)者可以聚焦業(yè)務模型,無需關注下層分布式相關的 API,只用根據(jù)實際業(yè)務定義輸入數(shù)據(jù)、模型以及相應的優(yōu)化器即可,訓練腳本與運行環(huán)境(單機或者分布式)無關,上層業(yè)務代碼和分布式訓練引擎可以做到完全解耦。

另外,衡量分布式深度學習框架加速性能時,主要看吞吐量和收斂時間。在與吞吐量和收斂時間相關的幾個關鍵指標上,華為云 ModelArts 都做了精心處理:

在數(shù)據(jù)讀取和預處理方面,MoXing 通過利用多級并發(fā)輸入流水線使得數(shù)據(jù) IO 不會成為瓶頸;

在模型計算方面,MoXing 對上層模型提供半精度和單精度組成的混合精度計算,通過自適應的尺度縮放減小由于精度計算帶來的損失;

在超參調(diào)優(yōu)方面,采用動態(tài)超參策略(如 momentum、batch size 等)使得模型收斂所需 epoch 個數(shù)降到最低;

在底層優(yōu)化方面,MoXing 與底層華為自研服務器和通信計算庫相結合,使得分布式加速進一步提升

那么,在 MoXing 一系列的優(yōu)化之后,實際效果如何?以國際權威成績來參考:

在斯坦福大學發(fā)布 DAWNBenchmark 最新成績中,在圖像識別(ResNet50-on-ImageNet,93% 以上精度)的總訓練時間上,華為云 ModelArts 排名第一,僅需 10 分 28 秒,比第二名提升近 40%。

在這個匯聚谷歌、亞馬遜 AWS、fast.ai 等高水平隊伍的國際權威深度學習模型基準平臺上,華為云 ModelArts 第一次參加國際排名,便實現(xiàn)了低成本、快速又極致的 AI 開發(fā)體驗,其海量數(shù)據(jù)預處理及半自動化標注、大規(guī)模分布式訓練、自動化模型生成以及端 - 邊 - 云模型按需部署能力,更是體現(xiàn)了當前中國業(yè)界深度學習平臺技術的領先性。

上線快——一鍵部署到云、端、邊,支持各種上線場景

現(xiàn)如今,縱觀整個 AI 產(chǎn)業(yè),不僅僅是云,還會有邊和端都需要部署的場景。然而,在 AI 規(guī)模化落地的場景下,模型部署會非常復雜,需要寫代碼集成到應用系統(tǒng),維護、更新。例如在智慧交通領域,更新后的模型,需要一次性同時部署到各種不同規(guī)格、不同廠商的攝像頭上,這是一項非常耗時、費力的巨大工程。

對于此類場景,ModelArts 可以一鍵推送模型到所有邊緣、端的設備上,云上的部署還支持在線和批量推理,滿足大并發(fā)和分布式等多種場景需求。

開發(fā)者可以在 ModelArts 上獲得一些高并發(fā)、自動彈性伸縮的特性。能夠根據(jù)用戶制定的策略,自動調(diào)整云服務器的計算資源,跟隨用戶的業(yè)務需求變化。在業(yè)務需求下降時自動減少云服務器,節(jié)約資源和成本;在業(yè)務需求高峰時自動增加云服務器,保證業(yè)務平穩(wěn)健康運行。

上手快——自動學習,零 AI 基礎構建模型

ModelArts 具備自動學習功能,支持模型的自動設計與自動調(diào)參等,能夠幫助開發(fā)者提升開發(fā)效率、快速上手。

為什么需要自動學習?

AI 開發(fā)有兩大類,第一類為 AI 認知服務,比如圖像識別和 OCR 等,這一類門檻很低,但靈活性差,只支持特定類型。當不滿足需求時,只能定制一個模型,周期非常長費用也比較高。第二類就是找 AI 的算法工程師、算法專家,去做自己的模型;還有一類就是那些直接用 AI 的框架自己寫代碼以及自己訓練數(shù)據(jù),這一類的門檻較高,靈活度也很高。而自動學習就是希望能夠打破這兩者,既有一定的定制化的能力,又能夠降低 AI 定制化模型的門檻,不需要寫代碼,用戶可以定制化自己的模型的特點。

在自動深度學習里面,關鍵的技術是能夠做到多維度下的模型的架構自動設計,包含模型的元學習,涉及一些訓練指標,還有推動網(wǎng)絡涉及的推理速度和監(jiān)控等。另外還包括一些元學習的訓練參數(shù)的自動配置、模型訓練的參數(shù)配置及搜索等。

另外,由于深度學習向計算機視覺輸入原始數(shù)據(jù),整個特征工程是在神經(jīng)網(wǎng)絡里面做的,而機器學習需要很多算法工程師去識別哪些特征是對業(yè)務是起正向作用的,所以自動機器學習的關鍵技術,就是高效自動特征工程和自動調(diào)參。

除此之外,據(jù)華為云EI深度學習服務團隊負責人介紹,華為云 ModelArts 還有一個特色,就是面向應用開發(fā)者。對于有經(jīng)驗的開發(fā)者,可以在 ModelArts 上自行編寫并導入算法代碼,核心組件 MoXing SDK 支持豐富的模型庫、優(yōu)化算法和各類工具庫;支持自動超參數(shù)調(diào)優(yōu);包含訓練 - 驗證 - 預測 - 模型導出的整套框架;開發(fā)者只需要編寫一套代碼就能自動實現(xiàn)單機及分布式化。

對于編程苦手卻想快速生成模型的 AI 初學者,ModelArts 也預置了能夠覆蓋大部分常用應用場景的算法模型(如 RestNet_50、Faster_RCNN、SegNet_VGG_16 等,未來還將上線更多算法模型),所有預置模型的基于開源數(shù)據(jù)集訓練,模型精度領先。只需配置數(shù)據(jù)路徑 / 日志輸出路徑和 Hyper Parameter 自動選擇設置就可以一鍵啟動訓練。

ModelArts 應用實例:金融票據(jù) OCR 識別

金融票據(jù),包括銀行承兌票據(jù)和商業(yè)承兌票據(jù),目前銀行承兌票據(jù)占了 90% 以上的票據(jù)市場份額,金融票據(jù) OCR 識別工作重點在于銀行票據(jù)的識別。

對于業(yè)界普通 OCR 軟件,在金融票據(jù)領域識別準確率不高,對于現(xiàn)有一些針對金融票據(jù)做過優(yōu)化的 OCR,識別準確率也算達到 90%。由于金融票據(jù)金額不低,對于 OCR 識別要求很高,而金融票據(jù)難點在于票據(jù)格式多樣且差別細微等。

另外,票據(jù)模型開發(fā)訓練難點包括數(shù)據(jù)標注、模型訓練、調(diào)參和部署上都有較多難點,對于 AI 開發(fā)水平要求很高,需要非常資深的 AI 專家進行繁瑣和長時間對于票據(jù) AI 進行不斷訓練。

通過 ModelArts 助力金融票據(jù) OCR 識別的實戰(zhàn)。多位 ATN 社區(qū)使用者使用后認為:ModelArts 適合 AI 的初學者,通過數(shù)據(jù)集的分類,可自動學習,無需調(diào)參等操作;適用于遷移學習;線上部署便利,逐步集成更多的數(shù)據(jù)標注工具,擴大應用范圍。

后續(xù),華為云 ModelArts 將進一步整合軟硬一體化的優(yōu)勢,提供從芯片(Ascend)、服務器(Atlas Server)、計算通信庫(CANN)到深度學習引擎(MindSpore)和分布式優(yōu)化框架(MoXing)全棧優(yōu)化的深度學習訓練平臺。

華為云 ModelArts 會逐步集成更多的數(shù)據(jù)標注工具,擴大應用范圍,將繼續(xù)服務于智慧城市、智能制造、自動駕駛及其它新興業(yè)務場景,在公有云上為用戶提供更普惠的 AI 服務。

免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

2019-01-03
從0到1打造AI應用模型,華為云EI ModelArts實戰(zhàn)全記錄
現(xiàn)如今 AI 技術、概念火爆、落地應用更是繁多,但開發(fā)呢?是否困難?到底有多痛?據(jù)了解,大部分 AI 開發(fā)者的工作時間并不長,并且十有八九可能不是“

長按掃碼 閱讀全文