瀚思科技:FaaS + AI + 統(tǒng)一計(jì)算模型

——Flink Forward Europe 2019 會(huì)議之行回顧

Flink Forward Europe 2019 于柏林時(shí)間 2019 年10月7日至9日在德國(guó)柏林如期舉行。很榮幸能夠在時(shí)隔兩年之后和同事王唯一起以演講者的身份再次參加 Flink Forward 大會(huì)。今年的大會(huì)是 Flink Forward 有史以來參會(huì)人數(shù)最多,演講議題最豐富的一屆。也拿到了來自Google Cloud、AWS、Alicloud、Cloudera等贊助商的金牌贊助。有趣的是,和往屆不同,所有金牌贊助商都在大堂擁有了自己的展臺(tái)。

瀚思科技:FaaS + AI + 統(tǒng)一計(jì)算模型

本屆的 Keynotes 眾星云集,有來自Ververica、Google、AWS、Cloudera等的重要分享。10 月 8 日上午的 Ververica CTO Stephan Ewen 帶了本屆會(huì)議最重要的 Keynote 之一:Stream Processing and Applications in the Modern Age。其中他提到了 Stateful Functions 的概念——一個(gè)可降低大規(guī)模構(gòu)建和協(xié)調(diào)分布式有狀態(tài)應(yīng)用程序復(fù)雜性的開源框架。它將 Apache Flink 流處理的優(yōu)點(diǎn)和功能即服務(wù)(FaaS)結(jié)合在一起,為下一代事件驅(qū)動(dòng)的編程模式提供了強(qiáng)大的抽象。

瀚思科技:FaaS + AI + 統(tǒng)一計(jì)算模型

上圖中左側(cè)為事件的流入和流出,中間部分是多個(gè) Stateful Function 負(fù)責(zé)對(duì)事件進(jìn)行傳遞,右側(cè)部分是對(duì)狀態(tài)的 snapshot,以實(shí)現(xiàn)分布式有狀態(tài)部署。

AWS 展示了其從 2013 年開始實(shí)現(xiàn) fully managed streaming service,到2016 年支持 Flink 應(yīng)用,再到 2018 年推出 Kinesis Data Analytics 平臺(tái)。其中提到 Flink 是在 AWS 上發(fā)展最快的 stream processing 技術(shù)。整個(gè)分享以AWS 用戶的角度出發(fā),深刻分析了 AWS 用戶的需求特點(diǎn),將這些用戶分為了“一般用戶”(約 50% 的用戶,初次接觸流式計(jì)算),“大型用戶”(在 AWS 運(yùn)行數(shù)十個(gè)流計(jì)算應(yīng)用,每天處理百億級(jí)數(shù)據(jù)量),以及平臺(tái)用戶(在 AWS 運(yùn)行數(shù)百個(gè)流計(jì)算應(yīng)用,每天處理萬億級(jí)數(shù)據(jù)量)。不得不承認(rèn),需求促進(jìn)了科技進(jìn)步,而科學(xué)技術(shù)又是第一生產(chǎn)力。

瀚思科技:FaaS + AI + 統(tǒng)一計(jì)算模型

隨后 Google 也在 Keynote 中分享了從 2004 年以來對(duì) stream processing 的經(jīng)驗(yàn)總結(jié)。從訂制的流式處理應(yīng)用 windmill 到 trailing edge watermark 到 Hand tuning load variance , 再到對(duì)搜索關(guān)鍵詞這樣高 cardinality 數(shù)據(jù)的 auto scaling ,最后到如何將狀態(tài)存儲(chǔ)和實(shí)時(shí)計(jì)算分離以提高可擴(kuò)展性。整個(gè)分享下來,讓人不禁佩服 Google 的方法論和工程能力。

瀚思科技:FaaS + AI + 統(tǒng)一計(jì)算模型

8號(hào),9號(hào)兩天下午的分會(huì)場(chǎng),我們也看到了來自世界各地不同團(tuán)隊(duì)帶來的精彩分享。其中不乏有對(duì)Flink底層技術(shù)的深度探討;對(duì)應(yīng)用場(chǎng)景的巧妙探索;對(duì)平臺(tái)整合能力的實(shí)踐;以及Flink對(duì)AI算法支持的努力。

瀚思自從兩年前遷移到 Flink 平臺(tái)以來,把安全分析流水線上需要的各種分析模式,包括離線分析、實(shí)時(shí)流分析、機(jī)器學(xué)習(xí),逐步統(tǒng)一到一套描述語言和執(zhí)行平臺(tái)上。本屆我們帶來的議題是其中的機(jī)器學(xué)習(xí)環(huán)節(jié),分享如何利用Flink SQL來構(gòu)建整套的自動(dòng)化機(jī)器學(xué)習(xí)流程。我們主要從安全分析的特殊需求著手,探討了為何需要機(jī)器學(xué)習(xí)算法;在客戶場(chǎng)景中我們遇到過什么問題;在實(shí)時(shí)計(jì)算流程中加入機(jī)器學(xué)習(xí)算法有什么挑戰(zhàn);如何利用Flink SQL構(gòu)建機(jī)器學(xué)習(xí)流程;最后如何將所有步驟進(jìn)行自動(dòng)部署。關(guān)于以上議題的技術(shù)實(shí)現(xiàn)會(huì)在下期進(jìn)行詳細(xì)的專題分享,敬請(qǐng)期待。

本次四十分鐘分享由我和同事王唯共同完成,期間我們現(xiàn)場(chǎng)演示了自動(dòng)化機(jī)器學(xué)習(xí)編排系統(tǒng),得到了聽眾的一致贊賞。答疑和階段,有聽眾提出了關(guān)于如何動(dòng)態(tài)驗(yàn)證,更新模型,如何自動(dòng)化學(xué)習(xí)模型準(zhǔn)確度,是否支持第三方模型導(dǎo)入等問題。很顯然,高自動(dòng)化程度的機(jī)器學(xué)習(xí)系統(tǒng)是未來幾年的趨勢(shì),各家都在朝著這個(gè)方向努力。如何在海量數(shù)據(jù)中快速提取有效信息,更好的服務(wù)客戶,為公司帶來更大的收益,成為了大數(shù)據(jù)公司快速發(fā)展的必備技能。

瀚思科技:FaaS + AI + 統(tǒng)一計(jì)算模型

無獨(dú)有偶,阿里的實(shí)時(shí)計(jì)算團(tuán)隊(duì)也探討了如何在 Flink 上構(gòu)建一整套的 AI生態(tài)。其核心出發(fā)點(diǎn)在于如何降低機(jī)器學(xué)習(xí),深度學(xué)習(xí)在工業(yè)層面上的實(shí)現(xiàn)成本。傳統(tǒng)情況下,一個(gè)完整的深度學(xué)習(xí)流程主要包括四大步驟:數(shù)據(jù)接入 -> 數(shù)據(jù)變換 -> 模型訓(xùn)練 -> 模型上線服務(wù)。而這往往需要軟件工程師的工程能力,數(shù)據(jù)科學(xué)家的算法能力,以及對(duì)不同系統(tǒng)的運(yùn)維能力。很顯然,即使是實(shí)現(xiàn)一個(gè)簡(jiǎn)單的深度學(xué)習(xí)流程,都需要多方的協(xié)作,故而難以擴(kuò)展。所以從這個(gè)角度出發(fā),阿里的 Flink 團(tuán)隊(duì)提出了大膽的設(shè)想:能否將所有步驟都放在 Flink 上運(yùn)行?為了回答這個(gè)問題,他們正在做多方面的努力,包括:將分布式的 TensorFlow 程序運(yùn)行于 Flink的 Job 之上,由 Flink 的 TaskManager 來管理資源分配;通過梯度計(jì)算對(duì)算法模型進(jìn)行驗(yàn)證,動(dòng)態(tài)更新;對(duì) Python 算法庫的更好的支持。最終的成果都會(huì)貢獻(xiàn)給社區(qū)。

縱觀本屆的主要議題,可以看到核心痛點(diǎn)集中在如何降低流式應(yīng)用的開發(fā)維護(hù)成本,尤其是如何將流式計(jì)算與 AI 算法相結(jié)合來滿足日益增長(zhǎng)的業(yè)務(wù)需求。為了這個(gè)共同的目標(biāo),整個(gè) Apache Flink 團(tuán)隊(duì)在過去半年的時(shí)間里修復(fù)了 2000 個(gè)左右的 PR ,為我們帶來了具有質(zhì)的飛躍的 Flink 1.9.1。Stephen 也很幽默的在其演講稿中貼上了 Flink 吉祥物的兩張貼圖以作對(duì)比:

瀚思科技:FaaS + AI + 統(tǒng)一計(jì)算模型

最后,再次祝賀本次Flink Forward Europe 大會(huì)圓滿成功,同時(shí)期待今年11月份在北京舉行的 Flink Forward Asia 。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

2019-11-12
瀚思科技:FaaS + AI + 統(tǒng)一計(jì)算模型
——Flink Forward Europe 2019 會(huì)議之行回顧Flink Forward Europe 2019 于柏林時(shí)間 20

長(zhǎng)按掃碼 閱讀全文