Facebook和Netflix都為之著迷的實(shí)時(shí)機(jī)器學(xué)習(xí)算法,到底是怎么工作的?

原標(biāo)題:Facebook和Netflix都為之著迷的實(shí)時(shí)機(jī)器學(xué)習(xí)算法,到底是怎么

最近,F(xiàn)acebook宣布開(kāi)發(fā)出了一種新的算法Spiral,可以為網(wǎng)站上的數(shù)十億用戶提供實(shí)時(shí)調(diào)節(jié)的服務(wù)。能夠在短短幾分鐘內(nèi)預(yù)測(cè)并將新結(jié)果輸出給用戶,而不是依靠好幾周的數(shù)據(jù)來(lái)優(yōu)化和更新服務(wù)。

舉個(gè)例子,如果一個(gè)用戶突發(fā)奇想,想要知道“我的哪些朋友贊過(guò)此貼”,傳統(tǒng)算法的解決方案是,創(chuàng)建一個(gè)龐大而持續(xù)的長(zhǎng)時(shí)間記錄,精心觀察和記錄每個(gè)相關(guān)用戶行為對(duì)結(jié)果的影響。

但Spiral只需要幾分鐘就能收集反饋,自動(dòng)學(xué)習(xí)并立即獲得精準(zhǔn)推斷。

聽(tīng)起來(lái)是不是很神奇?

最近,這種能夠隨數(shù)據(jù)獲取實(shí)時(shí)調(diào)整模型的實(shí)時(shí)機(jī)器學(xué)習(xí),正在成為媒體技術(shù)領(lǐng)域的新“網(wǎng)紅”。曾經(jīng)連續(xù)兩年,都被FTI評(píng)為傳媒業(yè)的重要技術(shù)趨勢(shì)之一,與自然語(yǔ)言理解NLU、機(jī)器閱讀理解MRC、音視頻算法等共享金字塔頂端的榮光。

實(shí)時(shí)機(jī)器學(xué)習(xí)技術(shù)的深入應(yīng)用,將解鎖很多超乎想象的媒體功能和應(yīng)用場(chǎng)景。但是,盡管學(xué)界已經(jīng)在算法上提出了幾種理想的架構(gòu),但產(chǎn)業(yè)端卻未迎來(lái)蓬勃的質(zhì)變。這究竟是為什么?

什么是實(shí)時(shí)機(jī)器學(xué)習(xí)

在開(kāi)啟扒皮模式之前,我們先來(lái)了解一下,實(shí)時(shí)機(jī)器學(xué)習(xí)究竟在哪些地方比傳統(tǒng)的機(jī)器學(xué)習(xí)更強(qiáng)?

傳統(tǒng)的機(jī)器學(xué)習(xí)(ML)正在媒體領(lǐng)域得到越來(lái)越多的應(yīng)用,利用算法實(shí)現(xiàn)內(nèi)容的“個(gè)性化推薦”,已經(jīng)成為主流媒體的標(biāo)配。

但過(guò)去的算法,主要側(cè)重于使用靜態(tài)模型和歷史數(shù)據(jù)進(jìn)行訓(xùn)練并提供預(yù)測(cè)。比如用戶在瀏覽網(wǎng)站時(shí),可以根據(jù)用戶歷史行為數(shù)據(jù)來(lái)推送新聞。

而一些新的涉及動(dòng)態(tài)實(shí)施決策的業(yè)務(wù),比如具備時(shí)效性的熱點(diǎn)新聞,或是用戶想要看點(diǎn)新東西,這就需要用一種新的算法來(lái)實(shí)現(xiàn),即實(shí)時(shí)機(jī)器學(xué)習(xí)Real-Time Machine Learning。

以頭條的核心技術(shù)“個(gè)性化推薦算法”為例,其核心原理就是根據(jù)用戶對(duì)文章的歷史行為數(shù)據(jù)反饋,進(jìn)行統(tǒng)計(jì)挖掘和判斷。

比如具有相同偏好的三個(gè)用戶,分別選擇了自己喜歡的文章,得到最高票數(shù)的文章就會(huì)被推薦給被系統(tǒng)打上同一屬性標(biāo)簽的第四個(gè)人……以此類推。

不難發(fā)現(xiàn),傳統(tǒng)機(jī)器學(xué)習(xí)算法的成功,依賴于對(duì)用戶的“知根知底”,需要用戶不斷開(kāi)放自己的私人領(lǐng)地。

而實(shí)時(shí)機(jī)器學(xué)習(xí),更擅長(zhǎng)對(duì)用戶的當(dāng)下需求體察入微,讓用戶在保持隱私安全感的同時(shí),獲得如沐春風(fēng)的瀏覽體驗(yàn)。

顯然,實(shí)時(shí)機(jī)器學(xué)習(xí)算法將主導(dǎo)一個(gè)令人期待的新世界,也有越來(lái)越多的媒體在為此做著準(zhǔn)備。

帶來(lái)的新挑戰(zhàn)

實(shí)時(shí)機(jī)器學(xué)習(xí)雖然很美好,但要讓機(jī)器在數(shù)據(jù)獲取過(guò)程中實(shí)時(shí)調(diào)整模型,也帶來(lái)了不同維度的技術(shù)挑戰(zhàn),讓工程師們?yōu)橹d頭:

1. 高吞吐量與低延遲的平衡。

媒體平臺(tái)的海量用戶需求,決定了實(shí)時(shí)機(jī)器學(xué)習(xí)要在每秒處理數(shù)百萬(wàn)任務(wù)量級(jí)。以這樣的速度進(jìn)行大規(guī)模的信息分發(fā),需要細(xì)致到毫秒級(jí)的任務(wù)執(zhí)行能力。

2. 動(dòng)態(tài)異構(gòu)任務(wù)模塊的高效喚醒。

對(duì)于Facebook這樣體量龐大的平臺(tái)來(lái)說(shuō),其服務(wù)是由成千上萬(wàn)個(gè)不同模塊構(gòu)建而成的,流量調(diào)節(jié)、圖像轉(zhuǎn)碼、存儲(chǔ)編碼等等。在實(shí)時(shí)任務(wù)中,會(huì)伴隨生成很多不同資源支持的新任務(wù),增加系統(tǒng)的響應(yīng)和處理難度。

如何對(duì)這些重要且不一樣的特性進(jìn)行預(yù)測(cè),十分具有挑戰(zhàn)性。

3. 實(shí)時(shí)算法與業(yè)務(wù)場(chǎng)景的融合。

實(shí)時(shí)響應(yīng)和預(yù)測(cè),意味著留給系統(tǒng)的容錯(cuò)空間更小。要保障這一技術(shù)在實(shí)際應(yīng)用場(chǎng)景中的穩(wěn)定性,就要在完成高吞吐量任務(wù)的同時(shí),能夠快速模擬真實(shí)世界的交互,然后精準(zhǔn)地判斷出,哪些是結(jié)果的決定性因素,從而做出正確的響應(yīng)。

舉個(gè)例子,如果想給用戶推薦“哪些朋友贊過(guò)此貼”,實(shí)時(shí)算法會(huì)快速判斷出“最近一次查看”這一數(shù)據(jù)集對(duì)完成該任務(wù)毫無(wú)意義,然后快速修改關(guān)聯(lián)并重新學(xué)習(xí)。這種自適應(yīng)調(diào)整,可以有效防止用戶收到的結(jié)果中出現(xiàn)明顯的錯(cuò)誤點(diǎn)。

以上這些問(wèn)題,似乎說(shuō)明媒體們挑戰(zhàn)實(shí)時(shí)機(jī)器學(xué)習(xí)的難度還是蠻大的。那么,有必要做這么吃力不討好的事嗎?

進(jìn)擊的媒體:實(shí)時(shí)機(jī)器學(xué)習(xí)的N種可能

盡管在剛剛問(wèn)世時(shí),基于靜態(tài)模型的機(jī)器學(xué)習(xí)算法,展現(xiàn)出了很高的分發(fā)效率優(yōu)勢(shì),目前看來(lái),也仍舊能夠滿足大部分用戶的需求。但在某些場(chǎng)景下,還是會(huì)有鞭長(zhǎng)莫及的地方:

首先,是高質(zhì)量流媒體體驗(yàn)帶來(lái)的技術(shù)要求。目前主流內(nèi)容平臺(tái)都在向音視頻業(yè)務(wù)推進(jìn),面對(duì)多元化內(nèi)容和行為數(shù)據(jù)的及時(shí)分發(fā),高延遲的解決方案就變得不太理想了。

另外,傳統(tǒng)的機(jī)器學(xué)習(xí)算法,往往會(huì)為用戶打上各種各樣的偏好標(biāo)簽,難以對(duì)即時(shí)或潛在的信息需求及時(shí)洞察與響應(yīng)。這就會(huì)使用戶在“貼心”之余幸福地進(jìn)入信息繭房,習(xí)慣性地被既有興趣所引導(dǎo),失去了探索未知的動(dòng)力和可能性。

更為重要的是,靜態(tài)模型對(duì)歷史數(shù)據(jù)的規(guī)?;幚?,只是一種理想狀態(tài)的假設(shè)。由于技術(shù)能力和隱私授權(quán)等重重限制,實(shí)現(xiàn)“全樣本”的數(shù)據(jù)分析幾乎不可能,結(jié)果就是其統(tǒng)計(jì)結(jié)果往往“以偏概全”。

因此,作為一種更加高效的解決方案,實(shí)時(shí)機(jī)器學(xué)習(xí)自然成為了接下來(lái)媒體平臺(tái)提升用戶體驗(yàn)的主戰(zhàn)場(chǎng)。

其中,又分為了三個(gè)主要議題:

1. 常規(guī)信息流與突發(fā)新聞實(shí)時(shí)推送的相互補(bǔ)充。目前,常規(guī)信息流依然在主流媒體的內(nèi)容呈現(xiàn)中占據(jù)主要位置。而借由實(shí)時(shí)機(jī)器學(xué)習(xí),可以將用戶偏好與突發(fā)的熱點(diǎn)事件相結(jié)合,方便讀者及時(shí)了解其他事件;

2. 對(duì)歷史緩存機(jī)制的合理規(guī)避。為了應(yīng)對(duì)用戶的查詢和需求,傳統(tǒng)的機(jī)器學(xué)習(xí)系統(tǒng)需要進(jìn)行大量的數(shù)據(jù)庫(kù)更新。實(shí)際上,只有很小一部分?jǐn)?shù)據(jù)才是真正影響輸出結(jié)果的,這無(wú)疑增加了很多不必要的工作量。通過(guò)更高效的算法來(lái)降低資源存儲(chǔ)和管理成本,自然吸引了媒體們用腳投票;

3. 主動(dòng)挑戰(zhàn)意外和偏見(jiàn)。媒體的本質(zhì)是建立一個(gè)匯集各種不同觀點(diǎn)的公共平臺(tái),而個(gè)性化算法總會(huì)讓人們停留在認(rèn)知的舒適區(qū)。未來(lái)的新聞服務(wù),如果想要挑戰(zhàn)讀者的偏見(jiàn),又不愿激怒用戶,就需要運(yùn)用實(shí)時(shí)算法來(lái)小心試探。未來(lái),商業(yè)服務(wù)與新聞意志之間的矛盾,可能會(huì)被新的算法所消融,這種結(jié)果無(wú)疑會(huì)讓媒體的生存環(huán)境變得更好。

總體來(lái)說(shuō),實(shí)時(shí)機(jī)器學(xué)習(xí)雖然還是個(gè)新生事物,已經(jīng)吸引了眾多媒體巨頭們?yōu)樗萌算俱?,不僅因?yàn)樗却饲暗乃惴ㄓ兄偷某杀九c更好的療效,更因?yàn)樗砹艘环N媒體與AI融合更光明的前景:讓技術(shù)的革新為人類創(chuàng)造更多的可能性,而不是相反。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

2018-11-15
Facebook和Netflix都為之著迷的實(shí)時(shí)機(jī)器學(xué)習(xí)算法,到底是怎么工作的?
帶來(lái)的新挑戰(zhàn) 實(shí)時(shí)機(jī)器學(xué)習(xí)雖然很美好,但要讓機(jī)器在數(shù)據(jù)獲取過(guò)程中實(shí)時(shí)調(diào)整模型,也帶來(lái)了不同維度的技術(shù)挑戰(zhàn),讓工程師們?yōu)橹d頭: 1. 高吞吐量與低延遲的平衡。

長(zhǎng)按掃碼 閱讀全文