火山引擎是如何用A/B測試承載其數(shù)據(jù)驅(qū)動理念的?

導語:

字節(jié)跳動在to B領(lǐng)域又有了新動作。

今天上午,字節(jié)跳動的to B品牌火山引擎召開發(fā)布會,首次對外亮相。算上巨量引擎和飛書,字節(jié)跳動集齊了to B的三駕馬車。

火山引擎的誕生源于客戶需求的驅(qū)動。2017年,某手機廠商找到字節(jié)跳動,希望對瀏覽器和應(yīng)用商店的算法做一些優(yōu)化,字節(jié)跳動略為遲疑地接下了這一“分外之事”,卻意外獲得了良好效果。

這次合作啟發(fā)了字節(jié)跳動:9年來,字節(jié)跳動憑借著直面用戶的理念、數(shù)據(jù)驅(qū)動的工作模式獲得了健康持續(xù)的增長,如果把這背后沉淀出的技術(shù)能力對外輸出,能夠?qū)π袠I(yè)產(chǎn)生巨大的價值。

2019年底,火山引擎業(yè)務(wù)團隊正式組建。但數(shù)據(jù)驅(qū)動也講了數(shù)年,如何把理念更具體、務(wù)實地傳遞出去?火山引擎落實到了一款產(chǎn)品上——A/B測試。

“很多企業(yè)講數(shù)據(jù)驅(qū)動,但真正能把理念實踐起來的企業(yè)卻很少,而A/B測試就是踐行數(shù)據(jù)驅(qū)動理念最有代表性的產(chǎn)品。”火山引擎總經(jīng)理譚待告訴「甲子光年」。

A/B測試是什么?它是如何承載火山引擎的數(shù)據(jù)驅(qū)動理念的?

科學決策,復利增長

2007年,谷歌產(chǎn)品經(jīng)理丹·西羅克向公司請假,去為當時身為參議員的奧巴馬在芝加哥舉行的總統(tǒng)競選活動助力。

為了提升捐助額,西羅克在競選網(wǎng)頁做了一個A/B測試:

1、針對競選頁面,團隊選擇了4種按鈕(下圖左)和6種media(下圖右),其中前3種media是圖片,后3種media是視頻;

火山引擎是如何用A/B測試承載其數(shù)據(jù)驅(qū)動理念的?

奧巴馬團隊競選頁面的4*6排列組合方式

2、把登錄網(wǎng)站的用戶隨機分配到這些排列不同的頁面上,通常各頁面的訪問人數(shù)相等;

3、對相關(guān)數(shù)據(jù)進行監(jiān)視,一段時間后,挑選效果好的組合保留和進一步優(yōu)化。

最終的測試結(jié)果是:LEARN MORE和那張黑白色的家庭照片的組合是最受歡迎的。這一組合為奧巴馬隊額外獲得了三百萬的支持者,增加了5700萬美元的捐款額。

火山引擎是如何用A/B測試承載其數(shù)據(jù)驅(qū)動理念的?

4種按鈕和6種media的A/B測試結(jié)果

這就是A/B測試,又被稱為小流量實驗。針對想改進的某個功能/UI/邏輯策略等,提供兩種或多種不同的備選方案,從總體用戶中抽取一小部分,隨機地將抽取出的流量分配給不同方案,最終結(jié)合一定的統(tǒng)計方法,通過實驗數(shù)據(jù)對比來確定最優(yōu)方案。

A/B測試最早起源于科研領(lǐng)域,后來,硅谷的互聯(lián)網(wǎng)公司引入了A/B實驗的思想,廣泛應(yīng)用于“業(yè)務(wù)增長”中。

谷歌每年運行超過1萬次A/B測試;

Facebook的CEO扎克伯格會親自參與眾多A/B測試的實施;

領(lǐng)英(LinkedIn)將A/B測試作為產(chǎn)品研發(fā)上線過程中的基本流程;

Booking.com通過大量試驗實現(xiàn)超過同行業(yè)2~3倍的轉(zhuǎn)化率;

亞馬遜稱自己為“A/B測試公司”,在前期推廣信用卡廣告時憑借A/B測試帶來了年化上億美元的營收增長。

為什么大批互聯(lián)網(wǎng)頭部企業(yè)都將A/B測試奉為圭臬?

首先,A/B測試使企業(yè)真正實現(xiàn)了科學決策。

很多決策往往很難依靠個人的洞察力來“拍腦袋”決定,只能依靠數(shù)據(jù)說話。微軟必應(yīng)(bing)曾經(jīng)做過一個A/B測試的優(yōu)化,僅僅對搜索結(jié)果內(nèi)容的顏色做了幾行代碼的調(diào)整,肉眼幾乎無法看出區(qū)別,但用戶點擊率大幅提高,廣告收益增加了1000多萬美元。

A/B測試給企業(yè)帶來的另一大價值是規(guī)避風險。

火山引擎A/B測試產(chǎn)品架構(gòu)師李想告訴「甲子光年」,產(chǎn)品迭代往往需要一定的間隔期,一旦方案做錯了,失去的不僅是一個方案,還有半個或一個月的時間窗口。其次,如果某個方案會對企業(yè)業(yè)務(wù)帶來負面影響,A/B測試能夠?qū)⑵?ldquo;扼殺在搖籃”。

科學決策和風險規(guī)避最終確保了企業(yè)的每個決策都能帶來正向收益,持續(xù)循環(huán)下,公司將實現(xiàn)復利式增長。

2010年起,隨著以美團、滴滴、字節(jié)跳動為代表的中國本土互聯(lián)網(wǎng)公司崛起,A/B測試西風東漸,逐漸成為企業(yè)決策的一項重要工具。

為了更方便地進行A/B測試,國內(nèi)的大型互聯(lián)網(wǎng)公司也像谷歌一樣建立了自己的A/B測試平臺,比如滴滴阿波羅、今日頭條Libra、美團點評Gemini。

其中,張一鳴可以說是A/B測試的頭號擁躉。2016年在接受媒體采訪時張一鳴以取名舉例,多數(shù)團隊有了好名字之后會說,“這個名字很好,干杯!”而張一鳴會說,再做個AB測試吧,哪怕你99.9%正確,測一下又有什么關(guān)系呢?

放眼整個互聯(lián)網(wǎng)圈,A/B測試幾乎成為了優(yōu)秀企業(yè)的標配。

火山引擎是如何用A/B測試承載其數(shù)據(jù)驅(qū)動理念的?

成功使用A/B測試的企業(yè)代表,圖片來自《A/B測試,創(chuàng)新始于試驗》一書

不過,盡管A/B測試的價值顯而易見,但仍然局限在頭部互聯(lián)網(wǎng)圈子,在更廣泛的企業(yè)圈層,國內(nèi)的普及程度并不高。

供給缺失,需求緊迫

為什么A/B測試止于互聯(lián)網(wǎng)頭部企業(yè)?第一個原因是存在較高的技術(shù)壁壘。

分流是A/B測試的基礎(chǔ)門檻,企業(yè)需要建立靠譜的A/B測試平臺,保證科學的流量分割、流量層直接的正交互斥,使得實驗不受干擾。

比如一個在生活中常見的現(xiàn)象:從下表看出,盡管兩個學院男生錄取率都高于女生,但綜合考慮兩個學院的情況時,男生的總體錄取率卻要低于女生。

火山引擎是如何用A/B測試承載其數(shù)據(jù)驅(qū)動理念的?

這種現(xiàn)象在統(tǒng)計學中被稱為辛普森悖論[1]。如果實驗組和對照組的樣本流量分布不一致,就可能產(chǎn)生辛普森悖論。

不科學的分流在企業(yè)中也很常見。李想告訴「甲子光年」,在做A/B測試時,有的客戶會用手機尾號對用戶分流,但人們都喜歡尾數(shù)為6和8的號碼,號碼并非平均分布;有的客戶會在小米和華為的應(yīng)用商店做分流,但兩家的調(diào)性本來就不同。

其次,A/B實驗平臺的指標設(shè)計和解讀、置信度的統(tǒng)計方法,需要投入的研發(fā)資源也很高。如果實驗做不好,可能會帶來南轅北轍的結(jié)果。

這種高技術(shù)門檻也就導致了高成本,只有少部分頭部互聯(lián)網(wǎng)企業(yè)能夠成為A/B測試的應(yīng)用者。非互聯(lián)網(wǎng)企業(yè)和其他中小互聯(lián)網(wǎng)企業(yè)雖然可以使用第三方工具來代替自建,但市面上有實力的服務(wù)商寥寥無幾。

一邊是供給的缺失,另一邊卻是需求的緊迫。

在抖音、快手為代表的短視頻平臺之后,新的流量平臺尚未形成。智能汽車或許是新的流量終端,但要想成規(guī)模估計也是2025年之后的事情。

流量紅利見頂、流量越來越貴,過去跑馬圈地、粗放式經(jīng)營的時代一去不復返,企業(yè)普遍陷入“增長的煩惱”。

而A/B測試正好能滿足這樣的增長需求,這也是火山引擎看到的市場機遇。

從“獨樂樂”到“眾樂樂”

和很多創(chuàng)業(yè)公司先做產(chǎn)品可行性驗證(mvp)再大規(guī)模推向市場不同的是,火山引擎的A/B測試早已在字節(jié)跳動旗下的今日頭條、抖音等產(chǎn)品中走完了產(chǎn)品驗證階段。

早在2012年成立之初,張一鳴就在內(nèi)部使用A/B測試,2016年升級、進化為內(nèi)部廣泛使用的平臺——Libra,2018年開始服務(wù)少數(shù)外部的種子客戶,2020年通過火山引擎正式對外商業(yè)化。

今年4月26日,在火山引擎舉辦的一場A/B測試為主題的技術(shù)開放日上,字節(jié)跳動副總裁楊震原透露:字節(jié)跳動現(xiàn)在每天大概新增1500個實驗,服務(wù)了400多項業(yè)務(wù),累計已經(jīng)做了70萬次實驗。

火山引擎是如何用A/B測試承載其數(shù)據(jù)驅(qū)動理念的?

字節(jié)跳動副總裁楊震原

火山引擎的A/B測試經(jīng)歷了字節(jié)跳動多年的打磨,積累了非常成熟的技術(shù)基礎(chǔ),這體現(xiàn)在很多方面,比如實驗自動分流、流量正交互斥、指標設(shè)計和解讀、置信度統(tǒng)計等。

準確的分流是A/B測試的基礎(chǔ)門檻,一旦數(shù)據(jù)分流出現(xiàn)失誤,A/B測試的結(jié)果就毫無科學性可言。在這點上,火山引擎的客戶深有體會。

在與火山引擎合作之前,蝸牛睡眠也曾嘗試過以自研的方式來進行A/B測試,例如測試新用戶的價格敏感度,但是結(jié)果并不準確。蝸牛睡眠CTO竹東翔分析后發(fā)現(xiàn),這是做對照試驗時有多個變量,無法在同一時間對流量做精準分流而導致。

除此之外,蝸牛睡眠還有一個特殊需求。從2017年起,蝸牛睡眠就在使用一家軟件公司的數(shù)據(jù)埋點服務(wù)。如今,隨著數(shù)據(jù)量越來越大,單機版的算力已經(jīng)不能滿足需求,必須要升級到更高算力的集群版。

竹東翔告訴「甲子光年」,要讓專業(yè)的人干專業(yè)的事。因此,蝸牛睡眠放棄了自研A/B測試工具的方案,開始在市場上尋找服務(wù)商,要同時滿足精準分流,以及數(shù)據(jù)遷移。

在對比多家供應(yīng)商之后,竹東翔最終選擇了火山引擎的A/B測試工具。“這不僅僅是因為火山引擎優(yōu)秀的底層分流能力,也源于火山引擎在指標的設(shè)計解讀、置信度統(tǒng)計方法等方面。對于一款A/B產(chǎn)品來說,這些看似簡單的細節(jié)實則更加考驗產(chǎn)品實力。”他表示。

另外,火山引擎也結(jié)合了用戶的不同需求,在產(chǎn)品中融入了大量特殊實驗,比如可視化實驗、Push實驗,甚至應(yīng)用貝葉斯原理的動態(tài)調(diào)優(yōu)實驗等等,將產(chǎn)品進一步向場景化、智能化發(fā)展,滿足客戶更為復雜的業(yè)務(wù)需求。

火山引擎是如何用A/B測試承載其數(shù)據(jù)驅(qū)動理念的?

如今,蝸牛睡眠已經(jīng)在火山引擎的支持下做了3個版本的迭代,每次都做3~5個平行試驗,效果也是立竿見影。在其中的一個版本中,蝸牛睡眠的用戶時長等數(shù)據(jù)相比之前提高了整整一倍。

火山引擎成熟的產(chǎn)品能力也為其帶來了客戶粘性。李想就遇到這樣一個客戶,從初次接觸火山引擎至今,雖然經(jīng)歷了數(shù)次工作變動,他仍然推薦并影響所在的團隊繼續(xù)使用火山引擎A/B測試。

目前,火山引擎已經(jīng)服務(wù)了包括京東、蘇寧、建設(shè)銀行、銀河證券、福特、B站、華潤、虎撲、vivo等多個行業(yè)知名企業(yè)。

理念輻射

盡管價值顯性,但“A/B測試并不賺錢”,譚待對「甲子光年」表示,“如果僅從收入來看,A/B測試給火山引擎帶來的收入甚至算不上核心產(chǎn)品。”

但A/B測試是火山引擎數(shù)據(jù)驅(qū)動理念的最佳代表,是落實數(shù)據(jù)驅(qū)動的最佳工具。相比收入,理念的落實,進而輻射、滲透到企業(yè)的骨髓、血脈中,才是A/B測試更大的價值。

順著理念輻射的線,火山引擎希望將字節(jié)跳動積累九年的技術(shù)能力、增長方法論,更多輸出到行業(yè)、企業(yè)中。

火山引擎品牌發(fā)布會上,譚待詳細介紹了字節(jié)跳動對外輸出的能力。

首先是增長方法。過去九年,字節(jié)跳動沉淀了很多增長的方法和經(jīng)驗,包括創(chuàng)意生產(chǎn)和內(nèi)容創(chuàng)造、千人千面的個性化匹配、精細化用戶運營等。

其次是工具。好的方法和流程,都需要工具進行固化。在字節(jié)內(nèi)部有數(shù)千人的工具研發(fā)團隊,這些工具都通過火山引擎對外開放。

有了方法和工具,還需要技術(shù)能力來支持業(yè)務(wù)發(fā)展。火山引擎把抖音、今日頭條等全系產(chǎn)品上的同款技術(shù)拿出來,包括基礎(chǔ)服務(wù)能力、個性化推薦算法、音視頻的理解和處理等技術(shù),幫助企業(yè)更好地觸達用戶和提升互動體驗。

綜合方法、工具和平臺,火山引擎提供了一套全鏈路的技術(shù)方案,一整套智能增長技術(shù)。

火山引擎是如何用A/B測試承載其數(shù)據(jù)驅(qū)動理念的?

至此,字節(jié)跳動在to B領(lǐng)域已經(jīng)組建起飛書、巨量引擎、火山引擎三架馬車。其中,飛書負責企業(yè)協(xié)同與組織,幫助解決企業(yè)的“內(nèi)事”;巨量引擎負責廣告業(yè)務(wù),把字節(jié)App矩陣的流量變現(xiàn);火山引擎負責技術(shù)輸出,幫助企業(yè)進行數(shù)字化轉(zhuǎn)型。

中國的to B市場競爭激烈,字節(jié)跳動憑借三駕馬車躬身入局。我們已經(jīng)見證了字節(jié)跳動在消費互聯(lián)網(wǎng)時代崛起,如今繼續(xù)在to B領(lǐng)域深耕,有望成為產(chǎn)業(yè)互聯(lián)網(wǎng)的一顆新星。

END.

[1] 辛普森悖論由英國統(tǒng)計學家E.H辛普森于1951年提出。其主要內(nèi)容是:幾組不同的數(shù)據(jù)中均存在一種趨勢,但當這些數(shù)據(jù)組合在一起后,這種趨勢消失或反轉(zhuǎn)。其產(chǎn)生的原因主要是數(shù)據(jù)中存在多個變量。這些變量通常難以識別,被稱為“潛伏變量”。潛伏變量可能是由于采樣錯誤造成的。

(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )