隨著“增長黑客”概念的盛行,A/B 測試作為“數(shù)據(jù)驅(qū)動增長”的最佳實踐受到了國內(nèi)外眾多公司的青睞。
A/B 測試的目的在于通過科學(xué)的試驗設(shè)計、高效精準(zhǔn)的流量分割算法來獲取具有代表性的試驗結(jié)論,并將該結(jié)論推廣運(yùn)用至全部流量。目前,A/B 測試已廣泛運(yùn)用于產(chǎn)品交互設(shè)計、推薦算法、運(yùn)營策略制定等方方面面,在最優(yōu)方案的判斷與決策過程中為公司提供有力的數(shù)據(jù)支持。
因為市面上對于 A/B 測試搭建的信息都比較碎片化,沒有成體系化的梳理,且缺少標(biāo)準(zhǔn)化、規(guī)范化的 A/B 測試工具,所以,神策數(shù)據(jù)結(jié)合數(shù)百場 A/B 測試的服務(wù)及交付經(jīng)驗,總結(jié)、沉淀出了建立假設(shè)、確定評價指標(biāo)、設(shè)計試驗、運(yùn)行試驗并獲取數(shù)據(jù)、結(jié)果分析、最終決策六大環(huán)節(jié),幫助企業(yè)順利落地 A/B 測試,為客戶帶來價值。
神策數(shù)據(jù) A/B 測試已得到充分的實踐驗證,通過科學(xué)規(guī)范的試驗流程、高效精準(zhǔn)的流量分割算法,幫助公司有效降低試驗成本與風(fēng)險,實現(xiàn)業(yè)績增長。關(guān)注神策數(shù)據(jù)公眾號,回復(fù)關(guān)鍵字“A/B 測試”即可免費(fèi)體驗!
一、建立假設(shè)
A/B 測試最核心的原理是假設(shè)檢驗。先假設(shè),然后根據(jù)數(shù)據(jù)檢驗試驗組和對照組的結(jié)果,輔助決策。一般情況下,假設(shè)成對出現(xiàn),如果我們認(rèn)為試驗組和對照組的結(jié)果沒有顯著差異,那么可以稱為零假設(shè)(H0);相反,則稱為備擇假設(shè)(H1)。
在試驗前,我們需要先明確想要實現(xiàn)的結(jié)果。比如,我們希望通過優(yōu)化注冊流程,提高用戶的注冊轉(zhuǎn)化率。針對這個場景,零假設(shè)就是優(yōu)化后流程(試驗組)和優(yōu)化前流程(對照組)的用戶注冊轉(zhuǎn)化率無顯著差異,備擇假設(shè)則是兩組結(jié)果有顯著差異。
另外,在建立假設(shè)的過程中,需要注意兩點(diǎn):第一,A/B 測試本身屬于因果推斷,所以要先確定原因和結(jié)果;第二,假設(shè)必須是可衡量的,需要有相應(yīng)的評價指標(biāo)來檢驗假設(shè)是否成立。
二、確定評價指標(biāo)
注冊流程優(yōu)化的試驗?zāi)康氖菫榱颂岣咦赞D(zhuǎn)化率,那么注冊轉(zhuǎn)化率就可以作為檢驗假設(shè)是否成立的評價指標(biāo)。同時,評價指標(biāo)也需要分層級,確定唯一核心指標(biāo),輔助多個觀察指標(biāo),才能從盡可能多的角度來評估試驗結(jié)果。
評價指標(biāo)主要分為三類:核心指標(biāo)、驅(qū)動指標(biāo)和護(hù)欄指標(biāo)。
1、核心指標(biāo)
核心數(shù)據(jù)指標(biāo)通常情況下只有一個,或者是極少數(shù)指標(biāo)的合集,很多時候是一家公司或組織的核心 KPI,可以驅(qū)動業(yè)務(wù)核心價值,比如注冊轉(zhuǎn)化率(衡量注冊流程優(yōu)化試驗效果)、活動按鈕點(diǎn)擊率(評估某項推廣活動試驗的 CTR 效果)、人均使用時長(評估某項推薦算法對用戶粘性的改進(jìn)效果)等。
在確定核心指標(biāo)時,需要滿足兩個關(guān)鍵原則:第一,簡單的,易理解的,可以在公司/團(tuán)隊范圍內(nèi)被廣泛接受;第二,相對穩(wěn)定的,無需頻繁為了一個新功能更新核心指標(biāo)。
核心指標(biāo)除了用來衡量試驗的效果,還可以用來計算試驗所需的樣本量(將在后文中詳細(xì)介紹),由此可見,核心指標(biāo)直接關(guān)系著試驗的成敗,需要重點(diǎn)關(guān)注。
2、驅(qū)動指標(biāo)
驅(qū)動指標(biāo)一般比核心指標(biāo)更短期,變化更快也更靈敏,幫助我們更加快速、全面地觀測業(yè)務(wù)變化。我們可以通過兩個案例做進(jìn)一步了解:
在某項商品推廣活動試驗中,核心指標(biāo)是下單轉(zhuǎn)化率,運(yùn)營同學(xué)可以使用客單價、人均下單次數(shù)、退貨率等作為驅(qū)動指標(biāo)。觀察發(fā)現(xiàn),雖然下單率有所提升,但退貨率或客單價指標(biāo)下降,此時便需要做針對性調(diào)整。
某個視頻推薦列表試驗中,核心指標(biāo)是人均播放視頻數(shù)量,驅(qū)動指標(biāo)是完播率、人均觀看時長,通過核心指標(biāo)和多個驅(qū)動指標(biāo)的配合來進(jìn)行推薦算法效果的評估。
通過以上我們可以看出,驅(qū)動指標(biāo)能夠幫助我們從更多、更全面的角度來觀察試驗給業(yè)務(wù)帶來的影響,尤其是當(dāng)發(fā)現(xiàn)問題時,能夠幫助我們及時分析原因、調(diào)整策略,通過不斷優(yōu)化達(dá)到最終的試驗?zāi)康摹?/p>
在確定驅(qū)動指標(biāo)時,需要滿足三個原則:第一,驅(qū)動指標(biāo)與核心指標(biāo)的目標(biāo)一致,能夠直接反映業(yè)務(wù)變化;第二,當(dāng)指標(biāo)發(fā)生變化時,能夠有既定的途徑和方法來優(yōu)化指標(biāo),是可行動、與業(yè)務(wù)相關(guān)的;第三,驅(qū)動指標(biāo)是核心指標(biāo)的先導(dǎo)指數(shù),需要具備足夠的靈敏性,快速衡量大部分試驗的效果。
3、護(hù)欄指標(biāo)
護(hù)欄指標(biāo),可以理解為保護(hù)業(yè)務(wù)的指標(biāo),在實際應(yīng)用過程中,護(hù)欄指標(biāo)的異??梢杂行Х从吵鲈囼炘O(shè)計、基礎(chǔ)設(shè)施、數(shù)據(jù)處理環(huán)節(jié)是否正常,能夠幫助我們在評價試驗效果時做出正確的權(quán)衡取舍,避免因為短期指標(biāo)優(yōu)化影響長期指標(biāo),從而得出值得信任的試驗結(jié)果。
舉個例子,我們在試驗中設(shè)置一定的比例讓用戶命中試驗分組(通常建議各組流量平均分配),實際運(yùn)行中如果發(fā)現(xiàn)樣本量和構(gòu)建時的預(yù)期不一致,那么可以猜測是否是分流服務(wù)出了問題,導(dǎo)致可信度降低。
關(guān)注神策數(shù)據(jù)公眾號,回復(fù)關(guān)鍵字“A/B 測試”即可免費(fèi)體驗!
三、設(shè)計試驗
在確定試驗評價指標(biāo)之后,我們就可以開始進(jìn)行試驗設(shè)計,主要分為四個階段:
1、選擇正確的試驗主體
試驗主體是試驗中進(jìn)行分流的隨機(jī)化單元,在試驗時需確保分流主體與評價指標(biāo)分析主體相同。
用戶(通常為 user_id )是當(dāng)前主流的隨機(jī)化單元。如果分流主體是用戶,那指標(biāo)分析主體也應(yīng)該是用戶,例如人均會話數(shù)、人均點(diǎn)擊量、人均支付金額等。
在實際業(yè)務(wù)場景中,可能使用其他分流主體,比如設(shè)備主體(device_id),按照設(shè)備進(jìn)行隨機(jī)化,意味著每臺設(shè)備產(chǎn)生的指標(biāo)數(shù)據(jù)是獨(dú)立的,比如在點(diǎn)餐機(jī)或者自動售賣機(jī)(一般為 Android 系統(tǒng))的試驗場景中,不需要用戶進(jìn)行登錄即可下單購買,那么此時試驗的分流主體和分析主體就是這個獨(dú)立設(shè)備,可以用每臺設(shè)備的平均下單時長(完成下單的總時長/獨(dú)立設(shè)備數(shù))作為評價指標(biāo),用來衡量下單頁優(yōu)化效果。
除了以上兩個常用的試驗主體外,也會存在其他主體,例如在推薦算法試驗中,可以用推薦的頁面(或推薦的商品)作為試驗主體單位等,在評估選擇使用哪種隨機(jī)化單元(分流主體)時,需要結(jié)合具體試驗場景來考慮,可以重點(diǎn)從用戶體驗一致性、分流主體和評價指標(biāo)主體一致性兩個角度綜合評估。
2、確定試驗?zāi)繕?biāo)受眾
當(dāng)我們假設(shè)了一個試驗并選定試驗主體時,需要進(jìn)一步明確試驗的受眾范圍,也就是說需要明確哪些用戶參與到試驗中。通常有完全隨機(jī)和定向篩選兩種方式:
完全隨機(jī),是指不做任何干預(yù),所有的線上用戶都是目標(biāo)受眾。
定向篩選,是以特定的用戶群體為目標(biāo)。比如,某在線教育 App 的會員活動試驗中,想要通過不同活動來探索和提升用戶的購買轉(zhuǎn)化,便將新用戶設(shè)定為目標(biāo)群體。
需要注意的是,當(dāng)使用定向篩選圈定受眾意味著當(dāng)前的試驗效果只對這部分用戶有效,并不能代表線上全量用戶應(yīng)用后都具備相同顯著的效果。因此,在實驗結(jié)束將新 Feature 固化到線上時,需要考慮有針對性的發(fā)布策略。
3、確定試驗樣本量
(1)樣本量并非越多越好
我們都知道試驗的樣本量大小對結(jié)果的精確度有直接影響,從統(tǒng)計學(xué)理論來講,越大的樣本量意味著有更大的幾率檢測出很小的變化,得出的結(jié)論信度就越高。
但在實際業(yè)務(wù)場景中,當(dāng)我們回收到優(yōu)勝方案時應(yīng)盡快發(fā)布給全量用戶,這樣才能擴(kuò)大試驗效果、實現(xiàn)業(yè)務(wù)的全面增長。另一方面,雖然 A/B 測試的目標(biāo)是驗證某個優(yōu)化方案能夠提升收入指標(biāo)、改善用戶體驗,但試驗總會伴隨著未知、未被考慮到的風(fēng)險,就有可能出現(xiàn)與假設(shè)截然相反的結(jié)果。因此,快速分析定位原因,及時調(diào)整試驗就顯得尤為重要,“快”是A/B 測試的重要優(yōu)勢,能夠快速應(yīng)用、擴(kuò)大收益;快速得出結(jié)論驅(qū)動決策等。
在進(jìn)行試驗設(shè)計時,我們需要在實際業(yè)務(wù)場景和統(tǒng)計理論中做到平衡:既要保證足夠的樣本量,又要把試驗控制在盡可能短的時間內(nèi)。
(2)如何確定試驗所需的最小樣本量
樣本量并不是越多越好,那么該如何確定樣本的數(shù)量呢?這里我們需要了解一下中心極限定理,通俗地理解為:只要樣本量足夠大,無論是什么指標(biāo),無論對應(yīng)的指標(biāo)是如何分布的,樣本的均值分布都會趨于正態(tài)分布。基于正態(tài)分布,我們才能計算出相應(yīng)的樣本量,作出假設(shè)與檢驗。
樣本量計算背后的統(tǒng)計學(xué)邏輯較為復(fù)雜,計算公式如下:
從公式中我們可以看出,樣本量主要由 α、Power、△ 和 σ^2 四個因素決定,當(dāng)確定了這幾個變量,也就確定了試驗所需的樣本量。相關(guān)統(tǒng)計原理詳見文末「補(bǔ)充閱讀」。[1]
目前市面上有很多樣本量計算工具,其背后的統(tǒng)計邏輯基本一致,這里需要提醒大家的是,大部分工具都只能計算比率類指標(biāo),而均值類(絕對值類)指標(biāo)的計算需要用到歷史數(shù)據(jù),通常只能利用公式來進(jìn)行計算。
圖 神策數(shù)據(jù)最小樣本量計算器(數(shù)據(jù)為模擬)
4、確定試驗運(yùn)行時長
只要試驗結(jié)果顯著,并且符合最小樣本量,是否就可以停止試驗了呢?答案是否定的。除了最小樣本量之外,我們還需要考慮試驗指標(biāo)的周期性波動以及新奇效應(yīng)影響。
(1)周期性
在實際業(yè)務(wù)運(yùn)行過程中,往往需要考慮周期性帶來的指標(biāo)變化。比如,旅游行業(yè)在周末的用戶訪問量明顯高于工作日;而辦公軟件的各項指標(biāo)都證明在節(jié)假日的使用頻率遠(yuǎn)低于工作日。因此,當(dāng)需要考察的指標(biāo)自身帶有周期性特征時,那么在試驗中就必須要考慮到周期性影響,不能單純地根據(jù)結(jié)果顯著性來做決策。我們通常會建議客戶在合理的試驗時間內(nèi)至少包含一個完整的數(shù)據(jù)波動周期。
(2)新奇效應(yīng)
在試驗的初始階段,可能會產(chǎn)生一些明顯的效應(yīng),并在接下來的一段時間內(nèi)趨于穩(wěn)定。原因在于剛上線新策略時用戶的興趣值較高,從而引發(fā)新奇效應(yīng);隨著時間推進(jìn),用戶的新奇感會逐漸消失。所以,在做 A/B 測試時,我們需要評估引入的新策略能否引發(fā)新奇效應(yīng),從而判斷當(dāng)獲得顯著結(jié)果時,是否需要延長試驗周期以得到穩(wěn)定的結(jié)果。
關(guān)注神策數(shù)據(jù)公眾號,回復(fù)關(guān)鍵字“A/B 測試”即可免費(fèi)體驗!
四、運(yùn)行試驗并獲取數(shù)據(jù)
雖然試驗上線前我們已經(jīng)做了充分的測試工作,但仍需要驗證試驗是否按照預(yù)期的設(shè)定正常運(yùn)行。其中以下兩項工作需要重點(diǎn)驗證:
分流驗證:分流比例和預(yù)期設(shè)定是否一致,不同分組策略是否正常展示,用戶有無跳版本等。
數(shù)據(jù)驗證:缺少有效、準(zhǔn)備好的評估數(shù)據(jù),再多的試驗也是徒勞。
在確保試驗正常運(yùn)行的情況下,我們還需要對不同分組的數(shù)據(jù)進(jìn)行觀察分析,避免因為設(shè)計缺陷或者引入功能 bug,造成重大業(yè)務(wù)損失。
五、結(jié)果分析
A/B 測試能夠高效驅(qū)動決策。在統(tǒng)計學(xué)中,會采用 P 值法和置信區(qū)間法評估結(jié)果顯著性,這里我們詳細(xì)介紹一下使用頻率較高的置信區(qū)間法。
置信區(qū)間是一個范圍,最常見的是 95% 的置信區(qū)間。如何理解呢?對于一個隨機(jī)變量來說,95% 的概率包含總體均值的范圍,就叫做 95% 的置信區(qū)間。也可以簡單理解為總體數(shù)據(jù)有 95% 的可能性在這個范圍內(nèi)。
在 A/B 測試中,我們會計算兩組指標(biāo)的差異值,如果計算得出的差異值置信區(qū)間不含 0,那么就可以拒絕零假設(shè),認(rèn)為兩組結(jié)果差異顯著;反之則接受零假設(shè),認(rèn)為兩組結(jié)果差異不顯著。
圖 神策數(shù)據(jù) A/B 測試-實驗報告示意(數(shù)據(jù)為模擬)
六、數(shù)據(jù)驅(qū)動決策
運(yùn)行 A/B 測試的終極目的為了提升業(yè)務(wù)指標(biāo)。那么在收集試驗數(shù)據(jù)到最終決策的過程中需要考慮哪些因素呢?
試驗結(jié)果差異是否真實可信,是否具備統(tǒng)計顯著性?
統(tǒng)計功效是否充足(通常根據(jù)是否大于 80% 來判定)?
?試驗放量之后會帶來哪些風(fēng)險,風(fēng)險處理的預(yù)備方案是什么?
顯著結(jié)果往往比較容易判斷,可以通過增加統(tǒng)計功效來提升真實顯著的幾率。但對于一些差異不顯著的試驗,就需要在試驗方案中做出取舍,我們需要明確決策對未來可能產(chǎn)生的影響,并讓影響盡量控制在可預(yù)測的范圍內(nèi),而非局限于根據(jù)某個單一指標(biāo)來進(jìn)行決策。
以上是一個完整 A/B 測試流程,后續(xù)我們將結(jié)合具體業(yè)務(wù)案例,深入探索試驗各個環(huán)節(jié),敬請期待!關(guān)注神策數(shù)據(jù)公眾號,回復(fù)關(guān)鍵字“A/B 測試”即可免費(fèi)體驗!
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )