AB測試的好處相信每個互聯網從業者多少應該都知道,簡單的說就是設置幾組不同方案比較,通過上線后的數據判斷哪個效果好。操作方式看著很簡單,但想要做一個可靠有效的AB測試并不是這么簡單,只有掌握一定的實驗設計和統計學知識才可能完成一個有效的AB測試。接下來就從實驗設計和統計這兩方面講解如何有效的做AB測試。
在電商做用研經常會接到交互或設計關于想知道用戶喜歡哪個的靈魂提問,面對這樣的問題用研大部分時候通過訪談讓用戶表達偏好,可現實是用戶說的和心里想并不一樣,這就要求在訪談的時候不能只關注用戶說喜歡哪個,要去深挖背后原因、該場景的心理模型、排除額外因素影響等等。因此,要回答這樣一個問題往往至少要8個以上用戶,對用戶各種回答總結分析才能得到相對客觀可用的結論,看似簡單的提問在實際操作中成本其實很高。其實除了訪談外,我們還可以借助眼動儀、腦電等儀器和內隱實驗測試了解用戶真實的反應,不過這些總歸是在成本和效率不能適應快節奏的要求。
AB測試能很好的解決這些問題,不僅“見效快,而且療效好”。AB測試的好處相信每個互聯網從業者多少應該都知道,簡單的說就是設置幾組不同方案比較,通過上線后的數據判斷哪個效果好。操作方式看著很簡單,但想要做一個可靠有效的AB測試并不是這么簡單,只有掌握一定的實驗設計和統計學知識才可能完成一個有效的AB測試。當然開發埋點等這些資源也很重要,但不是本文做討論。接下來就從實驗設計和統計這兩方面講解如何有效的做AB測試。
AB測試嚴格的說是一種相對簡單的實驗研究。實驗研究是人為地創設一定的情境,從而操縱或控制變量變,基本目的在于解釋變量之間的因果關系,即回答“為什么”的問題。實驗研究有嚴格的研究設計,包括樣本選擇、研究的情境和方式、實驗程序、設計方法等等,以保證實驗結果的科學性。因此,對于AB測試要保證實驗效果,同樣需要對實驗關鍵要素做好把控才能獲得準確的結論。不過,AB測試畢竟是線上進行的快速驗證實驗,在有些地方是不可能與實驗室研究相一致的,我們這里只關注實驗的樣本選擇和設計方法。
樣本確認從準確性和數量兩個方面入手,準確性是指針對實驗目標群體的圈選,數量則是實驗最低選擇的樣本數量。大多數情況下,我們在進行AB測試時是在某個具體場景下進行的,在群體圈選上也都是在該場景下隨機選擇一定樣本給予不同處理,這種情況下樣本的準確性基本可以不用考慮了,不會出現偏差。因此樣本選擇的重點就是在數量的控制上,落到線上的實驗就是流量的分配上。我們的目標是希望盡快完成測試獲得結論做決策,另外就是希望收益最大化,所以我們在流量分配時要有所權衡,區分以下幾種情況:
- 不影響用戶體驗類:這類的實驗一般只是在做感知層面的改動,不會造成嚴重的用戶障礙,比如UI實驗、文案類測驗等,這類的測試可以均勻分配流量,可快速達到想要的效果;
- 不確定性強的實驗:這類實驗主要是在操作或流程上有較大變動,會因為與現有用戶習慣存在差異可能導致較大的數據波動,比如產品新功能或新版本上線,這類實驗一般需要小流量實驗,在允許的時間范圍內得到結論;
- 希望收益最大化的實驗:這類實驗大部分多數有較確定的方向或手段,只是無法確定哪個方向和手段的效果更好,比如運營活動等,這時應盡可能將效果最大化,一般分配較大流量,預留小部分做對照組評估ROI即可;
根據實驗的假設和預期,實驗的用戶量可以通過統計檢驗的公式去推算最小用戶量是多少,根據要檢驗的變量水平不同使用不同的檢驗公式。下面這個公式是根據實驗目標計算樣本量的:
其中,Zα/2 和 Zβ可以通過查表求得,根據檢驗樣本所服從的分布不同去查找相應的表格,我們多數用的是T檢驗和卡方檢驗。S是樣本標準差,即我們要做檢驗的那群樣本的標準差。 (μx - μ0)是我們要檢驗的差值,其中μx可以理解為要測試的那群樣本均值,μ0是測試目標要達到的均值。我們根據自己有的數據帶入公式就能計算出所需樣本量了。
其實我們可以通過一個專門的網站來計算所需要的樣本量,這里又分為兩種情況,一種是比率型的數據驗證,一種是數值型的驗證:比率型的數據,包括轉化率、留存率、點擊率等都是可以的。以轉化率為例,某個頁面的轉化率為11.8%,預期改動后能提升0.2pp,網站計算出來的最小樣本量是67.8W,如果頁面每天的流量是20W,那至少要4天以上的時間才能驗證實驗結論。這里要注意預期提升效果的設定,為了保證實驗能有結果,這里可以低估,不可高估,因為高估后的樣本需求量會極劇縮小,會嚴重影響實驗結果。
數值型的數據,比如人均時長、客單價等。數值型的會更復雜一些,需要用T檢驗,這里需要們多次嘗試計算樣本量,這里其實還是需要用到公式里面的值,需要將對比的平均數、標準差填到工具中,平均數我們分別填寫當前的數據和預期的數據,圖中我填寫的左邊是11秒,右面填寫預期是12.5秒。標準差這里則都填寫大盤的標準差,也就是公式里面的S。樣本量上左邊填寫大盤的每日樣本數,右邊就需要進行嘗試變動,直到下方顯著變化時就是最小樣本數。
確定樣本量后,其實只是確定需要投入的時間,影響實驗效果和結論的是我們如何去設置實驗方案。這里我們從三個變量講解如何設計好一個實驗。
首先是因變量的確定。很多情況下做測試我們沒有真正搞清楚要驗證的目標變量是什么,只是提出一個設想就開始了測試,而拿到數據不知道怎么分析驗證了。比如,某會場目標是分流,交互和設計側也做了很多策略,但上線拿到數據后卻不知如何下手分析了,不知道“分流”該怎么去評判。其實問題就出在沒有事先將目標和數據變量關系理清楚。那怎么去解決這個問題呢?這里采用一個定義和一個模型來完成因變量的確定。
一個定義是“操作性定義”,它是指可以一個概念由測定他的程序來下定義。例如,上面提到的“分流”,測定方式是有多少流量進入到了二級頁面,多少流量進入二級頁面這個指標就是頁面的點擊率,點擊率越高說明分流的效果就越好。那我們在設計實驗和驗證效果的時候就可以從提升點擊率上入手。
一個模型是“GSM”模型,分別是目標(Goal)、信號(Signal)和測量(Metirc)。根據模型我們通過目標對應到用戶或者產品會出現的信號,這個信號對應某些用戶和產品的行為現象,而這個行為現象的出現就有一定的測量指標反應出來。還是用“分流”的例子,頁面分流效果增加這個是目標,這個目標下用戶會更多的去到其他分會場或者子頁面,這個用戶的行為現象就對應了每個坑位的點擊會更多,相應的就是點擊率的提高。
確定完因變量,接著就是自變量操縱了。自變量簡單來說就是咱們做ab測試中要改變的那個因素,可以是交互方式、頁面設計、新功能等等。自變量在理解上沒什么問題,但我們會遇到自變量操縱程度和數量上的錯誤。操縱程度是指有些變量變化幅度不夠,不能引起因變量的改變。比如,通過改變字體大小去提升用戶點擊,如果大小變化不夠是無法引起用戶注意的,自然也不會有想要的實驗結果。自變量數量是指同時改變幾個影響變量,如通過字體顏色和利益點共同去提升點擊,其中的字體顏色和利益點就是2個變量,而這兩個變量怎么搭配就需要根據變量的水平數和實驗方式去設計,不同的實驗設計又對應著不同的統計處理方法,如果展開又可以是一個復雜的篇幅。因此關于自變量個數,我們最好就只設置一個變量,這樣得到的結論會更有說服力。至于其他變量的控制,就是接下來要說的額外變量了。
最后要講的額外變量的控制,這個往往是容易被忽視但也是最難的部分。我們在做AB測試的時候都有意識的把出了自變量以外的影響因素給控制好,可有時等到數據收回來才發現有些額外的因素影響或者有些因素根本沒能力去控制。這個時候我們要掌握常用的幾種額外變量處理手段,以達到純粹的測試目標。
第一種是“消除法”,即把額外變量排除出去。例如,我們實驗測試遇到大促,而大促對頁面點擊轉化都會有很大影響,這個時候就要考慮避開,將大促影響排除。
第二種是“恒定法”,即使額外變量在實驗中保持恒定不變。例如,我們打算對比不同的樓層查看方式對點擊轉化的影響,其中坑位數量是一個額外的影響因素,這個是時候我們就要保證用戶在不同組上看到的商品坑位數是一樣的,即保持額外因素的恒定。
第三種是“統計控制法”,就通過一定的統計學手段排除額外變量的干擾。比如在大促期間做測試,必然會因為每年大促投入資源影響對比,這個時候可以通過回歸或者協方差分析的方法排除一下每年大促增長對實驗頁面數據影響。當然除了以上3種外還有一些實驗設計的方式去排除額外變量影響,這個方法就是配合自變量提前做好實驗設計即可。
最后來總結一下,做好一個AB測試主要從2方面入手:一是樣本確認,確定測試最小的樣本數,保證實驗驗證效果;二是實驗設計,分別從因變量的確定、自變量的操控和額外變量的控制做好設計。以上這些就是如何做好AB測試前期設計的要點,后面我們還要對不同設計做數據分析和效果檢驗,要知道如何設計多變量的方案,如何選擇合適的統計分析方法,如何計算測試ROI等問題,如果這篇文章大家反饋比較多的話,下期再繼續分享實驗設計和數據分析方法的問題。
歡迎關注「京東設計中心JDC」的微信公眾號:
復制本文鏈接 文章為作者獨立觀點不代表優設網立場,未經允許不得轉載。
發評論!每天贏獎品
點擊 登錄 后,在評論區留言,系統會隨機派送獎品
2012年成立至今,是國內備受歡迎的設計師平臺,提供獎品贊助 聯系我們
AI輔助海報設計101例
已累計誕生 737 位幸運星
發表評論 為下方 1 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓