大家好，我是 applemint 的 Eric。

上次，我們在〈廣告要跑多久〉一文中，說明了統計學中誤差與母體的概念。今天，我們將進一步介紹另外一項與 A/B 測試有關的觀念：顯著 (significance) 與檢定力 (power)。

也許看完上一篇文章，你會開始認為：根本沒辦法執行 A/B 測試了，因為沒有足夠的預算。但做 A/B 測試的目的，其實是為了要在不同版本中的廣告中，找出「更適合」的「最佳版本」。

因此，即使沒有 200 萬預算，只要你的每次測試的預算在 50000 元以上，那麼執行 A/B 測試還是可行的。我們會在下面〈用檢定力與顯著性決定 A/B 測試所需樣本〉說明原因。

結論來說，在執行 A/B 測試前，你必須先知道：

你能夠容許的誤差範圍如何，容許範圍越小，需要越多樣本
測試標的預計帶來的成效差異如何，差異越小，需要越多樣本

這篇文章，會透過「統計顯著性」與「統計檢定力」的概念，以及 2 個可以協助計算檢定力的工具，讓沒有統計基礎的數位行銷人員，也能夠輕鬆了解 A/B 組合是否有顯著差異。

Contents

1 為什麼要了解統計顯著性
2 統計學中的檢定
3 評估具有統計意義的 A/B 測試
- 3.1 A 版本與 B 版本的顯著性測試
- 3.2 用檢定力與顯著性決定 A/B 測試所需樣本
4 結論：樣本數不足的差異都沒有意義
5 附錄：部分數值的實際計算方式
6 參考資料

為什麼要了解統計顯著性

我們在〈廣告要跑多久〉一文中曾提到，同樣 10% 的轉換率，100 人中 10 人轉換，與 1000 人中 100 人轉換意義不同。

今天，我們設想另一個情境：點擊率 1% 跟點擊率 2%，哪個成效比較好？

答案是：我們不知道。

你猜對了嗎？如果是 100 次廣告曝光中有 1 次點擊，以及 200 次曝光中有 4 次點擊，我們並沒有辦法得出「點擊率 2% 比較好」的結論。

但如果是 2,500 次曝光中有 25 次點擊，對上 2,500 次曝光中有 50 次點擊，那麼情況就不一樣了，我們有更多的信心可以說點擊率 2% 比較好。

統計學中的檢定

在統計學中，有兩種推論結果的方式，其中一種是顯著性檢定 (significance test)，另一種則是檢定力分析 (power analysis)。這與統計學中的「假設 (hypothesis)」有關，我們這邊直接用廣告的例子來說明以上三種概念。

假設

在推論統計中，會出現虛無假設 (null hypothesis) 與對立假設 (alternative hypothesis) 兩種假設。有關兩種假設的詳細定義，可以參考統計學的課程內容，或是網路上討論的相關文章。

一般來說，虛無假設指涉的會是「現況」或是「沒有採取任何措施的結果」，對立假設則是我們希望證明的結果。

以數位廣告 A/B 測試的情境來說，我們可以做出以下的假設：

虛無假設：A 版本與 B 版本的點擊率/轉換率相同*
對立假設：A 版本與 B 版本的點擊率/轉換率不同

以上是雙尾檢定的例子，關於單雙尾檢定的討論不在本次主題範圍，因此不加贅述。

*「相同」是簡化的說法，比較正式的說法是「A 版本的結果與 B 版本的結果來自同一個母體」。

顯著性檢定

顯著性關注的議題是：我們根據觀察結果所做出來的推論，有多少機會可能是錯誤的拒絕虛無假設。以上述的例子來說，就是代表「明明點擊率相同 (虛無假設)，但我們說不同 (對立假設)」的機率。

統計學中最喜歡用的例子，是「明明無罪 (虛無假設)，卻被判為有罪 (對立假設)」的情況，這種錯誤在統計學中，稱為 Type I Error。

顯著性檢定的結果通常會用 p 值 (p-value) 或 α 來表現，一般的標準要小於 0.05，即代表我們錯誤拒絕虛無假設的機率低於 5%。

檢定力分析

根據我們觀察到的結果做出的推論，正確拒絕虛無假設的機率。

如果是根據原始定義的話，是「沒有錯誤接受虛無假設 (β) 的機率」。

以我們前面提到的例子來說，就是「沒有明明有罪，卻誤判成無罪的情況」、「不會明明點擊率有差異，卻說點擊率一樣」。

一般來說，我們會希望統計檢定力在 80% 以上。

以簡化的方式來理解，就是「我們希望對 A 版本與 B 版本點擊率/轉換率不同的推論，有 80% 的機會是正確的」。

在了解統計學中「檢定」的三個重點後，我們接下來就要說明如何將統計學的概念，落實到廣告的 A/B 測試上。

評估具有統計意義的 A/B 測試

在執行 A/B 測試時，我們需要解答兩個問題：

從這次的實驗結果來看，A 版本與 B 版本是否有明顯差異？
從過去經驗來看，新的測試應該需要多少樣本才夠？

以下將分別說明：

A 版本與 B 版本的顯著性測試

我們可以利用 AB Testguide 提供的工具來檢測兩組廣告或兩組受眾之間的差異是否達到顯著。

以前面的例子來說，當我們的樣本數分別只有 100 與 200 次曝光的時候，我們會得到如下的結果：

兩者之間並沒有顯著差異。

但如果是個別有 2500 次曝光時，便會得到這樣的結果：

用檢定力與顯著性決定 A/B 測試所需樣本

當我們的廣告進行了一段時間後，我們會希望知道：需要多少樣本來進行 A/B 測試。此時我們就能透過 ClinCalc 提供的計算工具。

在進行 A/B 測試時，我們需要選擇的是兩個獨立群組的比較。由於點擊與轉換只有兩種結果 (點/不點、買/不買)，因此計算上我們會選擇二分法 (Dichotomous)。

我們預計這次的測試，要讓點擊率從 1% 改善到 2%，因此 Group 1 填寫現況的 1%，Group 2 則填寫預計的 2%。

計算後得知，我們的測試各自需要曝光至少 2,318 次。

因為是範例，所以我們使用了較極端的情境。如果是一般點擊率的差異 (1% 與 1.1%)，保守預估應該要各自曝光 163,095 次。如果以 CPM 300 元台幣來算的話，需要 48,928.5 元的預算來執行這次測試。

結論：樣本數不足的差異都沒有意義

透過今天的文章，我們了解到點擊率 1% 與點擊率 2%，在不同的曝光次數底下，意義完全不同。

利用上述的工具能讓我們知道，當我們希望測試 1% 到 1.1% 之間的點擊率差異時，預計需要投入多少預算、曝光多少次，才能得到有意義的推論。事實上，不論是 Facebook 的 A/B 測試功能，或是 Google Optimize 在計算轉換率差異時，也都是透過顯著性與檢定力，來判定兩種版本是否有「有意義的差異」。

因此，如果想要執行 A/B 測試時，了解自己「能夠接受的誤差範圍」非常重要，唯有將誤差納入考量，才能正確的判讀測試結果。

本次的內容，一方面是為了向各位公開 applemint 實際上會如何判讀客戶的成效，另一方面則是希望透過公開的方式，讓我們的服務品質能夠受到公開的考驗。因此如果發現任何計算或觀念有誤的地方，歡迎隨時與我們聯繫，你們的建議會是我們改進的動力。

如果希望隨時掌握最新的數位行銷文章，也歡迎訂閱 applemint 的電子報。我們每兩週會發布精選文集，讓你隨時掌握 applemint 的最新文章！

附錄：部分數值的實際計算方式

這裡附上為了進一步了解計算過程，所需要理解的數值計算方式，給有興趣的人做參考。不必了解附錄全部的內容，也能夠藉由上述的工具進行初步的估算，因此如果自認對於數學或統計有排斥的朋友，可以直接跳過這一部分。

「點擊率」的平均值

我們來設想以下的情況：A、B、C 素材的點擊率分別為 1.2%、0.9% 與 1.05%，請問平均的點擊率是多少呢？

答案一定不是 (1.2+0.9+1.05)/3。

這是因為點擊率是比例，會根據分母的不同而有變化，因此平均點擊率應該是 (A + B + C 素材點擊) / (A + B + C 素材曝光)。

在廣告後台中，我們便把最後得到的彙總值視為是平均值。也就是說，我們把廣告後台「過去 7 天的總點擊率」，當成是「過去 7 天點擊率的平均值」。

「點擊率」的標準誤差 (Standard Error)

標準差與標準誤的計算，需要先計算觀測值與平均值的離差平方和，也就是計算個別點擊率與平均點擊率的差距。但是我們在廣告後台看到的，是整體成效的彙總值，因此不能直接計算。

由於點擊率是二分法 (點與不點)，因此我們可以透過平均點擊率，來計算點擊率的標準誤差。計算方法是：

顯著性測試

由於我們的點擊與非點擊的人數都超過 10 (在統計學上即是 np 與 n(1-p) 都大於等於 10)，因此我們在計算兩組分配差異時，可以用以下方式計算兩組平均值差異的標準誤差：

由於樣本數量大於 30，基於中央極限定理，我們推定符合 A 版本與 B 版本皆符合常態分佈，因此使用 Z 分數進行檢定：

在 Z 檢定中，如果 Z 分數大於 1.96，或是小於 -1.96，便具有統計上的顯著性。

從檢定力推估所需樣本

根據 ClinCalc 使用的計算方式，其估算樣本數的計算方式如下：

其中兩個 Z 分數要透過查表的方式取得。1-?/2 代表的是雙尾檢定中的 Z 分數，以 p-value 為 0.05 來說，便是 1.96。1-β 則是檢定力對應的 Z 分數，以 0.8 來說，Z 分數為 0.84。Δ 則代表變化的幅度，以點擊率 1% 與 1.05% 為例，Δ 便是 0.05%。

參考資料

從這裡聯絡 applemint！

與我們聯繫

A/B 測試要測多久？從統計顯著與檢定力看廣告測試結果