本文要來介紹 Google Analytics 中的 #取樣數據,講解使用的情況、對分析工作的影響,以及如何提高分析準確度。
#取樣數據 是指在為了能夠降低資料分析或是網站分析時的成本,以及提升工作效率所採用的一種方法,在統計上稱作抽樣。舉例來說,我們可能經常聽到——這個產品測試的樣本數為 1000 個、其中壞掉有 5 個、總統大選民調指出 XXX…——這些都是取樣數據。
因為你沒時間對全台灣可以投票的百姓做調查,為了降低調查成本也提高工作效率,採用概略的方法來做數據取樣是最直接的方法。但你知道嗎,一般我們常用的分析工具 Google Analytics 其實在某些情況下也使用了取樣數據。
取樣數據對於分析工作的影響
先説說在什麼地方能知道數據有沒有被取樣,只要移到 Google Analytics 報表名稱旁邊有個勾勾,就會顯示是否有採用取樣數據,例如:現在圖上看到的是「這份報表以100%的工作階段來計算」,那就代表沒有採用取樣數據,資料是比較精準的。
但如果看到資料顯示報表以非 100% 的工作階段來計算的話,取樣數字越低,數據就越不精準,因此身為一個分析師手上拿到的資料不精準時,可能廣告成效、收益都有落差,那後續商業洞察的參考價值也就降低了。就像是在做問卷調查時 1000 人裡面想知道性別比例,但你只取樣 10 個人發現全是女生,你就說這 1000 個都是女生….這聽起來不太合理對吧?因此 Google Analytics 的取樣數據多少還是對分析工作有一定傷害。
在什麼情況下會使用取樣數據
那在什麼情況下會採用取樣數據呢?Google Analytics 的說明中心提到以下幾個情況下會採用:
- 你在預設的報表裡採用了次要維度,或是客製化了進階區隔
- 在指定日期範圍中,資源層級的工作階段量超過 50 萬個
☞ 大企業如果做長時間分析就很可能發生 - 使用自訂報表的時候採用了客製化的篩選條件
- 多管道程序報表/歸因報表超過 100 萬個轉換
☞ 不管怎麼修改報表、最多只能傳回 100 萬個樣本數 - 行為流程報表在你指定的日期範圍內,最多只能傳回 10 萬個工作階段,所以只要超過就會取樣
如何提高數據精確度
盡可能採用預設報表
或許你會覺得奇怪,Google Analytics 明明有很多進階區隔,為什麼不直接使用?其實答案是可以的,如果你只要看比較短的日期、數據量也不大的話,在影響不大的前提下即可使用。但如果當公司或客戶要計算 KPI 或是 ROI 時,一點點的誤差也會影響整體營運後續的規劃,另外對於流量大的網站而言,太多的進階區隔也會影響成效評估。
❏ 舉例
假設你想看的是自然搜尋進站的用戶進到哪個到達頁面流量比較大、收益比較高,或許你會進到 #到達網頁報表,並且使用進階區隔來篩選出自然搜尋的表現,但同時已經造成取樣數據的情況產生了。
這時其實你可以進到所有流量裡的管道報表,直接點擊自然搜尋一樣可以看到你想要的數據資料。
選擇『精準度更高』的取樣設定
在顯示取樣數據的地方,可以把回應速度更快改為精準度更高,Google Analytics 就會把取樣比例拉高讓數據更準卻。
當數據量太大時,把指定時間範圍縮短
假設你選了兩年資料但數據量過於龐大,Google Analytics 就會採用取樣數據,因此不妨改為一次看一年或是半年,數據也會相對來得更精準哦!
以上就是本日的數位資訊分享,感謝你的閱讀。如果對數位廣告投放有興趣,歡迎來電洽詢,我們會安排專業的優化師為您服務。
✆ 02-23965819
✉︎ https://pse.is/ispot
以上文章原始觀點轉自 Steven Chen,如果喜歡他的思考模式,歡迎透過連結關注他。