Google Data Studio 是 Google 推出的一個 Dashboard / Reporting 的服務,讓我們可以利用多種連結器將儲存在如 Google Analytics、 Google 試算表及 Google BigQuery 等特定資料來源的資料做出漂亮的 visualization ,用資料講故事而不用自己設計 UI。公司內部雖然有自己的 dashboards 不過想說多試一些方案沒有壞處,而且現在 Data Studio 還是 Beta 版本,雖然介面是中文,說明文件還只有英文,想說把學到的一些技巧以及使用心得記錄下來。
將 Google 試算表的資料可視化¶
為了快速展示 Data Studio 的功能,我們將使用政府資料開放平臺上由交通部觀光局提供的105年來台旅客性別統計資料。將 CSV 檔案下載下來,稍微簡化格式後上傳到 Google 試算表以當作報表的資料來源。下圖是簡化後的資料:
每一列代表某地區 / 國家的訪台人數以及男女比
我們發現高達八成的國家(有些是區域)的訪台男性遊客較女性為多。我們可以調查其他國家的訪客性別比,看是不是只有台灣有此現象。要產生分母的「國家數」很直覺,我們只要新增一個欄位並計算有幾個國家即可:
但要計算分子的「男性遊客過半國家數」就稍微 tricky 了。我們想做的是,針對每一國家(每一列),只有在該國訪台男性遊客百分比過半(超過 50%)的時候才會被納入結果。而 Data Studio 的條件欄位就是專門針對這種情況設計的。
上面的公式用白話來說就是:
針對每一列的國家,看它的「男性百分比」欄位的值有沒有大於50。有的話值為1,否則為0。在針對每列做完條件判斷以後再把所有 1 加起來,就等於符合條件的國家數。
篩選器(filter)應用¶
根據上個分析,我們知道女性遊客過半的國家只佔 20%。假設我們想確切知道是哪些國家的女性遊客過半,可以從女性百分比最高的國家開始列出男女比:
我們發現女性遊客過半的都是亞洲國家,或許我們可以簡單解釋成這些國家與台灣的距離短,適合女性遊客拜訪。而為了讓圖表易讀,上面這張組合圖額外建立一個篩選器來過濾掉男性遊客比女性多的國家:
註:一般的長條圖可以直接透過設定限制長條圖數目
像我們前面定義的「男性遊客過半國家數」欄位因為有經過 SUM
公式匯總成為一個數值,因此為一個指標(藍)。而如果我們透過 CASE
語法新定義一個「男性過半」欄位如下:
此欄位沒有經過匯總因此被視為維度,在上一張圖被標為綠色。因此一句話總結維度跟指標的功能就是:
維度負責「描述」資料; 指標則負責「衡量」資料。
依照官方文件有幾點值得注意:
- 資料透視表最多處理 50,000 筆資料,為了避免 scan 資料太花時間,可以額外建立一些篩選器 subset 資料
- 列維度跟欄維度最多可以分別設定 2 個維度(上例列欄各設定 1 個維度)
限制¶
可能因為還處在 beta 版本,在這篇文章寫的時候(2018/03)試用了一陣子發現 Data Studio 也有一些使用案例沒有辦法做到,像是:
- 篩選器(filter)只能設定像是「欄位 C 大於 X」這種條件,而不能做「當欄位 C1 > 欄位 C2」這種欄位間的比較。
- 同上,條件欄位也只能設定像是「欄位 C 大於某固定值 X」的條件
- 資料透視表包含的資料稍多 (> 2000筆)就開始變慢 ..
跟資料科學相關的最新文章直接送到家。 只要加入訂閱名單,當新文章出爐時, 你將能馬上收到通知