Menu

Google Data Studio 是 Google 推出的一個 Dashboard / Reporting 的服務,讓我們可以利用多種連結器將儲存在如 Google Analytics、 Google 試算表及 Google BigQuery 等特定資料來源的資料做出漂亮的 visualization ,用資料講故事而不用自己設計 UI。公司內部雖然有自己的 dashboards 不過想說多試一些方案沒有壞處,而且現在 Data Studio 還是 Beta 版本,雖然介面是中文,說明文件還只有英文,想說把學到的一些技巧以及使用心得記錄下來。

將 Google 試算表的資料可視化

為了快速展示 Data Studio 的功能,我們將使用政府資料開放平臺上由交通部觀光局提供的105年來台旅客性別統計資料。將 CSV 檔案下載下來,稍微簡化格式後上傳到 Google 試算表以當作報表的資料來源。下圖是簡化後的資料:

資料來源 : 2016年來台旅客性別統計
每一列代表某地區 / 國家的訪台人數以及男女比

條件欄位應用

條件欄位讓我們可以針對試算表裡頭每一列做 IF ELSE 判斷,依照判斷結果給予不同的值。現在假設我們想知道有多少國家的男性遊客過半數,可以使用簡易的評量表來計算:

訪台男性遊客過半國家佔全部國家的比例

我們發現高達八成的國家(有些是區域)的訪台男性遊客較女性為多。我們可以調查其他國家的訪客性別比,看是不是只有台灣有此現象。要產生分母的「國家數」很直覺,我們只要新增一個欄位並計算有幾個國家即可:

新增一個名為「國家數」的欄位

但要計算分子的「男性遊客過半國家數」就稍微 tricky 了。我們想做的是,針對每一國家(每一列),只有在該國訪台男性遊客百分比過半(超過 50%)的時候才會被納入結果。而 Data Studio 的條件欄位就是專門針對這種情況設計的。

使用 CASE 語法對每一列做 IF-ELSE 判斷

上面的公式用白話來說就是:

針對每一列的國家,看它的「男性百分比」欄位的值有沒有大於50。有的話值為1,否則為0。在針對每列做完條件判斷以後再把所有 1 加起來,就等於符合條件的國家數。

篩選器(filter)應用

根據上個分析,我們知道女性遊客過半的國家只佔 20%。假設我們想確切知道是哪些國家的女性遊客過半,可以從女性百分比最高的國家開始列出男女比:

訪台女性遊客過半國家

我們發現女性遊客過半的都是亞洲國家,或許我們可以簡單解釋成這些國家與台灣的距離短,適合女性遊客拜訪。而為了讓圖表易讀,上面這張組合圖額外建立一個篩選器來過濾掉男性遊客比女性多的國家:

新增一個篩選器以過濾男性遊客比例較高的國家
註:一般的長條圖可以直接透過設定限制長條圖數目

維度 VS 指標

在 Data Studio 裡頭,了解維度跟指標的差異很重要。

以我們現在的資料集為例,每一列就是一筆紀錄(record),每一行則是一個欄位。每個欄位則是維度或指標。

  • 指標(Metric,底下藍色)
    • 數值型欄位,有經過「匯總」,負責 quantify 資料
    • 如「國家數」、「總人數」
  • 維度(Dimension,底下綠色)
    • 分類型欄位,負責 qualify 資料
    • 如「國家」、「居住地」
fx 則代表是額外利用公式建立的欄位

像我們前面定義的「男性遊客過半國家數」欄位因為有經過 SUM 公式匯總成為一個數值,因此為一個指標(藍)。而如果我們透過 CASE 語法新定義一個「男性過半」欄位如下:

此欄位沒有經過匯總因此被視為維度,在上一張圖被標為綠色。因此一句話總結維度跟指標的功能就是:

維度負責「描述」資料; 指標則負責「衡量」資料。

資料透視表 (Pivot Table)

資料透視表很適合拿來看在不同條件下某個指標的表現。下圖是一個依照

  • 居住地
  • 國家

兩個維度計算「男性人數」指標的資料透視表:

依照官方文件有幾點值得注意:

  • 資料透視表最多處理 50,000 筆資料,為了避免 scan 資料太花時間,可以額外建立一些篩選器 subset 資料
  • 列維度跟欄維度最多可以分別設定 2 個維度(上例列欄各設定 1 個維度)

限制

可能因為還處在 beta 版本,在這篇文章寫的時候(2018/03)試用了一陣子發現 Data Studio 也有一些使用案例沒有辦法做到,像是:

  • 篩選器(filter)只能設定像是「欄位 C 大於 X」這種條件,而不能做「當欄位 C1 > 欄位 C2」這種欄位間的比較。
  • 同上,條件欄位也只能設定像是「欄位 C 大於某固定值 X」的條件
  • 資料透視表包含的資料稍多 (> 2000筆)就開始變慢 ..

實戰演練

這篇文章用的報表連結在,可以自己試試不同 visualization。有任何 feedback 也歡迎聯絡。

跟資料科學相關的最新文章直接送到家。
只要加入訂閱名單,當新文章出爐時,
你將能馬上收到通知