- 真正的數據科學家面臨的 8 個挑戰是什麼?
- 何時一個資料科學家可以說他 / 她真正地「完成」了工作?
- 10 個儀表板設計的原則是什麼?
- 何謂「被駭」人生?
為了了解這些跟資料科學息息相關的問題以及可能的解答,這週我們一樣會透過閱讀幾篇文章,來分別了解幾位優秀的資料科學家、UI/UX 設計師甚至是歷史學家是怎麼想的。如同以往的文摘,針對每篇英文文章我會附上摘要並穿插自己的心得,供時間寶貴的你做參考。
事不宜遲,讓我們直接開始吧:)
本週閱讀清單¶
- When Your Job Is Done as a Data Scientist
- 8 Real Challenges Data Scientists Face
- Data visualisation, from 1987 to today
- 10 rules for better dashboard design
- Hackable humans and digital dictators
本週想跟你分享 5 篇文章。如同以往的文摘,你可以點擊任一連結,從有興趣的摘要看起。有時間的話,我則鼓勵你點擊下面各文章的標題 / 圖片來查看英文原文。
在一個企業裡頭,資料科學家(Data Scientist, DS)常常會被各個部門(Product, Marketing, Sales Team etc)要求做各種不同的分析。如果你把每個分析視為一個專案(Project)的話,2 個你常常會需要問自己的問題是:
- 什麼時候可以說這個專案完成了?
- 要做到什麼程度可以說我這個工作做完了?
在這篇文章裡頭,資料科學家 Conor Dewey 說明了一個簡單的判斷原則:
如果利害關係人無法利用你的成果做出決策,則你的工作就不算完成。
如果專案的利害關係人(Stakeholders)沒有辦法利用你的分析成果做出(好的)決策,則你的工作就還沒結束。反之,當你確定自己的工作結果能夠影響企業決策後,就不需要再去鑽研一些太複雜但沒有 actionable impact 的事情上面。
如同我們在之前的文摘中看到的,比起建立複雜的深度學習模型,學會做一個好的簡報,並跟非技術專業的利害關係人溝通結果,進而影響企業決策才是對一個 DS 來說更為重要的事情。
為了產生最大的影響力,不管在做什麼分析或者專案的時候,都得要好好控管自己的時間以及專案的優先順序(Priority)。
你會發現,這其實就是我們從小到大在說的「輕重緩急」。
將專案依照重要性(Importance)以及緊急程度(Urgency)分為四個象限以後,你就能很清楚地知道該把自己大部分的工作時間花在那些最重要,且緊急的專案上面(上圖的左上角),藉此最大化自己的影響力。
重要的事情通常不太緊急;緊急的事情大多不太重要
─ 艾森豪
富比士的這篇文章說明數據科學家在實際工作時會面臨到的 8 個挑戰。以下是我針對這些挑戰,整理出來 5 點 DS 應該時時刻刻放在心上的準則:
- 你得至少專精一個部門的領域專業。此部門可以是銷售、行銷、廣告或是產品部門,擇你所愛
- 能向非技術人才、利害關係人簡單明瞭地說明洞見以及可執行的決策,並把技術細節留到 Q&A
- 不要盲目地想從資料中找出什麼。先利用領域專業或者是直覺來弄出一個假設,然後利用數據驗證結果
- 明白一個分析的「可信度」只跟你用來做出該分析的原數據「品質」一樣高
- 不斷地磨練自己處理數據的技能。這通常體現在使用 Python、R 以及 SQL 的能力
關於第 2 點,此篇文章則是這樣說明的:
A data scientist that cannot articulate what their model does and why it’s of value to business stakeholders is going to have a difficult path to success.
有固定在追蹤本部落格的你,想必已經非常了解清晰溝通的重要性。你也可閱讀之前的資料科學文摘 Vol.4 來了解更多相關內容。至於第 4 點,我們則在兩篇文章中有針對資料工程以及數據品質做些著墨:
Garbage in, garbage out。
了解企業內的資料處理流程,可以讓你合理地評估利用這些數據產生出來的分析,到底有多少價值以及可信度。
在經濟學人負責資料視覺化的 Graham Douglas 分享他從 1987 年工作到現在,所使用的工具以及製圖歷程。遠在 2, 30年前,在「資料科學」這詞根本還不存在的年代,資料視覺化更像是一門藝術,而不是資料科學:
Before computers, creating charts was a lot more like art than data science.
對已經習慣使用 Matplotlib、ggplot2 以及 Tableau 等資料視覺化工具的 DS 來說,可能很難想像製作一張折線圖,還需要自己拿尺出來畫等間距格線的時代。
雖然我們現在已經可以利用各種程式語言來輕鬆製圖,讀這篇文章能讓我們重新思考並感謝現代資料視覺化工具帶給我們的方便。我們也看到持續學習新技術以及工具的重要。
對資料視覺化或是 R 語言中的 ggplot2 有興趣的話,可以參考淺談資料視覺化以及 ggplot2 實踐。
UX/UI 設計師的 Taras Bakusevych 提供了一些很不錯的儀表板(Dashboard)設計建議。
3 點我覺得可以特別提出來:
- 簡潔,想辦法把精華弄在一頁
- 不要太依賴互動性,要讓使用者不需什麼操作就能得到重要資訊
- 選擇對的視覺呈現方式來陳述你想表達的數據關係
針對第 1 點,文章是這樣說的:
Don’t tell the full story, instead summarize, surface only key info.
大部分儀表板的用意是要讓使用者在「幾秒鐘」之內掌握所有他需要知道的重要資訊。
為了達到這個目的,你應該仔細思考,到底該在儀表板上的有限空間裡頭(一個視窗畫面內)顯示什麼圖表。
不要因為大部分的儀表板可以無限捲動,你就一直往下加新的圖表。什麼圖表都放進去的話,很容易造成資訊過多(Information Overload)而導致使用者抓不到重點。
針對
- 「選擇對的視覺呈現方式來陳述你想表達的數據關係」
這點,文中則給出一個數據關係跟圖表類型的對照表:
對於一個老練的 DS,這些判斷基準應該都已經很自然地存在你腦海之中的吧!不過我覺得這很適合當做一個 reference 或者 cheatsheet 來使用,提醒自己。
這篇文章記錄了人類大歷史的作者,以色列歷史學家 Yuval Noah Harari 最近在接受新書訪談: 21 世紀的 21 堂課的內容。
你會說,為何在資料科學文摘裡頭包含了這篇文章?
在這個一切以數據為本,「數據主義」超越「人文主義」的時代,身為一個 DS,我覺得除了注重數據分析的手法以外,作為一個有血有肉的「人」,也需要去了解數據、機器學習以及 AI 會對未來的我們以及下一代造成什麼樣的影響。這篇訪談中 Harari 用易懂的方式,以歷史學家的角度說明這件事情,值得一讀。以下是我閱讀後整理的摘要。
21 世紀人類面臨的 3 個挑戰:
- 核子戰爭
- 氣候變遷
- 科技破壞(Technological Disruption)
這些挑戰最難的點在於,它們並不能只靠單一一個國家解決,而是要跨國合作。
而前 2 個挑戰幾乎所有人都理解,因此或許不會發生,但最後一項挑戰(科技破壞)的影響卻不太明顯。
未來的人工智慧(Artifical Intelligence, AI)肯定會自動化掉更多人的「現有」工作。這些 AI 系統也將透過更多的 IoT 裝置來蒐集更多我們的資料(像是搜尋紀錄、身體資訊、情緒變化等),分析這些數據以後來幫我們自動做決策。
這些系統甚至最後可能會告訴我們(現在已經有些系統號稱):
- 「透過大數據分析,我比你自己還懂你自己」
這就是所謂的「被駭人生」:這些利用機器學習或是人工智慧的系統能 hack 我們,透過大數據分析,在我們實際行動之前,就已經精準地預測,或者說是大幅度地直接影響我們內心、腦中的決策。你只要想像你現在在做大多數決策的時候,是比較常「聆聽自己內心的聲音」還是去「查看網站、服務、App 給你的個人推薦」就可以稍微了解這點了。
We’re becoming Hackable human.
注意的是我們可不是在討論科幻小說,這邊的 AI 不會有情緒感情,只是有著龐大數據、運算能力以及複雜演算法的系統。
如果我們是這些 AI 系統的主人,AI 是為我們每個人自己的利益來服務的話很好。但看看那些大量蒐集你的數據的科技公司:一個比較可能出現的未來是,少數菁英掌握了 AI 力量,而 AI 會為了他們的利益而服務。在這樣的情況下,大多數的人類都會成為不重要的存在,等著被機器取代(如果我們什麼都不做的話)。
The most important fact anybody who is alive today needs to know about the 21 century is that we are becoming hackable animals ... If you can hack something, you can replace it.
這不是在危言聳聽,而是在討論現在的科技發展趨勢之下,可能產生的一個未來。重點是我們在了解現況以後,打算怎麼改變未來。
在找出解決方案之前,你得先了解有什麼問題。
現在還在閱讀 21 世紀的 21 堂課,希望之後能再跟你分享一些我的讀後心得。
結語¶
在這篇文摘裡頭,我們透過幾篇文章來了解以下幾個議題:
- 數據科學家的一些工作準則
- 最大化你的工作影響力並為專案分優先順序
- 幾個儀表板設計的原則
- 數據主義時代下的「被駭」人生
因為本文篇幅有限,我只能跟你分享閱讀這些文章以後,自己覺得最精華的一小部分。
閱讀這些文章讓我受益匪淺,因此我分享了自己的摘要,希望能幫助到沒有時間閱讀全部文章的你。儘管如此,我仍建議你從有興趣的議題開始閱讀原文或者相關文章以進一步學習。
同時非常歡迎閱讀後跟我分享你的想法,或是提供一些你覺得有幫助的相關文獻,我會很感激。
Remember we are what we read. Read those books or articles that will make you a better person :)
跟資料科學相關的最新文章直接送到家。 只要加入訂閱名單,當新文章出爐時, 你將能馬上收到通知