如同以往,這篇文摘會介紹幾篇最近作者閱讀的文章以及其摘要。
不過這次在條列式列出文章以前,我想先跟你分享身為一個資料科學家(Data Scientist,DS),我在閱讀這些文章後得到的一些想法。
與其說是想法,應該說是「針對資料科學家這個職業,自己感受到的一些發展趨勢以及對這個職業接下來數年的職涯預測」。對於那些只有 3 分鐘可以閱讀此文的你,這些想法可以歸納成以下幾點:
- 資料科學家未來將能花更多時間在從事「更高層次」的工作,但同時也需具備更專業的能力
- 學習程式語言及分析工具很重要,但是對資料科學家來說,溝通能力以及領域專業順位第一
- 資料科學家這個職業終將式微或消失,不只 IT 產業,未來(現在)各行各業都會有善用數據的人才
- 跟資料科學領域相關的工作會依照專業越分越細,最終成為各式各樣的數據職業
接下來我將會列出本週的閱讀清單,並在簡單說明各篇摘要的同時,一一描述它們是如何跟上述幾點概念互相呼應。最重要的,我們將探討在這個什麼職業都跟數據扯上關係的年代,你要如何在「全球數據科學 MMORPG」裡頭,找出自己的定位以及角色。
這篇文章適合對資料科學領域有興趣,或是未來想從事數據相關工作的你。放心,以文章長度來說,保證比上一篇文章:「一段 Airflow 與資料工程的故事:談如何用 Python 追漫畫連載」要來得平易近人許多。
讓我們開始本週的閱讀之旅吧!
本週閱讀清單¶
- One Data Science Job Doesn’t Fit All
- The Death of the Data Scientist
- How to be a bad data scientist!
- Beyond Interactive: Notebook Innovation at Netflix
- What Data Scientists Really Do, According to 35 Data Scientists
如同以往的文摘,你可以從任意一篇開始看我寫的摘要。不過建議先把所有標題掃過一遍,感受一下我們接下來要談的話題。
另外如果真的很趕時間,可以直接跳到文章最後看我給你的建議。
在這篇文章中,Airbnb 解釋他們如何在經過多年發展資料科學以後,將資料科學家分為三個路線(Tracks):
- 分析路線(Analytics)
- 演算法路線(Algorithms)
- 推論路線(Inference)
會這樣做的其中一個很大原因是因為「資料科學」包含的領域太廣,不像這樣細分的話,第一,DS 們不知道自己該注重在什麼方面的知識;第二,公司內部跟某個 DS 合作的團隊也不知道他的專精以及該怎麼期待他的能力。
其實想想很自然。就像是現在我們很習慣將工程師粗淺地分為前端(Frontend)和後端(Backend),未來的資料科學家也有很大機會依照個人的專精以及企業需求來細分路線。要不現在你想知道一家公司對 DS 的定義,還得親自去問裡頭的資料科學家到底在做什麼,且十家公司的 DS 可能會給你 9 種答案。
理想上一個資料科學家是通才(Generalist),三個路線的專業都大致了解。儘管如此,學海無涯。一個建議是至少找出哪個路線你有興趣,去專精它,並尋找渴望你專業的企業。
這呼應到我們最前面提到的第 4 項趨勢(也是最重要的一項):
跟資料科學領域相關的工作會依照專業越分越細,最終成為各式各樣的數據職業
將這些路線想像成角色扮演遊戲(RPG)中的角色就對了!順帶一提,作者自己想專注在演算法路線,輔修分析路線,你呢?
另外這篇沒提到跟資料科學密切相關的資料工程(Data Engineering),個人臆測是因為 Airbnb 的資料平台本身建得夠齊全,有很專業的資料工程師在幫 DS 完成這些事情。
「資料科學家的滅亡」。
非常聳動的標題,而且你可以從封面圖片看出作者想要表達 DS 會像恐龍一樣滅絕。
不過基本上我是認同的。
不是說 DS 不再重要,而是再過幾年,就像當年的「大數據」風潮,各企業或許不會再像現在一窩蜂地招聘大量的「資料科學家」,而是各行各業的每個人都能很自然地將資料科學應用在自己的工作裡頭。 如同我們在揭開資料科學的神秘面紗一文提到的一樣,在數據驅動的時代之下,培養「資料科學力」將不再只是資料科學家的專利;就算你不是資料科學家,也應該加入這個行業。
這呼應到我們最前面提到的第 3 個趨勢:
資料科學家這個職業終將式微或消失,不只 IT 產業,未來(現在)各行各業都會有善用數據的人才
這篇說明了一般人在學習資料科學時會有的一些錯誤思維,我們應該隨時警惕自己並改善學習態度。
我自己歸納一下新手 DS 常會遇到的迷思或困境:
- 缺乏持續學習的動力:剛開始你可能因為資料科學很夯,薪水很高決定成為一個 DS。但資料科學領域的最大特色是變動很快。缺乏熱情或是單純跟隨潮流的人,如果沒有持續學習的動力可能會中途開始懷疑人生
- 誤以為了解全世界:上了幾門線上課程或是參加過 Kaggle 競賽,利用乾淨的資料在 Jupyter Notebook 上建立一個 XGboost 模型就誤以為掌握了所有的資料科學。事實上,業界的 DS 需要做更多事情,如清理資料、建立可靠的資料管道以及與其他部門溝通協調等等。雖然本文沒辦法教你怎麼做良好溝通,想多了解資料工程的話可以參考資料科學家為何需要了解資料工程
- 為了學而學,沒有思考如何應用所學:這點甚至稍微資深的 DS 都會遺忘。你最少要嘗試將平常閱讀的文章、學到的分析手法應用在解決工作上的問題。甚至更好的是,改善自己或者周遭人們的問題
這篇並不直接跟本篇主題相關,不過值得 DS 們參考。
平常有在關注 Jupyter Notebook 的 DS 們想必都注意到 Netflix 這篇文章了吧。
Netflix 的資料平台(Data Platform)團隊發現,儘管企業內部有各式各樣使用該平台的使用者(如 DS、資料工程師以及分析人員等),並且表面上看來都在使用不同的程式語言,不同的工具,但事實上這些平常在處理數據的人的工作流程(Workflow)大多都可以分為這幾個步驟:
- 存取資料
- 資料處理
- 資料視覺化
- 排程以及產品化(Productization)
在明白這點以後,Netflix 的資料平台團隊展示了他們如何利用 Notebook 的「介面跟計算分離」這個特性,開發出能讓所有分析人員使用的統一介面。
在 Netflix 裡頭,任何一個 DS / DE 都可以利用一個簡單的 Notebook 介面做到:
- 存取 Netflix 裡頭所有的數據:內部有專門的團隊維護一個可以存取所有資料的 Python 函式庫
- 參數化 Notebook:一個 Notebook 可以變成一個模板(Template),讓使用者可以每次利用不同參數重新執行類似的數據處理
- 排程(Scheduling)。當使用者決定為目前 Notebook 規劃排程後,該平台會將當下使用者的 Notebook 存到 AWS S3 變成排程工作的參數設定,並在實際排程時建立輸出用的 Notebook,將所有 Logs 以及輸出都放在該輸出用的 Notebook 裡面,方便之後查看以及除錯。這最小化了一個 DS 建立 ETL 工作的時間以及人力成本。
這篇因為篇幅關係不會進一步解釋,但就算你平常沒在用 Notebook,應該也能感受到 Netflix 的數據平台團隊為了支援每天能在 100 PB 的數據量上跑的 15 萬個處理工作(Job)所做出的努力吧!
抽象化(Abstraction)是對付複雜性(Complexity)最好的解藥。
這個例子我們看到,Netflix 為了提高他們內部資料科學家的效率以及規模性(Scalability),做了一個這樣的數據平台,將所有基本的資料工程,甚至是對一個正常的 DS 來說需要花不少時間熟悉的數據處理流程都自動化 / 抽象化了。
在全球數據量仍然爆炸性成長的今天,這樣的抽象化只會越來越普遍地出現在各個企業裡頭,而這對一個資料科學家來說當然是好事。再過一陣子,一個一般的 DS 或許也就不用再花所謂的 80 % 時間來做數據清理、建構資料管道等瑣事上,而是能有更多的時間在建構預測模型、進行複雜分析等更高層次的工作。
現在我們已經有各種開源的自動化工具,幫我們快速地將機器學習產品化(如 Amazon 的 SageMaker)、自動化清理數據的工具(如 Google 的 CLOUD DATAPREP)等等。一方面 DS 要慶幸這些事情可以被自動化,一方面則要努力學習新知,不能停滯不前。
這呼應到我們前面提到的第 1 點趨勢:
資料科學家未來將能花更多時間在從事「更高層次」的工作,但同時也需具備更專業的能力
儘管我們並不都在有這些平台的企業工作,了解自己企業的現有狀況,盡可能將能夠自動化的「數據處理瑣事」抽象化,能讓一個 DS 提高自己的效率以及工作價值。
如果只有閱讀一篇原文的時間的話,我推薦你這篇哈佛商業評論的文章。
這篇透過訪談多位資料科學家的工作經驗,讓我們能好好地思考「資料科學家」這個職業的未來走向。
首先,根據這些資料科學家所說,(事實上我也這麼認為)一個 DS 並不像有些人想像的,整天在研究 AI 演算法。
實際上,這些 DS 在做的是:
- 資料搜集、資料清理
- 統計推論(Statistical Inference)
- 建立儀表板(Dashboard)或是績效報告
- 實作機器學習以及資料處理管道(Date Pipeline)
- 跟決策者辯論,影響企業決策
- 跟專案的利害關係人說明分析結果
從這篇文章,我們也再次觀察到同樣的趨勢:現在的資料科學家的工作範圍以及被期待的技能樹過於廣泛,未來將會再進一步細分。其專業領域的細分的方式則可能依企業不同而異,像是前面提到 Airbnb 的 DS 的三個路線;或是此篇文章內提到的 Type A、Type B 的資料科學家;或是更廣泛地分為資料科學家、資料工程師以及機器學習工程師。
我們同時也從這些專業的資料科學家的口中再度認識到溝通能力的重要。
比起建立複雜的深度學習模型,學會做一個好的簡報,並跟非技術專業的利害關係人溝通結果,進而影響企業決策才是對一個 DS 來說更為重要的事情。
人類大歷史的作者哈拉瑞 Yuval Noah Harari 最近也在訪談中提到未來 AI 時代裡頭,人類 4 個最重要的技能 4C:
- 批判性思考(Critical Thinking)
- 合作能力(Collaboration)
- 創造能力(Creativity)
- 溝通能力(Communication)
這呼應到我們最前面的第 2 點的發現:
學習程式語言及分析工具很重要,但是對資料科學家來說,溝通能力以及領域專業順位第一
結語¶
在這篇文摘裡頭,我們透過閱讀不少跟資料科學家相關的文章,了解到了幾個 DS 的職涯趨勢:
- 資料科學家未來將能花更多時間在從事「更高層次」的工作,但同時也需具備更專業的能力
- 學習程式語言及分析工具很重要,但是對資料科學家來說,溝通能力以及領域專業順位第一
- 資料科學家這個職業終將式微或消失,不只 IT 產業,未來(現在)各行各業都會有善用數據的人才
- 跟資料科學領域相關的工作會依照專業越分越細,最終成為各式各樣的數據職業
這些都是不錯的發現,但如果你只能記住其中一個的話,我希望是最後一個。
如同我們在 Airbnb、Netflix 的例子以及多名專業的 DS 口中可以觀察到這個現象:
- 在不久的將來,非常有可能各個企業都依照分析領域的不同,再度細分一個 DS 的工作,並將其分為不同的路線,或是直接產生新的職業。
要我打個比方的話,就是像真實世界的 RPG 一樣。
在急著成為一個資料科學家之前,仔細思考數據科學領域裡頭,究竟什麼地方吸引你?
你是喜歡做統計分析、執行 AB 測試來提供產品改善的洞見嗎?
還是你熱衷於研究機器學習演算法,想辦法利用龐大數據改善企業的數據產品(Data Product)呢?
或者你對建構能夠處理大規模資料的數據平台的工作感興趣呢?
不管你的答案是什麼,既然我們在玩 MMORPG 遊戲(好吧,可能只有我玩)的時候都會去認真地理解每個職業的優缺點、技能樹等等,為何不將各種數據職業視為一個個的 RPG 角色,了解自己的興趣以及跟這些職業的適合程度呢?
玩遊戲很嗨,能把規劃數據相關的職涯當做遊戲來玩更嗨。
最後,讓我把文章開頭所問的問題交給你思考並回答:
數據科學 MMORPG 全球玩家齊聚上線。你,選好自己的角色了嗎?
跟資料科學相關的最新文章直接送到家。 只要加入訂閱名單,當新文章出爐時, 你將能馬上收到通知