Menu

幾乎每天我們都能看到跟資料科學(Data Science)相關的新聞與文章,像是最近 Google 利用遞迴神經網路建立可以跟真人對話而不被發現的語音助理成為 Apple 等公司的資料科學家前必讀的面試題目等等。

市面上有大量資料科學相關課程、書籍供我們自由學習,事實上,多到一個人不可能看完。你有想過為何我們需要學習資料科學嗎?為什麼資料科學現在那麼夯?我們應該拿資料科學來做什麼?

抽離技術實作或者分析手法的討論,這篇文章試著用簡單的經濟學原理回答這幾個問題。

希望閱讀完本文的讀者能了解為何資料科學在資訊時代扮演重要角色,以及我們要怎麼有效率地把握「資料科學力」以創造更大的價值。

聽說你想當資料科學家?

資料科學大概是近年最夯的流行語之一了。不管在哪邊,你都可以聽到媒體相關的報導:

... 族繁不及備載。

而因為企業對擁有資料科學能力的人才需求大,想成為資料科學家(Data Scientist)的同學們也不少,相關的教學文章、線上課程如雨後春筍般湧現。這邊我沒辦法把它們一一列出,但你可以前往一些知名的線上課程平台如 CourseraUdemyDataCamp 並搜尋「資料科學」(或者 Data Science)就知道我的意思了。

DataCamp 上基本上全部都是資料科學相關課程,寫程式寫到飽 (圖片來源

如果我們把這些新聞報導或者教學課程,依照主題/領域做個粗略分類的話,還可以得到一些關鍵字:

  • 大數據(Big Data)
  • 人工智慧(Artificial Intelligence)
  • 資料視覺化(Data Visualization)
  • 機器學習(Machine Learning)
  • 深度學習(Deep Learning)
  • 統計分析(Statistical Analytics)
  • 雲端運算 (Cloud Computing)
  • Python、R、SQL
  • ...
資料科學涵蓋大量領域,各領域的專業知識就像一棟棟大樓將你包圍吞噬

想學習資料科學的同學這時候就頭疼了:

  • 「全部都要學嗎?從哪邊開始 .. 」
  • 「選 Python 或是 R 語言?還是先學 SQL?」
  • 「資料視覺化要學 Python 的 Matplotlib 還是 R 的 ggplot2 ?」

現在有些網站很用心,為了解決你的煩惱,還將相關的課程集結起來成一個專業課程(Specialization)讓你一步一步跟著學。

勤學如你,上了幾門課以後學會如何利用 Python 做簡單的機器學習模型使用 R 做資料視覺化,甚至也懂得使用 SQL 存取資料庫

恭喜!你是個資料科學家了!

...

痾.. 這麼簡單?好像哪裡怪怪的?

...

你會不會開始思考:

所以到底啥是資料科學?資料科學到底在夯什麼?為什麼我要學資料科學?

實際上會這樣想的不止你一人。在仔細思考並給上述問題一個合理的解釋之前,就算學了再多門課,充其量只是在不斷擴充自己的「資料科學工具盒」,但卻不知道「為何要買這些工具」、「要拿這些工具做什麼」。

資料科學工具箱:琳瑯滿目,酷!但你要用這些工具創造或是改善什麼?

因為你學的是方便實踐資料科學的程式語言、工具、方法論(Methodology),而不是「為什麼資料科學重要」。我會用剩下的篇幅試著對此問題給出一套解釋。解釋方法有很多種,所以非常歡迎在底下留言分享你的看法。

不過現在,且聽我娓娓道來。

資料科學到底在夯什麼?

除了耳熟能詳的「技術發展快速」、「資料量龐大」的理由以外,資料科學之所以那麼夯,背後還有一個可想而知的巨大推手:「商業利益」。

要進一步解釋這個概念,我們可以從 Google 首席經濟學家 哈爾·范里安 在 2009 年接受麥肯錫的訪問,探討網際網路對企業的挑戰中看出一些端倪。(真知灼見,建議作課外閱讀)

近年網際網路快速發展。要在網路上發表內容,對任何人或者任何企業來說都是輕而易舉的事情。這邊說的內容(Content)可以是任意資訊,比如説:

  • 一則 Facebook 粉絲團貼文
  • 一則銷售青島啤酒的網頁
  • 一個教你學習資料科學的線上課程網頁
  • 一篇部落格文章(像你正在看的這篇)

因為傳播媒介以及科技的進步,要在網路上發布這些資訊並讓他人注意到的成本趨近於零,而其導致的結果就是全球的資訊量急速成長。被稱為人工智慧之父之一的經濟學家 赫伯特·西蒙 針對這種現象就曾說過一句名言

在一個資訊豐富的世界裡頭,資訊量的富裕導致人們注意力的貧窮。

以個人的角度來看,在時間以及精力有限的情況下,我們每天能接受資訊的時間以及注意力都是有限的。如何分配這些寶貴的注意力以接收對的資訊,變成現代人的課題。

痛點即商機。很多企業透過解決這個資料超載(Information Overload)的問題來提供使用者價值:

  1. 漫畫網站把所有知名漫畫整理在一起供你閱讀
    • 價值:統整、數位化、自動更新散落各地的漫畫資訊
  2. Google 提供搜尋功能給你
    • 價值:讓你快速找到存在地球上的任何相關資訊
  3. Youtube 讓你免費看到飽
    • 價值:讓你隨時看全世界最新的貓咪影片
  4. 只要喊「+1」Facebook 粉絲團就免費把「珍貴」的內容給你
    • 價值:給你數位內容如新產品資訊、整理過後的旅遊資訊等

天下沒有白吃的午餐,企業願意這麼做必定有得到什麼。你的確取得了免費的數位內容(文章、影片、漫畫),但又付出了什麼?

資訊時代最珍貴的資源是人們(與喵)的關注

實際上,不管是閱讀文章、觀看影片、瀏覽漫畫,你都是在拿了你最寶貴的「注意力」跟企業交換這些價值。而在成功獲得你目光的同時,這些企業則透過秀廣告給你來獲利(例 1 - 3,暫不考慮 AdBlock)。

註:在這邊,「注意力」跟「時間」有些微秒差異。不過你只要回想昨天晚上跟朋友或是家人吃飯的時候,各自滑手機的景象就可以了:你把「時間」花在跟身旁的人吃飯,卻把「注意力」(或者說是關注)放在手機裡頭的數位資訊。(如果你沒用手機,我很抱歉。)

例 4 很有趣,你是拿「你自己以及你朋友圈的人的注意力」來做價值交換(你的留言讓 Facebook 的演算法自動推播該貼文到你朋友的動態牆上,粉絲團賺到他們的關注),但基本上是同樣的道理。

資訊時代最常見的價值交換:給我你的關注,我就給你免費資訊(外加廣告)

以經濟學的角度來重述前面的觀點,現在的資訊時代最不缺的資源就是「資料」;稀有、價值高且需要小心分配的稀有財是「人們的注意力」。在這個資訊爆炸的時代,企業透過加工處理大量的原始資料,產生新產品、服務及價值來換取該稀有財:

誰能善用資料科學的力量、從現有數據創造新價值、服務或產品,並以此吸引人們珍貴的關注,就能獲得商機。

這就是為何資料科學那麼夯的其中一個原因:從資料中創造新價值,進而產生商業利益。

啊所以那個資料科學勒?

聽到上面的例子,有些人的想法可能是:

  • 「哇這些企業好狡猾把我的注意力都偷走了!」
  • 「這樣回覆 +1 好有罪惡感喔嗚嗚」
  • 「好險我用 AdBlock 嘻嘻」

但這邊重點是要說明,這種依靠廣告的商業模式已經行之多年。Facebook、Google 等企業為了抓住我們的目光,持續不斷地在精進,以求能有效率地儲存、處理以及分析由我們產生的大量數據。

而他們用來處理、分析、視覺化以及理解數據的這些程式語言、工具、方法論的總集合就構成所謂的資料科學。

資料科學的本質是搜集、理解、分析、處理以及視覺化數據,並從中萃取有用價值。

讓我們以一個簡單的 Google 搜尋做更進一步的解釋。

想像你在 Google 上搜尋「 data science courses 」後可能跑出以下結果:

Google 日常:搜尋結果之上有幾個相關廣告

沒什麼特別的,Google 日常不是嗎?

現在試著做以下步驟:

  1. 開一個新的分頁/視窗
  2. 隨便搜尋一個你有興趣的商品/產品,記下出現的幾個廣告還有它們的順序。
  3. 隨便點幾個連結或者什麼都不做

重複步驟 2 跟 3 幾次以後,你應該可以觀察到顯示的廣告消失或者順序改變了:而這是因為背後有 Google 的廣告競價系統在運作。下面是這系統的超級簡化示意圖:

Google 廣告競價:運用使用者的行為資料,即時地推算出該使用者點擊各廣告的機率。搭配業主的出價,選出適當的廣告顯示。

要完成此系統需要強大的資料科學技術支持。只有一個人搜尋的時候事情還好辦,但你得知道,在本文撰寫當下,Google 平均 1 秒鐘處理 67, 000 筆搜尋。試著想像一下,為了實現這個系統,Google 可能需要完成以下幾件事情:

  • 使用深度學習進行自然語言處理,判斷使用者輸入的語言以及想要表達什麼
  • 即時處理所有使用者查詢的串流數據
  • 利用使用者過往的瀏覽紀錄來預測點擊某廣告的機率
  • 在公司內部監控目前台灣使用者的搜尋趨勢(類似 Google Trend)

機器學習、統計分析、大數據 ... 這些工作運用到的技術,不就是那些我們在聽說你想當資料科學家章節裡頭看到的關鍵字嗎?

我們這篇只以 Google 的廣告系統為例,但實際上現在幾乎可以說是全世界都在想辦法利用資料科學的力量來處理資料並創造新的價值、服務、公司。看看現在的新創,有哪些沒有用到資料科學?

所以你現在知道為何資料科學那麼重要了。

全世界都在想辦法活用資料科學,以從龐大數據中為潛在使用者創造更多價值。

充實你的資料科學力

綜觀資料科學一詞萌芽到最近的過程,全世界的資料量持續成長,而人們也不斷地在想辦法追趕這些資料:

  • 用最有效率的方式儲存這些資料
  • 用最快的速度處理及分析這些資料
  • 對這些資料做實驗,重複再重複測試不同的假說及演算法
  • 快速地從資料萃取出新的洞見(Insight)
  • 以這些洞見創造新的價值、產品、服務
  • 加速以上步驟所需要的循環時間

如同前面 Google 的例子,這些都是資料科學。

你會發現,所謂的資料科學(Data Science)就是對資料(Data)做科學、有系統地(Scientific)的處理罷了。資料科學一詞或許誕生沒多久,但對資料做科學這概念老早就存在了。只是近年因為

等等原因,讓我們更急迫地想辦法用以往做不到的方式來理解這個世界的龐大數據。 Youtube 現在能夠分析出你喜歡看貓咪影片Google 可以建立跟真人對話而不被發現的語音助理。這些都是他們利用資料科學,從現有的大量數據創造額外價值的例子。如同這篇所說的:

未來是屬於那些能從大量複雜數據創造價值的企業以及人才的。

一個好消息是:

  • 一企業擁有的資料量
  • 一企業裡能夠處理、分析此資料量的資料科學人才數量

這兩者在多數企業都是不成比例的(後者短缺),因此擁有資料科學能力的人才薪水可以說是水漲船高。而這當然也變成為何近年那麼多人想成為資料科學家的動機(儘管有些人可能不知道背後原因)。

了解資料科學相關知識的人才 : 是大多數的企業積極尋找的對象


在了解這點以後,你可以先想想自己的興趣在哪裡、想用資料科學創造什麼價值。這邊想強調的是,先思考你能透過資料科學,創造什麼新的「價值」,而不是什麼「商業利益」。

如同我們前面看到的,資料科學是現行廣告經濟的背後推手,但為何我們願意看 Google、Facebook 丟給我們的廣告?那是因為他們「先」從資料創造了價值(方便的搜尋功能、社群網路功能)從而取得我們的關注。

實際上,在取得關注以後,你的商業模式不是一定要秀廣告給使用者看。訂閱制(Subscription)或會員制是一個替代方案: NetFlix 和 Amazon 都是這樣。甚至,你可以不像 Google 一樣思考,使用新的商業模型。

但「商業模式」不是這篇想討論的議題。重點是「價值」:

在資訊爆炸的時代,各行各業的每個人都需要學習如何善用資料科學,從數據中創造新的價值。

事實上,與其想著要成為一個資料科學家,不如先好好想想,在自己目前所在的業界、公司、職位能怎麼利用手邊的資料數據搭配資料科學來創造新的價值。

結語

如果你耐心地看到這邊,代表我得到你最珍貴的關注了,賺賺賺!

稍微複習一下,我們在這篇文章開頭假想了一個有志學習資料科學的同學。在他/她學習資料科學的過程產生了幾個疑問:「為何資料科學那麼夯?」「為何我們需要資料科學?」

而本篇則以非常簡單的經濟學供給概念,加上 Google 以及 Facebook 的運作方式來說明現在的企業是怎麽利用資料科學來創造新的使用者價值來交換人們的關注。

我們接著說著為何今後各行各業都需要「資料科學力」來處理日益增加的資料數據並為人們建立新的價值。事實上很多職稱不是「資料科學家」的人現在都已經在做著資料科學:

搜集、理解、分析、處理、視覺化資料數據並從中萃取有用的價值

當年網際網路開始蓬勃發展,軟體工程師是最夯最潮的行業。儘管現在工程師的重要性並沒有下降,隨著人們的程式能力穩定上升,軟體工程師回歸平凡,甚至還有人戲稱為「碼農」、「程式猿」。

歷史總是不斷重演。

或許再過幾年,等人們的資料科學力上升到一定階段,資料科學變成呼吸喝水般的知識以後,資料科學家們也會被人戲稱為「資料農」。

或許當你幾年後遇到我,我可能這樣回你:

嘿!我就只是個資料農!你也是嗎?

跟資料科學相關的最新文章直接送到家。
只要加入訂閱名單,當新文章出爐時,
你將能馬上收到通知