Menu
2018-08-10 (Fri)
2,271 views

資料科學文摘 Vol.3 Pandas、Docker 以及數據時代的反思

不同於上週的文摘,這週的選文比較技術以及實作導向。本週將導讀 3 篇使用 Python 以及 Pandas 的文章,並鼓勵讀者實際動手學習。我們也會看到如何使用 Docker 來讓資料科學變得更簡單,並提供一個有趣的貓咪圖片辨識 App 給有興趣的讀者參考。最後,讓我們分別看看哈佛商業評論以及美國前首席資料科學家 DJ Patil 談談如何讓資料科學在企業內普及,以及數據時代我們面臨的各種道德議題。

2018-08-03 (Fri)
1,916 views

資料科學文摘 Vol.2 產品理解以及 DS / DE 之路

這週一樣會透過導讀一些優質文章,讓讀者了解 3 個問題:為何一個專業的資料科學家需要具備「產品理解」? 何謂「顧客流失分析」? 我們該如何使用 Python(XGBoost)來建立簡單的預測模型以改善產品? 此外,我們也將簡單介紹在資料科學領域中逐漸崛起的「資料工程師」,其職責以及專業跟「資料科學家」有何不同。最後也會分享一些與資料科學家/資料工程師相關的文章。

2018-07-29 (Sun)
2,519 views

資料科學文摘 Vol.1 AutoML、Airflow 及 DAU

這週介紹幾篇機器學習、資料工程及 App 分析的優質文章以及重點摘要,關鍵字包含:AutoML、Airflow 以及 DAU / MAU。希望讓更多人能更快地掌握資料科學領域的知識,找出自己有興趣的領域專研,並激盪出更多的討論。透過閱讀大量的相關文章並從它們學習及模仿,我們可以更快地,且有效率地成為一個稱職的資料科學家。

2018-07-07 (Sat)
4,645 views

資料科學家 L 的奇幻旅程 Vol.1 新人不得不問的 2 個問題

為了讓有志成為資料科學家,或是單純想要了解的讀者們能理解資料科學是如何實際被企業應用,以及讓自己多一點反思的機會,趁著最近開始在 SmartNews 的新工作,我打算開始紀錄自己平常的工作內容以及一些經驗分享。作為系列文的第一篇文章,我們將探討一個資料科學家在進入新公司熟悉環境的時候,除了問該裝什麼工具以外,可以問的兩個重要問題。

2018-06-16 (Sat)
5,579 views

從彼此學習 - 淺談機器學習以及人類學習

說到近年最熱門的機器學習或者人工智慧,因為知識背景以及觀點的不同,幾乎每個人都有不一樣的見解。雖然我們有千百種定義、無數的專業術語,這篇文章希望用直觀的方式以及具體的例子,讓讀者能夠在跳入一大堆 ML 的教學文章以及線上課程之前,能以一個更高層次且人性化的角度理解機器學習,並進而思考要如何開啟自己的機器學習旅程。

2018-05-25 (Fri)
35,750 views

從經驗中學習 - 直觀理解貝氏定理及其應用

貝氏定理(Bayes' theorem)是機率論中,一個概念簡單卻非常強大的定理。有了機率論的存在,人們才能理性且合理地評估未知事物發生的可能性(例:今天的下雨機率有多少?我中樂透的可能性有多高?),並透過貝氏定理搭配經驗法則來不斷地改善目前的認知,協助我們做更好的決策。這篇將利用生活上我們(或人工智慧)常需要考慮的事情當作引子,如今天的下雨機率是多少?來直觀地了解貝氏定理是怎麼被應用在各式各樣的地方。我們甚至可以效仿貝氏定理的精神,讓自己能更理性地評估未知並從經驗中學習。

2018-05-11 (Fri)
5,535 views

揭開資料科學的神秘面紗

市面上有大量資料科學相關課程、書籍供我們自由學習,但你有想過為何我們需要學習資料科學嗎?為什麼資料科學現在那麼夯?我們應該拿資料科學來做什麼?抽離技術實作或者分析手法的討論,這篇文章試著用簡單的經濟學解釋其背後原因。希望閱讀完本文的讀者能了解為何資料科學在資訊時代扮演重要角色,以及我們要怎麼有效率地把握「資料科學力」以創造更大的價值。

2018-04-30 (Mon)
13,699 views

為何資料科學家需要學習 SQL

這篇將簡單討論資料科學家必備的能力之一:結構化查詢語言(SQL)在概念上跟命令式程式語言如 Python 有什麼不同之處,以及在什麼樣的情況下我們會想要利用 SQL 做資料分析。這篇注重在為何你會想要使用 SQL 做資料分析,而非 SQL 本身功能的教學。如果要學習 SQL 本身,可以參考本文最後面的推薦閱讀。

2018-04-23 (Mon)
14,028 views

資料科學家為何需要了解資料工程

透過描述資料科學家的一天日常,本文將簡單介紹資料工程(Data Engineering)的概念、其如何跟資料科學相關。以及最重要的,作為一個資料科學家應該如何學習並善用這些知識來創造最大價值。身為一個資料科學家,擁有資料工程的知識可以提升工作效率,點亮你的方向並加速專案前進。

2018-04-14 (Sat)
6,546 views

淺談資料視覺化以及 ggplot2 實踐

這篇主要描述自己以往在利用 Python 做資料視覺化時常犯的思維瑕疵,而該思維如何在接觸 R 的 ggplot2 以後得到改善。本文會試著說明資料視覺化的本質為何,以及在設計視覺化時,概念上應該包含什麼要素以及步驟。最後展示如何透過 ggplot2 活用前述的概念,來實際做資料視覺化。

2018-04-04 (Wed)
3,987 views

利用 Kinesis 處理串流資料並建立資料湖

所謂的資料湖指的是一企業裡頭所有形式的資料的集合。這些資料包含原始資料,以及經過轉換的衍生資料。資料湖的核心概念是將所有可用的資料全部整合在一個邏輯上相近的地方以供企業自由結合並做各式各樣的運用。資料湖可以用很多方式建立,這裏我們主要介紹如何利用 Amazon Kinesis 將串流資料載入資料湖。

...