Menu

資料科學家 L 的奇幻旅程 Vol.2 如何用資料工程當個時間旅人

2018-11-09 (Fri)

「資料工程」與「時間旅行」,兩個看似毫無相關的詞能擦出什麼火花?在這篇文章裡頭,我想跟你分享一個輕鬆話題:身為資料科學家的我,是如何利用資料工程在公司裡頭當個「時間旅人」的。當然,實際上每家公司的 DS 以及 DE 的工作內容都會有所不同,了解這個事實並調整期待,將幫助你找到最適合自己的工作環境。

一段 Airflow 與資料工程的故事:談如何用 Python 追漫畫連載

2018-08-21 (Tue)

Airflow 是一個以 Python 開發的工作流管理系統,也是資料工程不可或缺的利器之一。近年不管是資料科學家、資料工程師還是任何需要處理數據的軟體工程師,Airflow 都是他們用來建構 ETL 以及處理批量資料的首選之一。這篇文章希望以一個簡易的漫畫連載通知 App 作為引子,讓讀者直觀地了解 Airflow 背後的運作原理、建立資料工程的知識基礎,並在閱讀本文後發揮自己的創意,實際應用 Airflow 來解決並自動化自己及企業的數據問題。

資料科學文摘 Vol.2 產品理解以及 DS / DE 之路

2018-08-03 (Fri)

這週一樣會透過導讀一些優質文章,讓讀者了解 3 個問題:為何一個專業的資料科學家需要具備「產品理解」? 何謂「顧客流失分析」? 我們該如何使用 Python(XGBoost)來建立簡單的預測模型以改善產品? 此外,我們也將簡單介紹在資料科學領域中逐漸崛起的「資料工程師」,其職責以及專業跟「資料科學家」有何不同。最後也會分享一些與資料科學家/資料工程師相關的文章。

資料科學文摘 Vol.1 AutoML、Airflow 及 DAU

2018-07-29 (Sun)

這週介紹幾篇機器學習、資料工程及 App 分析的優質文章以及重點摘要,關鍵字包含:AutoML、Airflow 以及 DAU / MAU。希望讓更多人能更快地掌握資料科學領域的知識,找出自己有興趣的領域專研,並激盪出更多的討論。透過閱讀大量的相關文章並從它們學習及模仿,我們可以更快地,且有效率地成為一個稱職的資料科學家。

資料科學家為何需要了解資料工程

2018-04-23 (Mon)

透過描述資料科學家的一天日常,本文將簡單介紹資料工程(Data Engineering)的概念、其如何跟資料科學相關。以及最重要的,作為一個資料科學家應該如何學習並善用這些知識來創造最大價值。身為一個資料科學家,擁有資料工程的知識可以提升工作效率,點亮你的方向並加速專案前進。

利用 Kinesis 處理串流資料並建立資料湖

2018-04-04 (Wed)

所謂的資料湖指的是一企業裡頭所有形式的資料的集合。這些資料包含原始資料,以及經過轉換的衍生資料。資料湖的核心概念是將所有可用的資料全部整合在一個邏輯上相近的地方以供企業自由結合並做各式各樣的運用。資料湖可以用很多方式建立,這裏我們主要介紹如何利用 Amazon Kinesis 將串流資料載入資料湖。

AWS Data Migration Service - 從 MongoDB 遷移到 Redshift

2018-03-27 (Tue)

同樣一份資料因應不同的使用案例,可能需要使用不同的存取方式。而針對這些不同的存取方式,我們通常需要選擇最適合的資料庫來最佳化使用者體驗。這篇文章將簡單介紹如何使用 AWS Database Migration Service來快速地達到我們的目標:將 MongoDB 資料遷移到 Redshift 上。

Designing Data-Intensive Applications (1) - 序言

2018-03-24 (Sat)

最近在拜讀 Martin Kleppmann 的 Designing Data-Intensive Applications, 覺得受益匪淺,且我也相信透過 Feynman Technique 將學到的東西用最淺顯易懂的方式表達能幫助自己內化這些知識,遂嘗試把閱讀後的心得記錄在此。