Menu

Chartify:讓數據科學家效率加倍的 Python 資料視覺化工具

2018-11-26 (Mon)

此文會展示如何利用 Chartify,一個直觀且貼心的 Python 繪圖函式庫,來對如 2018 臺北市候選人得票數、歷年各大洲來台人數等公開數據做資料視覺化。如果你想要學習利用 Python 實現資料視覺化,但還不知道怎麼開始;或是覺得目前使用的工具不太直覺,想要提升自己工作效率的話,這篇就是為你而寫的。

一段 Airflow 與資料工程的故事:談如何用 Python 追漫畫連載

2018-08-21 (Tue)

Airflow 是一個以 Python 開發的工作流管理系統,也是資料工程不可或缺的利器之一。近年不管是資料科學家、資料工程師還是任何需要處理數據的軟體工程師,Airflow 都是他們用來建構 ETL 以及處理批量資料的首選之一。這篇文章希望以一個簡易的漫畫連載通知 App 作為引子,讓讀者直觀地了解 Airflow 背後的運作原理、建立資料工程的知識基礎,並在閱讀本文後發揮自己的創意,實際應用 Airflow 來解決並自動化自己及企業的數據問題。

資料科學文摘 Vol.2 產品理解以及 DS / DE 之路

2018-08-03 (Fri)

這週一樣會透過導讀一些優質文章,讓讀者了解 3 個問題:為何一個專業的資料科學家需要具備「產品理解」? 何謂「顧客流失分析」? 我們該如何使用 Python(XGBoost)來建立簡單的預測模型以改善產品? 此外,我們也將簡單介紹在資料科學領域中逐漸崛起的「資料工程師」,其職責以及專業跟「資料科學家」有何不同。最後也會分享一些與資料科學家/資料工程師相關的文章。

利用 Kinesis 處理串流資料並建立資料湖

2018-04-04 (Wed)

所謂的資料湖指的是一企業裡頭所有形式的資料的集合。這些資料包含原始資料,以及經過轉換的衍生資料。資料湖的核心概念是將所有可用的資料全部整合在一個邏輯上相近的地方以供企業自由結合並做各式各樣的運用。資料湖可以用很多方式建立,這裏我們主要介紹如何利用 Amazon Kinesis 將串流資料載入資料湖。

BeautifulSoup 筆記

2018-03-02 (Fri)

Beautifulsoup 是一個可以幫助我們 parse HTML 的函式庫,不管是在寫爬蟲還是做 HTML 檔案的處理都很方便。這篇主要紀錄使用 beautifulsoup 時常用的指令。

Seaborn 筆記

2018-03-02 (Fri)

這篇記錄我在使用 seaborn 做資料分析還有 visualization 時常用的 code. 一般慣例會把 seaborn 更名成 sns for reference.

Find Word Semantic by Using Word2vec in TensorFlow

2017-09-30 (Sat)

Naive Word2vec implementation using Tensorflow

Simple Convolutional Neural Network using TensorFlow

2017-09-26 (Tue)

The goal here is to practice building convolutional neural networks to classify notMNIST characters using TensorFlow. As image size become bigger and bigger, it become unpractical to train fully-connected NN because there will be just too many parameters and thus the model will overfit very soon. And CNN solve this problem by weight sharing. We will start by building a CNN with two convolutional layers connected by a fully connected layer and then try also pooling layer and other thing to improve the model performance.

Regularization for Multi-layer Neural Networks in Tensorflow

2017-09-25 (Mon)

The goal of this assignment is to explore regularization techniques.

Using TensorFlow to Train a Shallow NN with Stochastic Gradient Descent

2017-09-21 (Thu)

The goal here is to progressively train deeper and more accurate models using TensorFlow. We will first load the notMNIST dataset which we have done data cleaning. For the classification problem, we will first train two logistic regression models use simple gradient descent, stochastic gradient descent (SGD) respectively for optimization to see the difference between these optimizers.

Simple Image Recognition using NotMNIST dataset

2017-09-19 (Tue)

Today we're going to do some simple image recogintion using NotMNIST dataset. But before creating model for prediction, it's more important to explore, clean and normalize our dataset in order to make the learning go smoother when we actually build predictive models.

Purpose of this blog

2017-09-17 (Sun)

第一篇文章做一點 blog 的簡介,打算把自己在學 data science 還有 machine learning 過程中寫的筆記還有在 MOOC 上課的 code (主要是 jupyter notebook) 記錄下來方便自己以後搜尋。