Python
世上最生動的 PCA:直觀理解並應用主成分分析
這篇文章用世上最生動且實務的方式帶你直觀理解機器學習領域中十分知名且強大的線性降維技巧:主成分分析 PCA。我們將重新回顧你所學過的重要線性代數概念,並實際應用這些概念將數據有效地降維並去除特徵間的關聯。你也將學會如何使用 NumPy 和 scikit-learn 等 Python 函式庫自己實作 PCA。文中也分享使用 PCA 分析線上遊戲《英雄聯盟》公開數據的有趣案例。
資料科學家的 pandas 實戰手冊:掌握 40 個實用數據技巧
熟練地使用 pandas 是資料科學家處理數據與分析時不可或缺的重要技能之一。透過 40 個 pandas 實用技巧,這篇文章將帶你由淺入深地掌握最基礎且重要的 pandas 能力。文中也將介紹多個適合與 pandas 一起使用的強大函式庫,提升你的數據處理能力。
進入 NLP 世界的最佳橋樑:寫給所有人的自然語言處理與深度學習入門指南
在此文中,我們以一個假新聞分類的 Kaggle 競賽做為引子,不用深奧的數學計算式,而是直觀且高層次地理解目前常見的 NLP 手法以及基本的深度學習、機器學習概念。透過建立一個能夠分類假新聞的神經網路,你將會學到如文本數據前處理、循環神經網路以及深度學習 3 步驟等基礎知識,並在未來利用此基礎進一步探索 NLP 世界。
Chartify:讓數據科學家效率加倍的 Python 資料視覺化工具
此文會展示如何利用 Chartify,一個直觀且貼心的 Python 繪圖函式庫,來對如 2018 臺北市候選人得票數、歷年各大洲來台人數等公開數據做資料視覺化。如果你想要學習利用 Python 實現資料視覺化,但還不知道怎麼開始;或是覺得目前使用的工具不太直覺,想要提升自己工作效率的話,這篇就是為你而寫的。
一段 Airflow 與資料工程的故事:談如何用 Python 追漫畫連載
Airflow 是一個以 Python 開發的工作流管理系統,也是資料工程不可或缺的利器之一。近年不管是資料科學家、資料工程師還是任何需要處理數據的軟體工程師,Airflow 都是他們用來建構 ETL 以及處理批量資料的首選之一。這篇文章希望以一個簡易的漫畫連載通知 App 作為引子,讓讀者直觀地了解 Airflow 背後的運作原理、建立資料工程的知識基礎,並在閱讀本文後發揮自己的創意,實際應用 Airflow 來解決並自動化自己及企業的數據問題。
資料科學文摘 Vol.2 產品理解以及 DS / DE 之路
這週一樣會透過導讀一些優質文章,讓讀者了解 3 個問題:為何一個專業的資料科學家需要具備「產品理解」? 何謂「顧客流失分析」? 我們該如何使用 Python(XGBoost)來建立簡單的預測模型以改善產品? 此外,我們也將簡單介紹在資料科學領域中逐漸崛起的「資料工程師」,其職責以及專業跟「資料科學家」有何不同。最後也會分享一些與資料科學家/資料工程師相關的文章。
利用 Kinesis 處理串流資料並建立資料湖
所謂的資料湖指的是一企業裡頭所有形式的資料的集合。這些資料包含原始資料,以及經過轉換的衍生資料。資料湖的核心概念是將所有可用的資料全部整合在一個邏輯上相近的地方以供企業自由結合並做各式各樣的運用。資料湖可以用很多方式建立,這裏我們主要介紹如何利用 Amazon Kinesis 將串流資料載入資料湖。
BeautifulSoup 筆記
Beautifulsoup 是一個可以幫助我們 parse HTML 的函式庫,不管是在寫爬蟲還是做 HTML 檔案的處理都很方便。這篇主要紀錄使用 beautifulsoup 時常用的指令。
Seaborn 筆記
這篇記錄我在使用 seaborn 做資料分析還有 visualization 時常用的 code. 一般慣例會把 seaborn 更名成 sns for reference.
Find Word Semantic by Using Word2vec in TensorFlow
Naive Word2vec implementation using Tensorflow
Simple Convolutional Neural Network using TensorFlow
The goal here is to practice building convolutional neural networks to classify notMNIST characters using TensorFlow. As image size become bigger and bigger, it become unpractical to train fully-connected NN because there will be just too many parameters and thus the model will overfit very soon. And CNN solve this problem by weight sharing. We will start by building a CNN with two convolutional layers connected by a fully connected layer and then try also pooling layer and other thing to improve the model performance.
Regularization for Multi-layer Neural Networks in Tensorflow
The goal of this assignment is to explore regularization techniques.
Using TensorFlow to Train a Shallow NN with Stochastic Gradient Descent
The goal here is to progressively train deeper and more accurate models using TensorFlow. We will first load the notMNIST dataset which we have done data cleaning. For the classification problem, we will first train two logistic regression models use simple gradient descent, stochastic gradient descent (SGD) respectively for optimization to see the difference between these optimizers.
Simple Image Recognition using NotMNIST dataset
Today we're going to do some simple image recogintion using NotMNIST dataset. But before creating model for prediction, it's more important to explore, clean and normalize our dataset in order to make the learning go smoother when we actually build predictive models.
Purpose of this blog
第一篇文章做一點 blog 的簡介,打算把自己在學 data science 還有 machine learning 過程中寫的筆記還有在 MOOC 上課的 code (主要是 jupyter notebook) 記錄下來方便自己以後搜尋。