1,125 views
Find Word Semantic by Using Word2vec in TensorFlow
Naive Word2vec implementation using Tensorflow
現居東京的機器學習工程師 / 資料科學家。喜歡分析數據並做做有趣的 AI 實驗
假日在東京市區騎著腳踏車冒險、尋找美食。懶得動時就待在咖啡廳寫寫程式
依照不同業界與環境需求,一個機器學習工程師或是資料科學家所需的經驗以及點的技能都會有所不同。 更遑論是一個像我一樣在軟體工程、資料工程、資料科學以及機器學習領域打滾的人了。
資料科學是透過理解資料,從資料中萃取有意義的價值與洞見。而為了達到這目的, 有很多領域需要了解:大數據、BI、程式設計、資料分析、統計概念、資料視覺化、機器學習、雲端運算 ... 族繁不及備載。
要客觀且定量地衡量一個資料科學家在以上各領域的專業程度不容易。我試著以自己目前最為熟悉的深度學習為基準, 設置熟悉度為 100 %,則在與其他領域比較之後,可以得到對應的相對分數。最後就成了右邊(或者下面)這個超級主觀的衡量表,博君一笑。
2018/06 - 現在
「成為完美結合資料工程與資料科學的資料科學家」。
分析部分專注在建立預測顧客價值(Life Time Value)、每日活躍使用者人數等重要 KPI 的預測模型。
資料工程則包含改善並維護資料管理平台,以建立一個更有效率且可簡單共享分析結果的資料科學環境。
2017/01 - 2018/06
分析銷售資料以及實作資料工程。依不同專案進行 ad hoc 分析並直接提供洞見與建議給決策管理者,以增加營收或改善員工生產力; 實作企業用儀表板(Dashboard)背後所需的資料匯總、套用商業邏輯以及資料處理排程;建立非技術人員也能使用的 SQL 分析平台; 設計並實作預測模型以評估顧客成交率等 KPI。
2016/06 - 2017/01
主要專注在利用 Python 以及 AWS 來設計資訊系統以及開發企業內部系統所需的 API 。 如使用 AWS Lambda 進行資料流的處理(ETL)、開發並改善電子商務網站的搜尋引擎(主要使用 MongoDB、ElasticSearch )。
2013/09 - 2015/06
研究領域包含資料探勘以及推薦系統。 論文 An Effective Friend Recommendation Method Using Learning to Rank and Social Influence 的共同作者, 該論文被登錄在 Pacific Asia Conference on Information Systems (PACIS)。另擔任演算法、資料結構以及資料探勘等課程之助教。
一些閒暇時間做的小玩意兒,你或許會有興趣瞧瞧:)
點擊各圖片來查看細節或是利用各圖左上角的傳送門
了解如何開始使用 Python 視覺化並分析台灣與世界的 COVID-19 疫情
在這個專案裡頭,我透過一系列專欄文章引領讀者存取 COVID-19 的公開數據並了解如何繪製如衛福部疾管署首頁所呈現的疫情趨勢。 每篇專欄都有對應的 Colab 並包含用來生成圖表的 Python 程式碼,希望能鼓勵更多人深入探索數據,進而發現對社會有用的新洞見。
大量優質的 AI 與深度學習的線上資源,適合各個學習階段的你進一步探索
我將線上的深度學習資源做些整理並逐一介紹。你可以在由淺入深的深度學習資源整理了解細節,或者直接去專屬的 Github Repo 關注並查看所有資源。
利用公開數據來探索全世界以及台灣的動態資料視覺化工具
這是一個利用各國公開數據來探索世界以及台灣的資料視覺化工具。你可以在如何用 30 秒了解台灣發展與全球趨勢:用 GapMinder 培養正確世界觀實際使用此工具並了解細節
讓任何人都可以使用對抗生成網路 GAN 來生成動漫的一個 TensorFlow 2 專案
閱讀用 CartoonGAN 及 TensorFlow 2 生成新海誠與宮崎駿動畫或前往 Github 了解細節。
透過 Airflow 以及 Slack 來通知最新漫畫連載的應用
這是一個透過 Airflow 以及 Slack 來通知最新漫畫連載的 App。你可以在一段 Airflow 與資料工程的故事:談如何用 Python 追漫畫連載了解細節,或者直接去 Github 查看程式碼。
利用 Selenium 將 Github Gists 同步到 Evernote 的生產工具
這是一個利用 Selenium 將 Github Gists 同步到 Evernote 的生產工具。你可以在 Github 查看細節。
利用 TensorFlow 2.0 及 TensorFlow.js 生成似真似假的武俠小說
展示一個由 TensorFlow 2.0 以及 TensorFlow.js 實現的線上文本生成應用。你可以前往讓 AI 寫點金庸:如何用 TensorFlow 2.0 及 TensorFlow.js 寫天龍八部了解詳情。
一個利用 TensorFlow 以及 Flask 實做的貓狗辨識應用
這是一個利用 TensorFlow 以及 Flask 來分辨貓咪以及狗狗的圖片辨識應用,使用 Docker 封裝並部署在 Heroku 上。你可以閱讀 AI 如何找出你的喵:直觀理解卷積神經網路 來了解細節並實際使用該神經網路。
Naive Word2vec implementation using Tensorflow
The goal here is to practice building convolutional neural networks to classify notMNIST characters using TensorFlow. As image size become bigger and bigger, it become unpractical to train fully-connected NN because there will be just too many parameters and thus the model will overfit very soon. And CNN solve this problem by weight sharing. We will start by building a CNN with two convolutional layers connected by a fully connected layer and then try also pooling layer and other thing to improve the model performance.
The goal of this assignment is to explore regularization techniques.
The goal here is to progressively train deeper and more accurate models using TensorFlow. We will first load the notMNIST dataset which we have done data cleaning. For the classification problem, we will first train two logistic regression models use simple gradient descent, stochastic gradient descent (SGD) respectively for optimization to see the difference between these optimizers.
歡迎各種回饋以及建議 關於機器學習、人工智慧以及資料科學,可以跟我說說你有興趣了解的議題,或者提醒一些文章需要補足的地方,我會加以改進並撰寫相關文章。
另外如果你有任何有趣的資料科學專案、資源或者任何想要分享的東西,都歡迎透過以下表單聯絡我
b98705001 AT gmail.com
meng.lee AT smartnews.com
東京都目黑區
日本