10,742 views
給所有人的深度學習入門:直觀理解神經網路與線性代數
這是篇透過大量動畫幫助你直觀理解神經網路的科普文。我們將介紹基礎的神經網路與線性代數概念,以及兩者之間的緊密關係。我們也將實際透過神經網路解決二元分類任務,了解神經網路的運作原理。讀完本文,你將能夠深刻地體會神經網路與線性代數之間的緊密關係,奠定 AI 之旅的基礎。
現居東京的資料科學家。致力於將數據科學與資料工程做完美結合
假日在東京市區騎著腳踏車冒險、尋找美食。懶得動時就待在咖啡廳寫寫程式
依照不同業界、不同的環境需求,甚至是所處的企業的發展階段,一個資料科學家(Data Scientist)所累積的經驗、點的技能都會有所不同。 更遑論是一個像我一樣,從軟體工程做到資料工程,又轉到資料科學家的人了。
資料科學是透過理解資料,從資料中萃取有意義的價值與洞見。而為了達到這目的, 有很多領域需要了解:大數據、BI、程式設計、資料分析、統計概念、資料視覺化、機器學習、雲端運算 ... 族繁不及備載。
要客觀且定量地衡量一個資料科學家在以上各領域的專業程度不容易。我試著以自己目前最為熟悉的深度學習為基準, 設置熟悉度為 100 %,則在與其他領域比較之後,可以得到對應的相對分數。最後就成了右邊(或者下面)這個超級主觀的衡量表,博君一笑。
2018/06 - 現在
「成為完美結合資料工程與資料科學的資料科學家」。
分析部分專注在建立預測顧客價值(Life Time Value)、每日活躍使用者人數等重要 KPI 的預測模型。
資料工程則包含改善並維護資料管理平台,以建立一個更有效率且可簡單共享分析結果的資料科學環境。
2017/01 - 2018/06
分析銷售資料以及實作資料工程。依不同專案進行 ad hoc 分析並直接提供洞見與建議給決策管理者,以增加營收或改善員工生產力; 實作企業用儀表板(Dashboard)背後所需的資料匯總、套用商業邏輯以及資料處理排程;建立非技術人員也能使用的 SQL 分析平台; 設計並實作預測模型以評估顧客成交率等 KPI。
2016/06 - 2017/01
主要專注在利用 Python 以及 AWS 來設計資訊系統以及開發企業內部系統所需的 API 。 如使用 AWS Lambda 進行資料流的處理(ETL)、開發並改善電子商務網站的搜尋引擎(主要使用 MongoDB、ElasticSearch )。
2013/09 - 2015/06
研究領域包含資料探勘以及推薦系統。 論文 An Effective Friend Recommendation Method Using Learning to Rank and Social Influence 的共同作者, 該論文被登錄在 Pacific Asia Conference on Information Systems (PACIS)。另擔任演算法、資料結構以及資料探勘等課程之助教。
一些閒暇時間做的小玩意兒,你或許會有興趣瞧瞧:)
點擊各圖片來查看細節或是利用各圖左上角的傳送門
利用公開數據來探索全世界以及台灣的動態資料視覺化工具
這是一個利用各國公開數據來探索世界以及台灣的資料視覺化工具。你可以在如何用 30 秒了解台灣發展與全球趨勢:用 GapMinder 培養正確世界觀實際使用此工具並了解細節
大量優質的 AI 與深度學習的線上資源,適合各個學習階段的你進一步探索
我將線上的深度學習資源做些整理並逐一介紹。你可以在由淺入深的深度學習資源整理了解細節,或者直接去專屬的 Github Repo 關注並查看所有資源。
一個利用 TensorFlow 以及 Flask 實做的貓狗辨識應用
這是一個利用 TensorFlow 以及 Flask 來分辨貓咪以及狗狗的圖片辨識應用,使用 Docker 封裝並部署在 Heroku 上。你可以閱讀 AI 如何找出你的喵:直觀理解卷積神經網路 來了解細節並實際使用該神經網路。
讓任何人都可以使用對抗生成網路 GAN 來生成動漫的一個 TensorFlow 2 專案
閱讀用 CartoonGAN 及 TensorFlow 2 生成新海誠與宮崎駿動畫或前往 Github 了解細節。
透過 Airflow 以及 Slack 來通知最新漫畫連載的應用
這是一個透過 Airflow 以及 Slack 來通知最新漫畫連載的 App。你可以在一段 Airflow 與資料工程的故事:談如何用 Python 追漫畫連載了解細節,或者直接去 Github 查看程式碼。
利用 Selenium 將 Github Gists 同步到 Evernote 的生產工具
這是一個利用 Selenium 將 Github Gists 同步到 Evernote 的生產工具。你可以在 Github 查看細節。
利用 TensorFlow 2.0 及 TensorFlow.js 生成似真似假的武俠小說
展示一個由 TensorFlow 2.0 以及 TensorFlow.js 實現的線上文本生成應用。你可以前往讓 AI 寫點金庸:如何用 TensorFlow 2.0 及 TensorFlow.js 寫天龍八部了解詳情。
這是篇透過大量動畫幫助你直觀理解神經網路的科普文。我們將介紹基礎的神經網路與線性代數概念,以及兩者之間的緊密關係。我們也將實際透過神經網路解決二元分類任務,了解神經網路的運作原理。讀完本文,你將能夠深刻地體會神經網路與線性代數之間的緊密關係,奠定 AI 之旅的基礎。
這篇文章將簡單向讀者介紹 OpenAI 的知名語言模型 GPT-2,並展示能夠生成金庸小說的 GPT-2 模型。文中也將透過視覺化工具 BertViz 來帶讀者直觀了解基於 Transformer 架構的 NLP 模型背後的自注意力機制。讀者也能透過文中提供的 GPT-2 模型及 Colab 筆記本自行生成全新的金庸橋段。
熟練地使用 pandas 是資料科學家處理數據與分析時不可或缺的重要技能之一。透過 40 個 pandas 實用技巧,這篇文章將帶你由淺入深地掌握最基礎且重要的 pandas 能力。文中也將介紹多個適合與 pandas 一起使用的強大函式庫,提升你的數據處理能力。
這篇是給所有人的 BERT 科普文以及操作入門手冊。文中將簡單介紹知名的語言代表模型 BERT 以及如何用其實現兩階段的遷移學習。讀者將有機會透過 PyTorch 的程式碼來直觀理解 BERT 的運作方式並實際 fine tune 一個真實存在的假新聞分類任務。閱讀完本文的讀者將能把 BERT 與遷移學習運用到其他自己感興趣的 NLP 任務。
歡迎各種回饋以及建議 關於資料科學,可以說說你有興趣了解的議題,或者提醒一些文章需要補足的地方,我會加以改進並考慮寫相關文章。
另外如果你有任何有趣的資料科學專案、資源或者任何想要分享的東西,都歡迎透過以下表單聯絡我
b98705001 AT gmail.com
meng.lee AT smartnews.com
東京都目黑區
日本