進入 NLP 世界的最佳橋樑:寫給所有人的自然語言處理與深度學習入門指南
在此文中,我們以一個假新聞分類的 Kaggle 競賽做為引子,不用深奧的數學計算式,而是直觀且高層次地理解目前常見的 NLP 手法以及基本的深度學習、機器學習概念。透過建立一個能夠分類假新聞的神經網路,你將會學到如文本數據前處理、循環神經網路以及深度學習 3 步驟等基礎知識,並在未來利用此基礎進一步探索 NLP 世界。
在此文中,我們以一個假新聞分類的 Kaggle 競賽做為引子,不用深奧的數學計算式,而是直觀且高層次地理解目前常見的 NLP 手法以及基本的深度學習、機器學習概念。透過建立一個能夠分類假新聞的神經網路,你將會學到如文本數據前處理、循環神經網路以及深度學習 3 步驟等基礎知識,並在未來利用此基礎進一步探索 NLP 世界。
此文會展示如何利用 Chartify,一個直觀且貼心的 Python 繪圖函式庫,來對如 2018 臺北市候選人得票數、歷年各大洲來台人數等公開數據做資料視覺化。如果你想要學習利用 Python 實現資料視覺化,但還不知道怎麼開始;或是覺得目前使用的工具不太直覺,想要提升自己工作效率的話,這篇就是為你而寫的。
這是一個 NLP 初心者勇闖自然語言處理的頂級學術會議 EMNLP 的故事。在這篇文章裡,我想跟你分享 3 個這次旅行中帶給我最重要的體悟。這些體悟改變了我的人生,而我也希望你能從這個故事裡頭獲得些啟發,重新思考你自己的學習,並做一些好的改變。
「資料工程」與「時間旅行」,兩個看似毫無相關的詞能擦出什麼火花?在這篇文章裡頭,我想跟你分享一個輕鬆話題:身為資料科學家的我,是如何利用資料工程在公司裡頭當個「時間旅人」的。當然,實際上每家公司的 DS 以及 DE 的工作內容都會有所不同,了解這個事實並調整期待,將幫助你找到最適合自己的工作環境。
今天讓我跟你分享 4 篇跟數據以及人工智慧相關的文章。在第一篇文章,我們將看到如何用一個簡單、有效的方式來決定應該學習什麼「數據技能」;在第二篇文章,我們則會看到如何透過數據,了解網際網路是如何快速發展成為人們每天不可或缺的一部分。接著我們會聽聽在計算神經科學領域的先驅之一,泰瑞教授解釋何謂「深度學習」以及 AI 與人類智慧如何擦出火花;最後,我們將一窺 AI 的倫理道德議題以及著名的電車難題。
這週我們一樣保持閱讀的「營養均衡」,從全球平均壽命變化的資料視覺化、深度學習最夯的「對抗生成網路」話題、產品分析框架到理解何謂「數據工廠」,我希望能讓閱讀本文摘的你,廣泛地了解各領域跟「資料」相關的議題,並進一步找出自己的興趣,加以深度探索。
這篇文章提供你一個輕鬆探索台灣與世界的資料視覺化工具:GapMinder 中文版。除了工具本身以外,文中會透過大量動態的資訊圖表以及各國公開數據來帶你探索台灣以及世界。閱讀本文之後,你將了解全球的發展趨勢、對台灣的社會、經濟以及能源發展有個基礎認知,並重新建立一個宏觀、積極的世界觀。
真正的數據科學家面臨的 8 個挑戰是什麼?何時一個資料科學家可以說他 / 她真正地「完成」了工作? 10 個儀表板設計的原則是什麼?何謂「被駭」人生?為了了解這些跟資料科學息息相關的問題以及可能的解答,這週我們一樣會透過閱讀幾篇文章,來分別了解幾位優秀的資料科學家、UI/UX 設計師甚至是歷史學家是怎麼思考這些問題的。如同以往的文摘,我會附上摘要並穿插自己的心得,供時間寶貴的你參考。
本系列文章將分上下篇,本篇將直觀解釋 Docker 概念,並說明資料科學家能如何利用 Docker 來改善自己的開發效率;下篇則將分享作者在實際從事資料科學家時,為了解決一些數據問題而時常碰到的 3 種 Docker 使用方式。在本篇中,我們首先將透過一些簡單的比喻來直觀地理解 Docker,並讓讀者在閱讀本文後能馬上開始利用 Docker 來加速自己的開發效率,並為下篇的進階內容打好基礎。
這篇文摘透過多篇跟資料科學家相關的文章,闡述資料科學家這個職業近年可能產生,或者是已經正在發生的一些職涯趨勢。透過掌握大局觀,讓對資料科學領域感興趣的讀者能夠理性地思考自己未來如何進入這塊領域,並在符合自己興趣以及能力的情況下,發揮自己最大的價值。我們將探討在這個什麼職業都跟數據扯上關係的年代,你要如何在「全球數據科學 MMORPG」裡頭,找出自己的定位以及角色。
Airflow 是一個以 Python 開發的工作流管理系統,也是資料工程不可或缺的利器之一。近年不管是資料科學家、資料工程師還是任何需要處理數據的軟體工程師,Airflow 都是他們用來建構 ETL 以及處理批量資料的首選之一。這篇文章希望以一個簡易的漫畫連載通知 App 作為引子,讓讀者直觀地了解 Airflow 背後的運作原理、建立資料工程的知識基礎,並在閱讀本文後發揮自己的創意,實際應用 Airflow 來解決並自動化自己及企業的數據問題。