LeeMeng - 資料科學

監控資本主義時代下的資料科學、AI 與你我的數位未來

2021-01-25 (Mon)

這是一篇講述監控資本主義的驚悚輕小說與科普文。處在數位時代的每個人都需要了解谷歌、臉書與推特等科技巨頭如何形塑我們的數位現實以及其背後運作的商業邏輯與經濟誘因。文中也會清晰地呈現資料科學與監控資本主義之間的緊密關係。閱讀完本文的讀者將能重新找回數位時代中最重要的注意力並專注在真正重要的事情。

資料科學家的 pandas 實戰手冊：掌握 40 個實用數據技巧

2019-07-27 (Sat)

熟練地使用 pandas 是資料科學家處理數據與分析時不可或缺的重要技能之一。透過 40 個 pandas 實用技巧，這篇文章將帶你由淺入深地掌握最基礎且重要的 pandas 能力。文中也將介紹多個適合與 pandas 一起使用的強大函式庫，提升你的數據處理能力。

我從 AI For Everyone 學到的 10 個重要 AI 概念

2019-03-05 (Tue)

AI For Everyone 是由吳恩達教授開授的一堂線上課程，這篇文章則記錄了我個人在修習完這堂線上課程後整理出的 10 個最重要 AI 概念。除了將這些概念條列出來以外，本文也將逐一介紹每個概念所代表的涵意，幫助讀者快速掌握該課程裡頭的重要 AI 概念，並開始自己的 AI 之旅。

資料科學家 L 的奇幻旅程 Vol.2 如何用資料工程當個時間旅人

2018-11-09 (Fri)

「資料工程」與「時間旅行」，兩個看似毫無相關的詞能擦出什麼火花？在這篇文章裡頭，我想跟你分享一個輕鬆話題：身為資料科學家的我，是如何利用資料工程在公司裡頭當個「時間旅人」的。當然，實際上每家公司的 DS 以及 DE 的工作內容都會有所不同，了解這個事實並調整期待，將幫助你找到最適合自己的工作環境。

資料科學文摘 Vol.7 數據技能、深度學習以及 AI 的倫理道德

2018-10-26 (Fri)

今天讓我跟你分享 4 篇跟數據以及人工智慧相關的文章。在第一篇文章，我們將看到如何用一個簡單、有效的方式來決定應該學習什麼「數據技能」；在第二篇文章，我們則會看到如何透過數據，了解網際網路是如何快速發展成為人們每天不可或缺的一部分。接著我們會聽聽在計算神經科學領域的先驅之一，泰瑞教授解釋何謂「深度學習」以及 AI 與人類智慧如何擦出火花；最後，我們將一窺 AI 的倫理道德議題以及著名的電車難題。

資料科學文摘 Vol.6 人類壽命大進展、GAN、數據工廠以及產品分析

2018-10-14 (Sun)

這週我們一樣保持閱讀的「營養均衡」，從全球平均壽命變化的資料視覺化、深度學習最夯的「對抗生成網路」話題、產品分析框架到理解何謂「數據工廠」，我希望能讓閱讀本文摘的你，廣泛地了解各領域跟「資料」相關的議題，並進一步找出自己的興趣，加以深度探索。

如何用 30 秒了解台灣發展與全球趨勢：用 GapMinder 培養正確世界觀

2018-10-08 (Mon)

這篇文章提供你一個輕鬆探索台灣與世界的資料視覺化工具：GapMinder 中文版。除了工具本身以外，文中會透過大量動態的資訊圖表以及各國公開數據來帶你探索台灣以及世界。閱讀本文之後，你將了解全球的發展趨勢、對台灣的社會、經濟以及能源發展有個基礎認知，並重新建立一個宏觀、積極的世界觀。

資料科學文摘 Vol.5 數據科學家面臨的挑戰、儀表板設計以及未來的被駭人生

2018-09-17 (Mon)

真正的數據科學家面臨的 8 個挑戰是什麼？何時一個資料科學家可以說他 / 她真正地「完成」了工作？ 10 個儀表板設計的原則是什麼？何謂「被駭」人生？為了了解這些跟資料科學息息相關的問題以及可能的解答，這週我們一樣會透過閱讀幾篇文章，來分別了解幾位優秀的資料科學家、UI/UX 設計師甚至是歷史學家是怎麼思考這些問題的。如同以往的文摘，我會附上摘要並穿插自己的心得，供時間寶貴的你參考。

給資料科學家的 Docker 指南：3 種活用 Docker 的方式（上）

2018-09-08 (Sat)

本系列文章將分上下篇，本篇將直觀解釋 Docker 概念，並說明資料科學家能如何利用 Docker 來改善自己的開發效率；下篇則將分享作者在實際從事資料科學家時，為了解決一些數據問題而時常碰到的 3 種 Docker 使用方式。在本篇中，我們首先將透過一些簡單的比喻來直觀地理解 Docker，並讓讀者在閱讀本文後能馬上開始利用 Docker 來加速自己的開發效率，並為下篇的進階內容打好基礎。

資料科學文摘 Vol.4 數據科學 MMORPG 上線！你，選好自己的角色了嗎？

2018-08-29 (Wed)

這篇文摘透過多篇跟資料科學家相關的文章，闡述資料科學家這個職業近年可能產生，或者是已經正在發生的一些職涯趨勢。透過掌握大局觀，讓對資料科學領域感興趣的讀者能夠理性地思考自己未來如何進入這塊領域，並在符合自己興趣以及能力的情況下，發揮自己最大的價值。我們將探討在這個什麼職業都跟數據扯上關係的年代，你要如何在「全球數據科學 MMORPG」裡頭，找出自己的定位以及角色。

資料科學文摘 Vol.3 Pandas、Docker 以及數據時代的反思

2018-08-10 (Fri)

不同於上週的文摘，這週的選文比較技術以及實作導向。本週將導讀 3 篇使用 Python 以及 Pandas 的文章，並鼓勵讀者實際動手學習。我們也會看到如何使用 Docker 來讓資料科學變得更簡單，並提供一個有趣的貓咪圖片辨識 App 給有興趣的讀者參考。最後，讓我們分別看看哈佛商業評論以及美國前首席資料科學家 DJ Patil 談談如何讓資料科學在企業內普及，以及數據時代我們面臨的各種道德議題。

資料科學文摘 Vol.2 產品理解以及 DS / DE 之路

2018-08-03 (Fri)

這週一樣會透過導讀一些優質文章，讓讀者了解 3 個問題：為何一個專業的資料科學家需要具備「產品理解」？何謂「顧客流失分析」？我們該如何使用 Python（XGBoost）來建立簡單的預測模型以改善產品？此外，我們也將簡單介紹在資料科學領域中逐漸崛起的「資料工程師」，其職責以及專業跟「資料科學家」有何不同。最後也會分享一些與資料科學家/資料工程師相關的文章。

資料科學文摘 Vol.1 AutoML、Airflow 及 DAU

2018-07-29 (Sun)

這週介紹幾篇機器學習、資料工程及 App 分析的優質文章以及重點摘要，關鍵字包含：AutoML、Airflow 以及 DAU / MAU。希望讓更多人能更快地掌握資料科學領域的知識，找出自己有興趣的領域專研，並激盪出更多的討論。透過閱讀大量的相關文章並從它們學習及模仿，我們可以更快地，且有效率地成為一個稱職的資料科學家。

資料科學家 L 的奇幻旅程 Vol.1 新人不得不問的 2 個問題

2018-07-07 (Sat)

為了讓有志成為資料科學家，或是單純想要了解的讀者們能理解資料科學是如何實際被企業應用，以及讓自己多一點反思的機會，趁著最近開始在 SmartNews 的新工作，我打算開始紀錄自己平常的工作內容以及一些經驗分享。作為系列文的第一篇文章，我們將探討一個資料科學家在進入新公司熟悉環境的時候，除了問該裝什麼工具以外，可以問的兩個重要問題。

揭開資料科學的神秘面紗

2018-05-11 (Fri)

市面上有大量資料科學相關課程、書籍供我們自由學習，但你有想過為何我們需要學習資料科學嗎？為什麼資料科學現在那麼夯？我們應該拿資料科學來做什麼？抽離技術實作或者分析手法的討論，這篇文章試著用簡單的經濟學解釋其背後原因。希望閱讀完本文的讀者能了解為何資料科學在資訊時代扮演重要角色，以及我們要怎麼有效率地把握「資料科學力」以創造更大的價值。

為何資料科學家需要學習 SQL

2018-04-30 (Mon)

這篇將簡單討論資料科學家必備的能力之一：結構化查詢語言（SQL）在概念上跟命令式程式語言如 Python 有什麼不同之處，以及在什麼樣的情況下我們會想要利用 SQL 做資料分析。這篇注重在為何你會想要使用 SQL 做資料分析，而非 SQL 本身功能的教學。如果要學習 SQL 本身，可以參考本文最後面的推薦閱讀。

資料科學家為何需要了解資料工程

2018-04-23 (Mon)

透過描述資料科學家的一天日常，本文將簡單介紹資料工程（Data Engineering）的概念、其如何跟資料科學相關。以及最重要的，作為一個資料科學家應該如何學習並善用這些知識來創造最大價值。身為一個資料科學家，擁有資料工程的知識可以提升工作效率，點亮你的方向並加速專案前進。

Google Data Studio 基礎

2018-03-13 (Tue)

Google Data Studio 是 Google 推出的一個儀表板服務，讓我們可以利用多種連結器將儲存在如 Google Analytics、 Google 試算表及 Google BigQuery 等特定資料來源的資料做出漂亮的 visualization ，用資料講故事而不用自己設計 UI。這篇把學到的一些技巧以及使用心得記錄下來。

Pelican 實戰手冊(主題篇)

2018-03-05 (Mon)

Pelican 是一個用 Python 寫的靜態網頁生成器, 可以幫我們把 reStructedText, Markdown file 甚至 Jupyer notebook 轉成靜態的 HTML 檔案。有些人可能已經注意到這個部落格是用 Pelican 所寫成並且 host 在 Github 上的。這篇主要紀錄如何使用 Jinja2 自訂主題。

Purpose of this blog

2017-09-17 (Sun)

第一篇文章做一點 blog 的簡介，打算把自己在學 data science 還有 machine learning 過程中寫的筆記還有在 MOOC 上課的 code (主要是 jupyter notebook) 記錄下來方便自己以後搜尋。