自學機器學習 - 上 Kaggle 接軌世界,成為資料科學家
內容描述
內容介紹:
你還在建立模型分析玩具資料集嗎?你還在使用只有幾百筆資料的鳶尾花資料集嗎?你還在透過Numpy亂數產生器建立資料集嗎?
還是,你苦於找不到資料集?又或是,你發現以前所學的技術,套在真實資料集,根本不能用?
假資料或玩具資料集無法和產業界接軌,練再多只是徒勞無功,但想要有真實資料集卻不知從何得到。
現在你看到的這本書,將帶你在初學和實戰之間,提供一個累積實務經驗值的試驗場,解決你的以上煩惱!
如何獲取要分析的資料,經常是資料分析與機器學習時會遇到的瓶頸,而 Kaggle 平台有各大企業提供的免費資料集、完善的開發環境、匯集世界各地資料科學專家的討論區、以及高額獎金尋求各種問題的解決方案。只要註冊帳號,就能免費使用以上所有 Kaggle 的資源,顯然是一個絕佳的機器學習、資料科學練習環境。
本書專為入門者所寫,讓讀者知道如何善用平台資源,包含解析 Kaggle 上面的資料集,以及操作平台提供的完整 Python 開發環境。此外,書中從基礎的線性迴歸模型開始打底,隨後詳細講解當前火紅的神經網路,並深入探討循環神經網路的進階案例,也介紹各種特徵工程、模型超參數調整、模型集成的技術,一書掌握機器學習領域中重要的模型。本書所使用的範例,包含經典的CIFAR-10上萬張影像資料集、也有日本 Mercari 企業提供的資料集等,讓你擺脫不切實際的玩具資料集,直接打造實戰能力。
本書將助你從入門開始一步步打造技術力,同時銜接上實務應用,讓你在研究、職場脫穎而出。
本書特色:
● 國立成功大學資訊工程學系特聘教授 陳培殷博士 推薦
● 完整介紹 Kaggle 平台上的資源,幫助讀者與世界頂級資料科學家接軌
● 一書掌握基礎的迴歸、熱門的神經網路、以及進階的循環神經網路等重要模型
● 使用 Kaggle 平台的資料集,讓讀者學習到實戰所需的機器學習技能,擺脫無聊的玩具資料集
● 透過巨量資料集為範例,如分析日本 Mercari企 業提供的資料預測商品價格,了解實務應用
● 本書由施威銘研究室監修,內容易讀易懂,並加入大量「編註」以幫助理解及補充必要知識
● 完整 Jupyter Notebook 互動式開發環境的 Python 範例程式免費下載
目錄大綱
目錄:
[簡要目錄]
第1章 善用 Kaggle 平台打造機器學習
第2章 機器學習的基礎
第3章 建立迴歸與度提升決策樹模型(Gradient Boosting Decision Tree Model, GBDT Model)
第4章 運用神經網路進行圖像辨識
第5章 運用卷積神經網路(Convolutional Neural Network, CNN)做圖像分類
第6章 研究學習率與批次大小
第7章 使用「集成(Ensemble)」來辨識一般物體
第8章 遷移式學習(Transfer Learning)
第9章 循環神經網路(Recurrent Neural Network, RNN)
[完整目錄]
第1章 善用 Kaggle 平台打造機器學習
1.1 Kaggle 平台介紹
1.2 參加流程
1.3 Notebook 使用說明
第2章 機器學習的基礎
2.1 機器學習的任務類型
2.2 不同任務的評價指標(Evaluation Metric)
2.3 機器學習的資料集
2.4 資料的預處理
2.5 建立模型
2.6 模型驗證(Validation)
第3章 建立迴歸與度提升決策樹模型(Gradient Boosting Decision Tree Model, GBDT Model)
3.1 資料預處理
3.2 訓練迴歸(Regression)模型
3.3 建立梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)模型
3.4 運用 LASSO 迴歸與梯度提升決策樹進行集成(Ensemble)、預測
第4章 運用神經網路進行圖像辨識
4.1 運用神經網路處理「Digit Recognizer」圖像辨識
4.2 使用貝氏優化作超參數微調(Fine Tune)
第5章 運用卷積神經網路(Convolutional Neural Network, CNN)做圖像分類
5.1 運用強大的深度學習(Deep Learning)來解決圖像分類
5.2 運用資料擴增(Data Augmentation)讓卷積神經網路變得更聰明
第6章 研究學習率與批次大小
6.1 學習率衰減
6.2 用步進衰減調降學習率
6.3 使用循環性學習率(Cyclical Learning Rate, CLR)讓學習率在固定範圍週期變化
6.4 假如要調降學習率,就增加批次大小!
第7章 使用「集成(Ensemble)」來辨識一般物體
7.1 什麼是集成?
7.2 在圖像分類當中使用多數決集成
7.3 使用不同結構的模型來實驗平均集成
第8章 遷移式學習(Transfer Learning)
8.1 「Dogs vs. Cats Redux: Kernels Edition」圖像辨識
8.2 使用遷移式學習,移植 VGG16 來提高準確率
8.3 微調 VGG16
第9章 循環神經網路(Recurrent Neural Network, RNN)
9.1 循環神經網路與長短期記憶網路(Long Short-Term Memory, LSTM)
9.2 預測售價所需的資料預處理
9.3 使用循環神經網路來預測價格
9.4 使用 Ridge 模型進行集成(Ensemble)
作者介紹
チーム・カルポ
我們是一群 IT 技術的自由研究者,有時也會參與程式開發文件以及技術書籍的撰寫。
近幾年以深度學習為主,致力於先進 AI 技術的程式開發,並落實相關教材的實作與編寫等活動。其他舉凡 Android/iPhone 的應用程式開發、前端應用或伺服器應用程式開發、到電腦網路等領域也都有涉獵。
主要著作
『TensorFlow&Keras プログラミング実装ハンドブック』 (2018 年 10 月 秀和システム刊)
『Matplotlib&Seaborn 実装ハンドブック』 (2018 年 10 月 秀和システム刊)
『ニューラルネットワークの理論と実装』(2019 年 1 月 秀和システム刊)
『ディープラーニングの理論と実装』(2019 年 1 月 秀和システム刊)