Python 數據挖掘入門與實踐 (Learning Data Mining with Python)

Python 數據挖掘入門與實踐 (Learning Data Mining with Python)

作者: 羅伯特·萊頓 (Robert Layton)
出版社: 人民郵電
出版在: 2016-07-01
ISBN-13: 9787115427106
ISBN-10: 7115427100
裝訂格式: 平裝
總頁數: 252 頁





內容描述


<內容介紹>
《Python數據挖掘入門與實踐》一書作為數據挖掘入門讀物,介紹了數據挖掘的基礎知識、基本工具和實踐方法,通過循序漸進地講解算法,帶你輕鬆踏上數據挖掘之旅。本書採用理論與實踐相結合的方式,呈現瞭如何使用決策樹和隨機森林算法預測美國職業籃球聯賽比賽結果,如何使用親和性分析方法推薦電影,如何使用樸素貝葉斯算法進行社會媒體挖掘,等等。本書也涉及神經網絡、深度學習、大數據處理等內容。

<目錄>
第1章開始數據挖掘之旅1 1.1數據挖掘簡介1 1.2使用Python和IPython Notebook 2 1.2.1安裝Python 2 1.2.2安裝IPython 4 1.2.3安裝scikit-learn庫5 1.3親和性分析示例5 1.3 .1什麼是親和性分析5 1.3.2商品推薦6 1.3.3在NumPy中加載數據集6 1.3.4實現簡單的排序規則8 1.3.5排序找出最佳規則10 1.4分類問題的簡單示例12 1.5什麼是分類12 1.5.1準備數據集13 1.5.2實現OneR算法14 1.5.3測試算法16 1.6小結18 第2章用scikit-learn估計器分類19 2.1 scikit-learn估計器19 2.1.1近鄰算法20 2.1.2距離度量20 2.1.3加載數據集22 2.1.4努力實現流程標準化24 2.1.5運行算法24 2.1.6設置參數25 2.2流水線在預處理中的應用27 2.2.1預處理示例28 2.2.2標準預處理28 2.2.3組裝起來29 2.3流水線29 2.4小結30 第3章用決策樹預測獲勝球隊31 3.1加載數據集31 3.1.1採集數據31 3.1.2用pandas加載數據集32 3.1.3數據集清洗33 3.1.4提取新特徵34 3.2決策樹35 3.2.1決策樹中的參數36 3.2.2使用決策樹37 3.3 NBA比賽結果預測37 3.4隨機森林41 3.4.1決策樹的集成效果如何42 3.4.2隨機森林算法的參數42 3.4.3使用隨機森林算法43 3.4.4創建新特徵44 3.5小結45 第4章用親和性分析方法推薦電影46 4.1親和性分析46 4.1.1親和性分析算法47 4.1.2選擇參數47 4.2電影推薦問題48 4.2.1獲取數據集48 4.2.2用pandas加載數據49 4.2.3稀疏數據格式49 4.3 Apriori算法的實現50 4.3 .1 Apriori算法51 4.3.2實現52 4.4抽取關聯規則54 4.5小結60 第5章用轉換器抽取特徵62 5.1特徵抽取62 5.1.1在模型中表示事實62 5.1.2通用的特徵創建模式64 5.1 .3創建好的特徵66 5.2特徵選擇67 5.3創建特徵71 5.4創建自己的轉換器75 5.4.1轉換器API 76 5.4.2實現細節76 5.4.3單元測試77 5.4.4組裝起來79 5.5小結79 第6章使用樸素貝葉斯進行社會媒體挖掘80 6.1消歧80 6.1.1從社交網站下載數據81 6.1.2加載數據集並對其分類83 6.1.3 Twitter數據集重建87 6.2文本轉換器90 6.2.1詞袋91 6.2.2 N元語法92 6.2.3其他特徵93 6.3樸素貝葉斯93 6.3.1貝葉斯定理93 6.3.2樸素貝葉斯算法94 6.3.3算法應用示例95 6.4應用96 6.4.1抽取特徵97 6.4.2將字典轉換為矩陣98 6.4.3訓練樸素貝葉斯分類器98 6.4.4組裝起來98 6.4.5用F1值評估99 6.4.6從模型中獲取更多有用的特徵100 6.5小結102 第7章用圖挖掘找到感興趣的人104 7.1加載數據集104 7.1.1用現有模型進行分類106 7.1.2獲取Twitter好友信息107 7.1.3構建網絡110 7.1 .4創建圖112 7.1.5創建用戶相似度圖114 7.2尋找子圖117 7.2.1連通分支117 7.2.2優化參數選取準則119 7.3小結123 第8章用神經網絡破解驗證碼124 8.1人工神經網絡124 8.2創建數據集127 8.2.1繪製驗證碼127 8.2.2將圖像切分為單個的字母129 8.2.3創建訓練集130 8.2.4根據抽取方法調整訓練數據集131 8.3訓練和分類132 8.3. 1反向傳播算法134 8.3.2預測單詞135 8.4用詞典提升正確率138 8.4.1尋找最相似的單詞138 8.4.2組裝起來139 8.5小結140 第9章作者歸屬問題142 9.1為作品找作者142 9.1.1相關應用和使用場景143 9.1.2作者歸屬143 9.1.3獲取數據144 9.2功能詞147 9.2.1統計功能詞148 9.2.2用功能詞進行分類149 9.3支持向量機150 9.3.1用SVM分類151 9.3.2內核151 9.4字符N元語法152 9.5使用安然公司數據集153 9.5.1獲取安然數據集153 9.5.2創建數據集加載工具154 9.5.3組裝起來158 9.5.4評估158 9.6小結160 第10章新聞語料分類161 10.1獲取新聞文章161 10.1.1使用Web API獲取數據162 10.1.2數據資源寶庫reddit 164 10.1.3獲取數據165 10.2從任意網站抽取文本167 10.2.1尋找任意網站網頁中的主要內容167 10.2.2組裝起來168 10.3新聞語料聚類170 10.3.1 k-means算法171 10.3.2評估結果173 10.3.3從簇中抽取主題信息175 10.3.4用聚類算法做轉換器175 10.4聚類融合176 10.4.1證據累積176 10.4.2工作原理179 10.4.3實現180 10.5線上學習181 10.5.1線上學習簡介181 10.5.2實現182 10.6小結184 第11章用深度學習方法為圖像中的物體進行分類185 11.1物體分類185 11.2應用場景和目標185 11.3深度神經網絡189 11.3.1直觀感受189 11.3.2實現189 11.3.3 Theano簡介190 11.3.4 Lasagne簡介191 11.3 .5用nolearn實現神經網絡194 11.4 GPU優化197 11.4.1什麼時候使用GPU進行計算198 11.4.2用GPU運行代碼198 11.5環境搭建199 11.6應用201 11.6.1獲取數據201 11.6.2創建神經網絡202 11.6.3組裝起來204 11.7小結205 第12章大數據處理206 12.1大數據206 12.2大數據應用場景和目標207 12.3 MapReduce 208 12.3.1直觀理解209 12.3.2單詞統計示例210 12.3.3 Hadoop MapReduce 212 12.4應用212 12.4.1獲取數據213 12.4.2樸素貝葉斯預測215 12.5小結226 附錄接下來的方向227




相關書籍

Power BI商業數據分析完全自學教程

作者 鳳凰高新教育

2016-07-01

乾淨的數據:數據清洗入門與實踐, (Clean Data)

作者 斯誇爾 (Megan Squire)

2016-07-01

FLAG'S 創客‧自造者工作坊 -- Python 黑科技 : 電話按鍵竊聽器、雷射/風速傳訊器

作者 施威銘研究室

2016-07-01