R用戶Python學習指南:數據科學方法
內容描述
隨著數據科學的飛速發展,僅掌握一門語言、一種工具已不足以成為一名合格的數據科學家。本書旨在解決這一問題,針對瞭解R但不熟悉Python(或瞭解Python但不熟悉R)的新手,詳細講解兩種語言的編程技巧和轉換方法。
書中不僅涵蓋從數據輸入、數據質量檢查到探索性數據分析的全過程,還討論了統計建模、數據可視化和機器學習。全書採用逐條命令解析的方式實現R與Python之間的靈活轉換,清晰呈現出二者的異同,特別是Python在大數據和速度方面的優勢以及R出色的圖形特性。
本書包含大量源代碼,重視數據分析實踐而不拘泥於理論細節,適合企業中的數據決策者、R和Python程序員以及每一位有志於成為數據科學家的學生閱讀,快速打通學習多門開源語言的障礙,成為數據分析高手
目錄大綱
譯者序
前言
第1章 Python、R和R數據科學簡介1
1.1 什麼是Python1
1.2 什麼是R2
1.3 什麼是數據科學2
1.4 數據科學家的未來3
1.5 什麼是大數據4
1.6 商務分析與數據科學5
1.7 數據科學家可用的工具6
1.8 用於數據科學的Python添加包7
1.9 Python和R之間的異同8
1.9.1 為什麼R用戶應該了解有關Python的更多信息8
1.9.2 為什麼Python用戶應該了解有關R的更多信息9
1.10 教程9
1.11 同時使用R和Python9
1.12 其他軟件和Python13
1.13 將SAS與Jupyter一起使用13
1.14 如何將Python和R用於大數據分析13
1.15 什麼是雲計算15
1.16 如何在雲上使用Python和R15
1.17 Python和R商業版本及其他替代版本16
1.17.1 數據科學家的常用Linux命令17
1.17.2 學習Git18
1.18 數據驅動的決策32
1.18.1 企業管理戰略框架:非MBA和MBA的數據驅動決策指南32
1.18.2 商務分析的其他框架37
參考文獻40
第2章 數據輸入41
2.1 pandas中的數據輸入41
2.2 網頁抓取數據輸入44
2.3 來自RDBMS的數據輸入48
2.3.1 Windows教程50
2.3.2 安裝50
2.3.3 配置ODBC52
第3章 數據檢查和數據質量62
3.1 數據格式62
3.1.1 將字符串轉換為日期和時間63
3.1.2 將數據框轉換為NumPy數組並返回Python66
3.2 數據質量68
3.3 數據檢查71
3.4 數據選擇74
3.4.1 隨機選擇數據76
3.4.2 條件選擇76
3.5 R中的數據檢查79
3.5.1 來自R ggplot2添加包中的diamond數據集83
3.5.2 修改R中的日期格式和字符串86
3.5.3 管理R中的字符串88
參考文獻88
第4章 探索性數據分析89
4.1 根據分析分組89
4.2 數值數據89
4.3 分類數據91
第5章 統計建模102
5.1 回歸的概念102
5.1.1 OLS103
5.1.2 R方103
5.1.3 p值104
5.1.4 異常值104
5.1.5 多重共線性和異方差性104
5.2 相關關係不是因果關係105
5.2.1 關於數據科學家統計的說明106
5.2.2 中心趨勢的度量107
5.2.3 分散度的度量107
5.2.4 概率分佈110
5.3 R和Python中的線性回歸114
5.4 R和Python中的Logistic回歸132
5.4.1 其他概念136
5.4.2 ROC曲線和AUC137
5.4.3 偏差與方差137
參考文獻138
第6章 數據可視化139
6.1 數據可視化的概念139
6.1.1 數據可視化的歷史139
6.1.2 Anscombe案例研究140
6.1.3 加載添加包141
6.1.4 獲得均值和標準差142
6.1.5 結論1144
6.1.6 數據可視化144
6.1.7 結論2146
6.2 Tufte關於數據可視化的工作147
6.3 Stephen Few關於儀錶盤的設計147
6.4 基本繪圖149
6.5 高級繪圖156
6.6 交互式繪圖160
6.7 空間分析160
6.8 R中的數據可視化160
6.8.1 關於RStudio IDE共享R代碼的注意事項166
6.8.2 關於共享Jupyter筆記的注意事項167
6.8.3 特別說明:關於Python的完整教程168
參考文獻180
第7章 機器學習變得更容易181
7.1 刪除最終決策樹模型中不需要的列186
7.2 時間序列207
7.3 關聯分析211
7.4 清洗語料庫並製作詞袋221
7.4.1 聚類分析224
7.4.2 Python中的聚類分析224
第8章 結論和總結233