
精通數據科學算法 (Data Science Algorithms in a Week)
內容描述
數據科學(Data Science)是從數據中提取知識的技術,是一門有關機器學習、統計學與數據挖掘的交叉學科。數據科學包含了多種領域的不同元素,包括信號處理、數學、概率模型技術和理論、電腦編程、統計學等。
本書講解了7種重要的數據分析方法,它們分別是k最近鄰算法、樸素貝葉斯算法、決策樹、隨機森林、k-means聚類、回歸分析以及時間序列分析。全書共7章,每一章都以一個簡單的例子開始,先講解算法的基本概念與知識,然後通過對案例進行擴展以講解一些特殊的分析算法。這種方式有益於讀者深刻理解算法。
本書適合數據分析人員、機器學習領域的從業人員以及對算法感興趣的讀者閱讀。
目錄大綱
第1章用k最近鄰算法解決分類問題
1.1 Mary對溫度的感覺
1.2實現k最近鄰算法
1.3意大利地區的示例——選擇k值
1.4房屋所有權——數據轉換
1.5文本分類——使用非歐幾里德距離
1.6文本分類——更高維度的k-NN
1.7小結
1.8習題
第2章樸素貝葉斯
2.1醫療檢查——貝葉斯定理的基本應用
2.2貝葉斯定理的證明及其擴展
2.3西洋棋遊戲——獨立事件
2.4樸素貝葉斯分類器的實現
2.5西洋棋遊戲——相關事件
2.6性別分類——基於連續隨機變量的貝葉斯定理
2.7小結
2.8習題
第3章決策樹
3.1游泳偏好——用決策樹表示數據
3.2信息論044
3.3 ID3算法——構造決策樹047
3.4用決策樹進行分類054
3.5小結060
3.6習題060
第4章隨機森林064
4.1隨機森林算法概述064
4.2游泳偏好——隨機森林分析法065
4.3隨機森林算法的實現071
4.4下棋實例075
4.5購物分析——克服隨機數據的不一致性以及
度量置信水平082
4.6小結084
4.7習題084
第5章k-means聚類089
5.1家庭收入——聚類為k個簇089
5.2性別分類——聚類分類092
5.3 k-means聚類算法的實現095
5.4房產所有權示例——選擇簇的數量099
5.5小結105
5.6習題105
第6章回歸分析114
6.1華氏溫度和攝氏溫度的轉換——基於完整數據的線性回歸114
6.2根據身高預測體重——基於實際數據的線性回歸117
6.3梯度下降算法及實現118
6.4根據距離預測飛行時長122
6.5彈道飛行分析——非線性模型123
6.6小結125
6.7習題125
第7章時間序列分析130
7.1商業利潤——趨勢分析130
7.2電子商店的銷售額——季節性分析132
7.3小結140
7.4習題140
附錄A統計145
A.1基本概念145
A.2貝葉斯推理146
A.3分佈146
A.4交叉驗證147
A.5 A/B測試148
附錄BR參考149
B.1介紹149
B.2數據類型150
B.3線性回歸152
附錄C Python參考154
C.1介紹154
C.2數據類型155
C.3控制流159
附錄D數據科學中的算法和方法術語163
作者介紹
Dávid Natingga於2014年畢業於倫敦帝國理工學院的計算與人工智能專業,並獲工程碩士學位。
2011年,他在印度班加羅爾的Infosys實驗室工作,研究機器學習算法的優化。
2012~2013年,他在美國帕羅奧圖的Palantir技術公司從事大數據算法的開發工作。
2014年,作為英國倫敦Pact Coffee公司的數據科學家,他設計了一種基於顧客口味偏好和咖啡結構的推薦算法。
2017年,他在荷蘭阿姆斯特丹的TomTom工作,處理導航平台的地圖數據。
他是英國利茲大學計算理論專業的博士研究生,研究純數學如何推進人工智能。
2016年,他在日本高等科學技術學院當了8個月的訪問學者。