可解釋機器學習:黑盒模型可解釋性理解指南
內容描述
機器學習雖然對改進產品性能和推進研究有很大的潛力,但無法對它們的預測做出解釋,這是當前面臨的一大障礙。本書是一本關於使機器學習模型及其決策具有可解釋性的書。本書探索了可解釋性的概念,介紹了簡單的、可解釋的模型,例如決策樹、決策規則和線性回歸,重點介紹瞭解釋黑盒模型的、與模型無關的方法,如特徵重要性和累積局部效應,以及用Shapley值和LIME解釋單個實例預測。本書對所有的解釋方法進行了深入說明和批判性討論,例如它們如何在黑盒下工作、它們的優缺點是什麽、如何解釋它們的輸出。本書將解答如何選擇並正確應用解釋方法。本書的重點是介紹表格式數據的機器學習模型,較少涉及電腦視覺和自然語言處理任務。本書適合機器學習從業者、數據科學家、統計學家和所有對使機器學習模型具有可解釋性感興趣的人閱讀。
目錄大綱
目錄
推薦序一/III
推薦序二/V
作者序/Ⅶ
譯者序/Ⅸ
第1章引言/1
1.1故事時間/2
1.1.1閃電不會擊中兩次/2
1.1 .2信任倒下/4
1.1.3費米的回形針/6
1.2什麼是機器學習/7
1.3術語/8
第2章可解釋性/13
2.1可解釋性的重要性/14
2.2可解釋性方法的分類/18
2.3可解釋性的範圍/20
2.3.1算法透明度/20
2.3.2全局、整體的模型可解釋性/21
2.3 .3模塊層面上的全局模型可解釋性/21
2.3.4單個預測的局部可解釋性/22
2.3.5一組預測的局部可解釋性/22
2.4可解釋性評估/ 22
2.5解釋的性質/23
2.6人性化的解釋/25
2.6.1什麼是解釋/26
2.6.2什麼是好的解釋/26
第3章數據集/31
3.1自行車租賃(回歸) /32
3.2 YouTube垃圾評論(文本分類) /32
3.3宮頸癌的危險因素(分類) /33
第4章可解釋的模型/35
4.1線性回歸/36
4. 1.1解釋/38
4.1.2示例/40
4.1.3可視化解釋/41
4.1.4解釋單個實例預測/44
4.1.5分類特徵的編碼/45
4.1.6線性模型是否有很好的解釋/46
4.1.7稀疏線性模型/47
4.1.8優點/50
4.1.9缺點/50
4.2邏輯回歸/51
4.2.1線性回歸用於分類有什麼問題/51
4.2.2理論/52
4.2.3解釋/53
4.2.4示例/55
4.2.5優缺點/56
4.2.6軟件/57
4.3 GLM、GAM和其他模型/57
4.3.1非高斯結果輸出――GLM /59
4.3.2交互/63
4.3.3非線性效應――GAM /66
4.3.4優點/71
4.3 .5缺點/71
4.3.6軟件/72
4.3.7進一步擴展/72
4.4決策樹/73
4.4.1解釋/75
4.4.2示例/76
4.4.3優點/77
4.4.4缺點/78
4.4.5軟件/78
4.5決策規則/79
4.5.1 OneR /81
4.5.2順序覆蓋/85
4.5.3貝葉斯規則列表/88
4.5.4優點/93
4.5.5缺點/94
4.5.6軟件和替代方法/94
4.6 RuleFit /95
4.6.1解釋和示例/96
4.6.2理論/97
4.6.3優點/100
4.6.4缺點/101
4.6.5軟件和替代方法/101
4.7其他可解釋模型/101
4 .7.1樸素貝葉斯分類器/102
4.7.2 k-近鄰/102
第5章與模型無關的方法/103
5.1部分依賴圖/105
5.1.1示例/106
5. 1.2優點/108
5.1.3缺點/110
5.1.4軟件和替代方法/110
5.2個體條件期望/111
5.2.1示例/111
5.2.2優點/115
5 .2.3缺點/115
5.2.4軟件和替代方法/115
5.3累積局部效應圖/115
5.3.1動機和直覺/115
5.3.2理論/119
5.3.3 ALE圖的估計/120
5.3.4示例/123
5.3.5優點/130
5.3.6缺點/131
5.3.7軟件和替代方法/132
5.4特徵交互/132
5.4.1特徵交互的概念/133
5.4.2理論:弗里德曼的H統計量/134
5.4.3示例/135
5.4.4優點/ 137
5.4.5缺點/138
5.4.6實現/138
5.4.7替代方法/138
5.5置換特徵重要性/139
5.5.1理論/139
5.5.2應該計算訓練數據的重要性還是測試數據的重要性/140
5.5.3示例和解釋/142
5.5.4優點/143
5.5.5缺點/145
5.5.6軟件和替代方法/146
5.6全局代理模型/146
5.6.1理論/146
5.6.2示例/148
5.6.3優點/150
5.6.4缺點/150
5.6.5軟件/150
5. 7局部代理模型(LIME) /150
5.7.1表格數據的LIME /152
5.7.2文本的LIME /155
5.7.3圖像的LIME /156
5.7.4優點/156
5. 7.5缺點/158
5.8 Shapley值/158
5.8.1總體思路/158
5.8.2示例與解釋/162
5.8.3詳細的Shapley值/163
5.8.4優點/167
5.8.5缺點/168
5.8.6軟件和替代方法/169
5.9 SHAP /169
5.9.1 SHAP的定義/169
5.9.2 KernelSHAP /171
5.9.3 TreeSHAP /174
5.9.4示例/175
5.9.5 SHAP特徵重要性/176
5.9.6 SHAP概要圖/177
5 .9.7 SHAP依賴圖/178
5.9.8 SHAP交互值/179
5.9.9聚類SHAP值/180
5.9.10優點/180
5.9.11缺點/181
5.9. 12軟件/182
第6章基於樣本的解釋/183
6.1反事實解釋/185
6.1.1生成反事實解釋/187
6.1.2示例/189
6.1.3優點/190
6. 1.4缺點/190
6.1.5軟件和替代方法/191
6.2對抗樣本/191
6.2.1方法與示例/192
6.2.2網絡安全視角/198
6.3原型與批評/199
6.3.1理論/200
6.3.2示例/205
6.3.3優點/205
6.3.4缺點/206
6.3.5軟件和替代方法/206
6.4有影響力的實例/206
6.4.1刪除診斷/209
6.4. 2影響函數/213
6.4.3識別有影響力的實例的優點/218
6.4.4識別有影響力的實例的缺點/218
6.4.5軟件和替代方法/219
第7章水晶球/221
7.1機器學習的未來/223
7.2可解釋性的未來/224
參考文獻/227
作者介紹
Christoph Molnar,可解釋機器學習研究員,目前在德國慕尼黑大學統計研究所攻讀博士學位,目標是讓機器學習模型的決策更容易被人類理解。
著作Interpretable Machine Learning受到業界高度關注。
朱明超,就讀於復旦大學計算機科學技術專業,熱衷於知識推廣,主要研究機器學習和模型可解釋性。