人工智能與大數據(捲1):基礎概念和模型

人工智能與大數據(捲1):基礎概念和模型

作者: [新加坡]周志華(Chew Chee Hua)
出版社: 人民郵電
出版在: 2022-04-01
ISBN-13: 9787115575753
ISBN-10: 7115575754
總頁數: 289 頁





內容描述


本書介紹了人工智能和大數據涉及的核心概念和模型。書中涉及概念包括監督和非監督學習、數據類型、可視化、線性回歸、邏輯回歸、分類回歸樹、神經網絡等。同時,本書理論和實際並重,基於真實的實例和數據集,引入了R語言演示實際計算和操作,為讀者展示解決實際問題的代碼,從而讓讀者掌握在實際生活中解決相關問題的方法。本書適合想要綜合學習人工智能、大數據和數據科學,尤其是想要依靠這些學科解決實際問題的人學習,也適合作為相關課程的參考教材。


目錄大綱


第 1 章 介紹和概述 . 11.1 主要的成功案例和應用 .11.1.1 Netflix 的 120 億美元營收目標 .11.1.2 在醫院急診部使用有限的信息拯救生命 .31.1.3 癌症診斷與損傷預後 .51.1.4 從零開始使用低預算連續贏得 20 場比賽 .61.1.5 殼牌公司深海石油鑽探的預測性資產維護 .71.1.6 預測選舉結果 .81.1.7 星展銀行預測現金需求和優化調度 .91.1.8 新加坡稅務局檢測稅務欺詐 .101.1.9 違規和欺詐貸款風險檢測 .111.2 適合 ADA 解決的問題特徵 .121.3 數據分析、數據科學和人工智能的區別 .131.4 analysis 和 analytics .141.5 組織 ADA 能力的發展曲線 .151.6 規劃、開發和部署 ADA .181.7 四大預測模型 .19第 2 章 基本概念和原則. 212.1 本章目標 .212.2 可視化和模型 .212.3 監督學習和無監督學習 .242.4 模型的可解釋性 .252.5 原則 1:正確模型不唯一 .262.5.1 模型和等式 .282.5.2 評估預測模型 .292.6 原則 2:訓練數據和測試數據分離 . 312.6.1 在訓練 - 測試拆分前進行分層 .332.6.2 有效地執行分層和訓練 - 測試拆分 .342.6.3 訓練集與測試集之間的權衡 .392.7 原則 3:風險校正模型 . 392.7.1 多項式插值定理的影響 .402.7.2 模型復雜度 .41第 3 章 數據探索和摘要. 473.1 本章目標 .473.2 數據初探和 R 語言的 data.table .473.2.1 data.table 的語法 .483.2.2 示例:2014 年的紐約航班 .483.2.3 行篩選 .513.2.4 列排序 .523.2.5 篩選幾列並進行重命名 .533.2.6 進一步的數據探索和問題 .533.3 公共享途微觀樣本數據 .593.3.1 探索 PUMS 中的健康保險覆蓋面數據 .603.3.2 在 R 中導入數據和摘要概述 .613.3.3 缺失值概述 .663.3.4 繪制單一連續變量的圖形摘要—概率密度 .673.3.5 繪制單一分類變量的圖形摘要—條形圖 .713.3.6 繪制分類變量X 和連續變量Y 的圖形摘要—箱線圖 .733.3.7 繪制連續變量X 和連續變量Y 的圖形摘要—散點圖 .753.3.8 繪制連續變量X 和分類變量X 的圖形摘要—抖動 散點圖 .76 3.4 結論 .79第 4 章 數據結構和可視化 . 834.1 本章目標 .834.2 數據結構的格式 .834.3 檢查數據結構 .854.3.1 連續數據和分類數據 .854.3.2 定類數據與定序數據 .874.4 可視化 .904.5 結論 .93第 5 章 數據清洗和準備. 955.1 本章目標 .955.2 缺失值 .955.2.1 更正不一致的缺失值記錄 .965.2.2 NA 和 NULL .985.2.3 處理(真實存在的)缺失值 .995.3 處理分類數據中的 NA 和錯誤值 .1005.4 處理連續數據中的 NA 和錯誤值 .1005.5 結論 .102第 6 章 線性回歸:最佳實踐. 1056.1 本章目標 .1056.2 相關性 .1056.2.1 強相關和因果關系 .1086.2.2 強相關和直線關系 .1096.2.3 弱相關性和無趨勢 .1106.3 單輸入變量的線性回歸 .1126.4 多重R 方和調整R 方 .1156.5 線性回歸方程和線性回歸模型 .1176.6 模型診斷圖 .1186.7 有影響力的異常值 .1196.8 向模型中增加一個二次項 .1216.9 多因子的線性回歸 .1236.10 訓練 - 測試拆分 .1356.11 結論 .137第 7 章 邏輯回歸:最佳實踐. 1407.1 本章目標 .1407.2 相對風險和勝算比 .1407.3 單一連續輸入變量的二元邏輯回歸 .1457.3.1 示例: 基於學習時長預測考試結果 .1487.3.2 邏輯回歸的混淆矩陣 .1527.4 多輸入變量的二元邏輯回歸 .1547.5 多元邏輯回歸 .1597.5.1 多分類值Y 的邏輯函數 .1607.5.2 示例:影響服務評級的因素 .1617.6 結論 .166第 8 章 分類回歸樹 . 1718.1 本章目標 .1718.2 預測心臟病發作的模型和要求 .1728.3 階段 1:使用二分法將樹增長到最大值 .1758.3.1 度量分類變量結點的雜質 .1768.3.2 CART 樹的增長過程 .1798.4 階段 2:用最弱連接剪枝法將樹修剪到最小值 .1808.4.1 最弱連接剪枝 .1828.4.2 rpart 包中的α 和cp .1858.4.3 k 折交叉驗證和 1 標準誤差規則 .1858.5 示例:CART 模型在定向信用卡營銷中的運用 (Y 為分類數據) .1878.6 示例:CART 模型在汽車燃油效率中的運用 (Y 為連續數據) .1988.7 通過代理項自動處理缺失值 .2058.8 結論 .2118.9 rpart 包的重要函數和參數總結 .212第 9 章 神經網絡. 2199.1 本章目標 .2199.2 大腦處理信息過程的建模 .2209.3 信息的處理、關聯和傳輸 .2219.4 示例:巧克力口味測試 .2229.5 通過增加權重訓練神經網絡 .2269.5.1 反向傳播 .2269.5.2 彈性反向傳播和權重回溯 .2289.6 設計神經網絡需要考慮的細節 .2299.6.1 規範所有輸入變量的取值範圍 .2299.6.2 限制網絡復雜度 .2309.6.3 neuralnet 和 nnet .2309.7 示例:不孕風險 .2319.8 結論 .236、第 10 章 字符串和文本挖掘 . 24010.1 本章目標 .24010.2 處理字符串 .24010.3 基本的文本挖掘概念 .24710.3.1 示例:對期刊標題進行分析的字符串操作 .24910.3.2 示例:對期刊標題分析的文本挖掘操作 .25210.3.3 文檔要素矩陣 .25610.3.4 非索引字 .25710.4 情緒分析 .25910.5 結論 .266第 11 章 結束感想和後續計劃. 269附錄 A R 和 RStudio 的安裝 . 271A.1 下載安裝 R .271A.2 下載安裝 RStudio .273A.3 在 RStudio 中將 R 升級到最新版本 .274附錄 B 基本的 R 命令和腳本 . 275B.1 RStudio 界面的 4 個面板 .275B.2 檢查和設置工作目錄 .280B.3 將數據輸入 RStudio .281B.4 R 中的對象命名約定 .284B.5 R 中的通用運算符 .285B.6 R 函數 .285B.7 創建你自己的 R 函數 .287B.8 練習 R .288


作者介紹


Chew Chee Hua(中文名:周志华),新加披南洋理工大学高级讲师,主讲课程包括分析学、机器学习、商业分析及应用机器学习、分析战略等。曾为政府机构、银行、保险公司、医院和大型企业设计和领导高级分析解决方案。




相關書籍

深入理解 React Router:從原理到實踐

作者 李楊韜

2022-04-01

HTML5移動開發

作者 埃斯特爾·韋爾 (Estelle Weyl)

2022-04-01

Mapping with Drupal (Paperback)

作者 Alan Palazzolo Thomas Turnbull

2022-04-01