數據科學概論(第2版)

數據科學概論(第2版)

作者: 覃雄派 陳躍國 杜小勇
出版社: 中國人民大學
出版在: 2021-10-01
ISBN-13: 9787300299082
ISBN-10: 7300299083
裝訂格式: 平裝
總頁數: 442 頁





內容描述


本教材的內容,分為四大模塊,分別是:
(1) 數據科學基礎(Fundamentals):講述數據科學的基本概念和原則。
 (2) 數據和數據上的計算(Data and Computing on Data):
講述不同的數據類型及其分析方法,數據類型包括結構化數據、
非結構化數據、半結構化數據,分析方法包括統計學方法、數據挖掘方法、和機器學習方法等。
(3) 數據處理基礎設施、平台和工具(Infrastructure, Platforms and Tools):
講述雲計算平台、數據庫、大數據平台及工具、以及編程語言 Python 等。
 (4) 數據科學案例和實踐(Applications and Practice):
講述大數據應用的案例;並且面向金融領域的量化交易應用,
從數據採集、模型訓練、預測、評價、到可視化等環節,帶領讀者完成數據分析處理的實踐。


目錄大綱


第l章 數據科學概述
1.1 數據科學的定義
1.2 數據科學的定位
1.3 數據科學家
1.4 表示模型:對自然和社會現象進行數字化
1.5 數據科學的基本原則
1.6 數據處理流程:時間維度的縱向視角
1.7 數據處理系統的架構:系統維度的計算視角
1.8 數據的多樣性:數據類型維度的橫向視角
1.9 數據價值的挖掘:價值維度的價值提升視角
第2章 OLAP與數據服務
2.1 面向OLTP應用的關係數據庫技術
2.2 面向數據服務的NoSOL數據庫技術
2.3 NewSQL數據庫技術
第3章 OLTP與結構化數據分析
3.1 聯機分析處理與結構化數據分析
3.2 高性能OLAP系統的關鍵技術
3.3 結構化數據分析工具介紹
第4章 數據清洗與數據集成
4.1 數據抽取、轉換和裝載
4.2 數據清洗
4.3 數據集成
第5章 數據的深度分析(上)
5.1 機器學習與數據挖掘簡介
5.2 決策樹
5.3 支持向量機
5.4 KNN算法(分類)
5.5 樸素貝葉斯算法(分類)
5.6 在二值分類器上構建多類別分類器
5.7 聚類算法
5.8 EM算法(軟聚類)
5.9 線1l生回歸、Logistic回歸
5.10 AdaBoost算法與集成學習
5.11 關聯規則分析
5.12 協同過濾 算法
5.13 隱馬爾可夫模型
第6章 數據的深度分析(下)
6.1 神經網絡與深度學習(分類回歸)
6.2 數據預處理
6.3 數據降維
6.4 特徵選擇
6.5 機器學>-7算法的評價指標、評價以及參數優
6.6 方差與偏差
6.7 從復雜模型到簡單模型以及正則化
6.8 主流數據深度分析工具
第7章 文本分析
7.1 文本分析的意義
7.2 文本分析的任務和方法
7.3 文本分析可視化
7.4 文本分析軟件和工具




相關書籍

決策用強化與系統性機器學習

作者 (印度)巴拉格·庫爾卡尼(Parag Kulkarni) 李寧 等譯

2021-10-01

Modern Data Science with R, 2/e

作者 Baumer Benjamin S. Kaplan Daniel T. Horton Nicholas J.

2021-10-01

機器學習-基於騰訊雲機器學習應用工程師認證(TCP)

作者 李然

2021-10-01