Python數據分析與數據化運營
內容描述
本書內容從邏輯上共分為兩大部分,第壹部分是有關數據分析類的主題,第二部分是有關數據化運營的主題。第壹部分的內容包括1/2/3/4章和附錄,主要介紹了Python和數據化運營的基本知識、數據來源獲取、數據預處理以及數據分析和挖掘的關鍵經驗。第二部分的內容包括5/6/7/8/9章的內容,分別介紹了會員運營、商品運營、流量運營和內容運營四個大主題,以及提升數據化運營價值度的方法。在每個數據化運營主題中都包含了基本知識、評估指標、應用場景、數據分析模型、數據分析小技巧、數據分析大實話以及2個應用案例。
目錄大綱
目錄Contents
讚譽
前言
第1章Python和數據化運營1
1.1用Python做數據化運營1
1.1.1 Python是什麼1
1.1.2數據化運營是什麼2
1.1.3 Python用於數據化運營5
1.2數據化運營所需的Python相關工具和組件6
1.2.1 Python程序6
1.2.2 Python IDE7
1.2.3 Python第三方庫8
1.2.4數據庫和客戶端16
1.2.5 SSH遠程客戶端18
1.3內容延伸:Python的OCR和TensorFlow18
1.3.1 OCR工具:Tesseract-OCR18
1.3.2機器學習框架—TensorFlow19
1.4第一個用Python實現的數據化運營分析實例—銷售預測20
1.4.1案例概述20
1.4.2案例過程20
1.4.3案例小結28
1.5本章小結28
第2章數據化運營的數據來源31
2.1數據化運營的數據來源類型31
2.1.1數據文件31
2.1.2數據庫32
2.1.3 API33
2.1.4流式數據34
2.1.5外部公開數據34
2.1.6其他35
2.2使用Python獲取運營數據35
2.2.1從文本文件讀取運營數據35
2.2.2從Excel獲取運營數據46
2.2.3從關係型數據庫MySQL讀取運營數據48
2.2.4從非關係型數據庫MongoDB讀取運營數據56
2.2.5從API獲取運營數據59
2.3內容延伸:讀取非結構化網頁、文本、圖像、視頻、語音64
2.3.1從網頁中爬取運營數據64
2.3.2讀取非結構化文本數據65
2.3.3讀取圖像數據65
2.3.4讀取視頻數據68
2.3.5讀取語音數據70
2.4本章小結75
第3章11條數據化運營不得不知道的數據預處理經驗76
3.1數據清洗:缺失值、異常值和重複值的處理76
3.1.1數據列缺失的4種處理方法76
3.1.2不要輕易拋棄異常數據78
3.1.3數據重複就需要去重嗎79
3.1.4代碼實操:Python數據清洗81
3.2將分類數據和順序數據轉換為標誌變量89
3.2.1分類數據和順序數據是什麼89
3.2.2運用標誌方法處理分類和順 序數據90
3.2.3代碼實操:Python標誌轉換90
3.3大數據時代的數據降維94
3.3.1需要數據降維的情況94
3.3.2基於特徵選擇的降維94
3.3.3基於維度轉換的降維96
3.3.4代碼實操:Python數據降維97
3.4解決樣本類別分佈不均衡的問題100
3.4.1哪些運營場景中容易出現樣本不均衡100
3.4.2通過過抽樣和欠抽樣解決樣本不均衡101
3.4.3通過正負樣本的懲罰權重解決樣本不均衡101
3.4.4通過組合/集成方法解決樣本不均衡102
3.4.5通過特徵選擇解決樣本不均衡102
3.4.6代碼實操:Python處理樣本不均衡102
3.5如何解決運營數據源的衝突問題106
3.5.1為什麼會出現多數據源的衝突107
3.5.2如何應對多數據源的衝突問題109
3.6數據化運營要抽樣還是全量數據109
3.6.1什麼時候需要抽樣110
3.6.2如何進行抽樣110
3.6 .3抽樣需要注意的幾個問題111
3.6.4代碼實操:Python數據抽樣113
3.7解決運營數據的共線性問題116
3.7.1如何檢驗共線性117
3.7.2 解決共線性的5種常用方法117
3.7.3代碼實操:Python處理共線性問題118
3.8有關相關性分析的混沌120
3.8.1相關和因果是一回事嗎120
3.8.2相關係數低就是不相關嗎121
3.8.3代碼實操:Python相關性分析121
3.9標準化,讓運營數據落入相同的範圍122
3.9.1實現中心化和正態分佈的Z-Score122
3.9.2實現歸一化的Max-Min123
3.9.3用於稀疏數據的MaxAbs123
3.9.4針對離群點的RobustScaler123
3.9. 5代碼實操:Python數據標準化處理123
3.10離散化,對運營數據做邏輯分層126
3.10.1針對時間數據的離散化127
3.10.2針對多值離散數據的離散化127
3.10.3針對連續數據的離散化127
3.10.4針對連續數據的二值化128
3.10.5代碼實操:Python數據離散化處理128
3.11數據處理應該考慮哪些運營業務因素133
3.11.1考慮固定和突發運營週期133
3.11 .2考慮運營需求的有效性134
3.11.3考慮交付時要貼合運營落地場景134
3.11.4不要忽視業務專家經驗135
3.11.5考慮業務需求的變動因素136
3.12內 延伸:非結構化數據的預處理137
3.12.1網頁數據解析137
3.12.2網絡用戶日誌解析144
3.12.3圖像的基本預處理148
3.12.4自然語言文本預處理154
3.13本章小結157
第4章跳過運營數據分析和挖掘的“大坑”159
4.1聚類分析159
4.1.1當心數據異常對聚類結果的影響160
4.1.2超大數據量時應該放棄K均值算法160
4.1.3聚類不僅是建模的終點,更是重要的中間預處理過程162
4.1.4高維數據上無法應用聚類嗎163
4.1.5如何選擇聚類分析算法164
4.1.6代碼實操:Python聚類分析164
4.2回歸分析172
4.2.1注意回歸自變量之間的共線性問題172
4.2.2相關係數、判定係數和回歸係數之間到底什麼關係172
4.2.3判定係數是否意味著相應的因果聯繫173
4.2.4注意應用回歸模型時研究自變量是否產生變化173
4.2.5如何選擇回歸分析算法174
4.2.6代碼實操:Python回歸分析174
4.3分類分析183
4.3.1防止分類模型的過擬合問題183
4.3.2使用關聯算 做分類分析183
4.3.3用分類分析來提煉規則、提取變量、處理缺失值184
作者介紹
宋天龍(Tony Song),大數據技術專家,歷任軟通動力集團大數據研究院數據總監、Webtrekk(德國優選的網站數據分析服務提供商)中國區技術和諮詢負責人、國美在線大數據中心經理。
擅長數據挖掘、建模、分析與運營,精通端到端的數據價值場景設計、業務需求轉換、數據結構梳理、數據建模與學習,以及數據工程交付。擁有豐富的數據項目工作經驗,參與過集團和企業級數據體系規劃、大數據產品開發、網站流量系統建設、網站智能推薦、企業大數據智能等大型數據工作項目。參與實施多個客戶案例,包括Webpower、德國OTTO集團電子商務(中國)、Esprit中國、豬八戒網、順豐優選、樂視商城、泰康人壽、酒仙網,國美在線、迪信通等。
著有《網站數據挖掘與分析:系統方法與商業實踐》《企業大數據系統構建實戰:技術、架構、實施與應用》。