Python 數據分析之道 (Thinking in Pandas: How to Use the Python Data Analysis Library the Right Way)
內容描述
本書通過以Pandas實現的精彩的數據分析項目,來講解大數據相關的主題及概念。
通過學習本書,讀者可以根據項目的大小及類型來評估自己的項目是否適合使用Pandas庫。
本書對如何在Pandas中高效地加載及標準化數據進行了解讀,
並回顧了一些最常用的加載器及它們的一些最具威力的選項,
從而讀者可以學會如何高效地存取及轉換數據、使用什麼方法、
什麼時候採用或迴避一些更高性能的技術。
本書還將帶讀者用心思考Pandas中基本的數據訪問及維護,以及直覺字典語法。
本書適合作為Python數據分析學習者及相關從業人員的參考用書。
目錄大綱
目錄
前言
第1章 概述
pandas簡介
如何利用pandas構建一個黑洞圖像
如何利用pandas幫助金融機構對未來市場
進行更準確預測
如何利用pandas提高內容可發現性
第2章 基本數據訪問與合併
DataFrame的創建和訪問
iloc方法
loc方法
使用merge方法合併DataFrame
使用join方法合併DataFrame
使用concat方法合併DataFrame
第3章 pandas在Hood下的工作機制
Python數據結構
CPython解釋器、Python和NumPy的性能
pandas性能簡介
選擇正確的DataFrame
第4章 數據加載與規範化
pd.read_csv
pd.read_json
pd.read_sql, pd.read_sql_table, and
pd.read_sql_query
第5章 pandas基礎數據轉換
pivot和pivot表
stack和unstack
melt
轉置transpose
第6章 apply方法
不適用apply方法的場合
適用apply方法的場合
利用Cythorl提高apply方法的性能
第7章 Groupby
正確使用groupby
索引
避免使用groupby
第8章 pandas之外的性能改進
計算機體系結構
如何利用NumExpr改進性能
BLAS和LAPACK
第9章 pandas的發展趨勢
pandas 1.0
結論
作者介紹
Hannah Stepanek
是一名對軟件性能富有激情的軟件開發人員,同時也是開源軟件的積極倡導者。
她擁有七年多的Python編程行業經驗,她花了兩年左右的時間使用pandas實現了一個數據分析項目。
Hannah出生於俄勒岡州科瓦利斯市,畢業於俄勒岡州州立大學電子計算機工程專業。
她活躍於軟件開發社區,經常在本地及大型學術會議上做報告。
2019年初,在美國PyCon會議上,做了關於pandas庫的演講,
並在卡斯卡迪亞社區大學OpenCon會議上做了關於開源軟件的好處的演講。
她有一匹馬,名字叫Sophie。
業餘時間,她喜歡騎馬和玩棋類游戲。