Python3網絡爬蟲寶典
內容描述
本書從實際的爬蟲業務需求延伸到知識點和具體實現,並詳細介紹了其中的原理。
首先帶領讀者領略爬蟲程序的構成和完整鏈條,學習自動化工具的應用場景和基本使用;
接著介紹了增量爬取的分類和具體實現、基於Redis的分佈式爬蟲實現和基於RabbitMQ的分佈式爬蟲實現,
通過閱讀論文和源碼剖析詳細介紹了高準確率的網頁正文自動化提取方法;
然後通過源碼調試了解到與Python項目的部署和調度相關的知識,進而動手實踐,編寫了一款具備權限控制、
Python通用項目部署、定時調度、異常監控和釘釘機器人消息通知的爬蟲項目管理平台;
最後通過解讀分佈式調度平台的核心架構,幫助大家了解分佈式架構中最為重要的節點通信、文件同步等知識。
本書適合爬蟲工程師、爬蟲技術愛好者和Python開發者閱讀,
也適合爬蟲團隊管理者、高校教師和培訓機構的講師閱讀。
作者介紹
韋世東
資深爬蟲工程師、2019 華為雲·雲享專家、掘金社區優秀作者、GitChat 認證作者、夜幕團隊(Night Team)成員、
《Python3 反爬蟲原理與繞過實戰》作者,對反爬蟲和逆向有研究,精通爬蟲架構設計和工程鏈路實踐,
搭建過日流量億級的爬蟲架構。