注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術工業(yè)技術建筑科學建筑設計Python網絡爬蟲實戰(zhàn)

Python網絡爬蟲實戰(zhàn)

Python網絡爬蟲實戰(zhàn)

定 價:¥79.80

作 者: 呂云翔,張揚
出版社: 清華大學出版社
叢編項: 清華科技大講堂
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302515920 出版時間: 2019-04-01 包裝: 平裝
開本: 16開 頁數(shù): 391 字數(shù):  

內容簡介

  本書介紹如何利用Python進行網絡爬蟲程序的開發(fā),從Python語言的基本特性入手,詳細介紹了Python爬蟲開發(fā)的相關知識,涉及HTTP、HTML、JavaScript、正則表達式、自然語言處理、數(shù)據科學等內容。全書共分為14章,包括Python基礎知識、網站分析、網頁解析、Python文件的讀寫、Python與數(shù)據庫、AJAX技術、模擬登錄、文本與數(shù)據分析、網站測試、Scrapy爬蟲框架、爬蟲性能等多個主題,內容覆蓋網絡抓取與爬蟲編程中的主要知識和技術,在重視理論基礎的前提下從實用性和豐富度出發(fā),結合實例演示了編寫爬蟲程序的核心流程。 本書適合Python語言初學者、網絡爬蟲技術愛好者、數(shù)據分析從業(yè)人員以及高等院校計算機科學、軟件工程等相關專業(yè)的師生閱讀。

作者簡介

暫缺《Python網絡爬蟲實戰(zhàn)》作者簡介

圖書目錄

目錄

基礎篇


第1章Python與網絡爬蟲


1.1Python語言


1.1.1什么是Python


1.1.2Python的應用現(xiàn)狀


1.2Python的安裝與開發(fā)環(huán)境配置


1.2.1在Windows上安裝


1.2.2在Ubuntu和Mac OS上安裝


1.2.3PyCharm的使用


1.2.4Jupyter Notebook


1.3Python的基本語法


1.3.1數(shù)據類型


1.3.2邏輯語句


1.3.3Python中的函數(shù)與類


1.3.4如何學習Python


1.4互聯(lián)網、HTTP與HTML


1.4.1互聯(lián)網與HTTP協(xié)議


1.4.2HTML


1.5HelloSpider


1.5.1第一個爬蟲程序


1.5.2對爬蟲程序的思考


1.6調研網站


1.6.1網站的robots.txt與Sitemap


1.6.2查看網站所用的技術


1.6.3查看網站所有者的信息


1.6.4使用開發(fā)者工具檢查網頁


1.7本章小結


第2章數(shù)據的采集


2.1從抓取開始


2.2正則表達式


2.2.1初識正則表達式


2.2.2正則表達式的簡單使用


2.3BeautifulSoup


2.3.1BeautifulSoup的安裝與特點


2.3.2BeautifulSoup的基本使用


2.4XPath與lxml


2.4.1XPath


2.4.2lxml與XPath的使用


2.5遍歷頁面


2.5.1抓取下一個頁面


2.5.2完成爬蟲程序


2.6使用API


2.6.1API簡介


2.6.2API使用示例


2.7本章小結


第3章文件與數(shù)據的存儲


3.1Python中的文件


3.1.1基本的文件讀寫


3.1.2序列化


3.2字符串


3.3Python與圖片


3.3.1PIL與Pillow


3.3.2Python與OpenCV簡介


3.4CSV文件


3.4.1CSV簡介


3.4.2CSV的讀寫


3.5使用數(shù)據庫


3.5.1使用MySQL


3.5.2使用SQLite3


3.5.3使用SQLAlchemy


3.5.4使用Redis


3.6其他類型的文檔


3.7本章小結


進階篇


第4章JavaScript與動態(tài)內容


4.1JavaScript與AJAX技術


4.1.1JavaScript語言


4.1.2AJAX


4.2抓取AJAX數(shù)據


4.2.1分析數(shù)據


4.2.2提取數(shù)據


4.3抓取動態(tài)內容


4.3.1動態(tài)渲染頁面


4.3.2使用Selenium


4.3.3PyV8與Splash


4.4本章小結


第5章表單與模擬登錄


5.1表單


5.1.1表單與POST


5.1.2發(fā)送表單數(shù)據


5.2Cookie


5.2.1什么是Cookie


5.2.2在Python中使用Cookie


5.3模擬登錄網站


5.3.1分析網站


5.3.2通過Cookie模擬登錄


5.4驗證碼


5.4.1圖片驗證碼


5.4.2滑動驗證


5.5本章小結


第6章數(shù)據的進一步處理


6.1Python與文本分析


6.1.1什么是文本分析


6.1.2jieba與SnowNLP


6.1.3NLTK


6.1.4文本的分類與聚類


6.2數(shù)據處理與科學計算


6.2.1從MATLAB到Python


6.2.2NumPy


6.2.3Pandas


6.2.4Matplotlib


6.2.5SciPy與SymPy


6.3本章小結


高級篇


第7章更靈活和更多樣的爬蟲


7.1更靈活的爬蟲——以微信數(shù)據的抓取為例


7.1.1用Selenium抓取Web微信信息


7.1.2基于Python的微信API工具


7.2更多樣的爬蟲


7.2.1PyQuery


7.2.2在線爬蟲應用平臺


7.2.3使用urllib


7.3對爬蟲的部署和管理


7.3.1配置遠程主機


7.3.2編寫本地爬蟲


7.3.3部署爬蟲


7.3.4查看運行結果


7.3.5使用爬蟲管理框架


7.4本章小結


第8章瀏覽器模擬與網站測試


8.1關于測試


8.1.1什么是測試


8.1.2什么是TDD


8.2Python的單元測試


8.2.1使用unittest


8.2.2其他方法


8.3使用Python爬蟲測試網站


8.4使用Selenium測試


8.4.1Selenium測試常用的網站交互


8.4.2結合Selenium進行單元測試


8.5本章小結


第9章更強大的爬蟲


9.1爬蟲框架


9.1.1Scrapy是什么


9.1.2Scrapy的安裝與入門


9.1.3編寫Scrapy爬蟲


9.1.4其他爬蟲框架


9.2網站反爬蟲


9.2.1反爬蟲的策略


9.2.2偽裝headers


9.2.3使用代理


9.2.4訪問頻率


9.3多進程與分布式


9.3.1多進程編程與爬蟲抓取


9.3.2分布式爬蟲


9.4本章小結


實踐篇


第10章爬蟲實踐: 下載網頁中的小說和購物評論


10.1下載網絡小說


10.1.1分析網頁


10.1.2編寫爬蟲


10.1.3運行并查看TXT文件


10.2下載購物評論


10.2.1查看網絡數(shù)據


10.2.2編寫爬蟲


10.2.3數(shù)據下載結果與爬蟲分析


10.3本章小結


第11章爬蟲實踐: 保存感興趣的圖片


11.1豆瓣網站分析與爬蟲設計


11.1.1從需求出發(fā)


11.1.2處理登錄問題


11.2編寫爬蟲程序


11.2.1爬蟲腳本


11.2.2程序分析


11.3運行并查看結果


11.4本章小結


第12章爬蟲實踐: 網上影評分析


12.1需求分析與爬蟲設計


12.1.1網頁分析


12.1.2函數(shù)設計


12.2編寫爬蟲


12.2.1編寫程序


12.2.2可能的改進


12.3本章小結


第13章爬蟲實踐: 使用爬蟲下載網頁


13.1設計抓取程序


13.2運行程序


13.3展示網頁


第14章爬蟲實踐: 使用爬蟲框架


14.1Gain框架


14.2使用Gain做簡單抓取


14.3PySpider框架


14.4使用PySpider進行抓取


附錄A


A.1Python中的一些重要概念


A.1.1*args與**kwargs的使用


A.1.2global關鍵詞


A.1.3enumerate枚舉


A.1.4迭代器與生成器


A.2Python中的常用模塊


A.2.1collections


A.2.2arrow


A.2.3timeit


A.2.4pickle


A.2.5os


A.2.6sys


A.2.7itertools


A.2.8functools


A.2.9threading、queue與multiprocessing


A.3requests庫


A.3.1requests基礎


A.3.2更多用法


A.4正則表達式


A.4.1什么是正則表達式


A.4.2正則表達式的基礎語法


參考文獻



本目錄推薦

掃描二維碼
Copyright ? 讀書網 m.afriseller.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號