Python網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)

定　價(jià)：￥79.80

作　者：	呂云翔，張揚(yáng)
出版社：	清華大學(xué)出版社
叢編項(xiàng)：	清華科技大講堂
標(biāo)　簽：	暫缺

購(gòu)買(mǎi)這本書(shū)可以去

ISBN：	9787302515920	出版時(shí)間：	2019-04-01	包裝：	平裝
開(kāi)本：	16開(kāi)	頁(yè)數(shù)：	391	字?jǐn)?shù)：

內(nèi)容簡(jiǎn)介

　　本書(shū)介紹如何利用Python進(jìn)行網(wǎng)絡(luò)爬蟲(chóng)程序的開(kāi)發(fā)，從Python語(yǔ)言的基本特性入手，詳細(xì)介紹了Python爬蟲(chóng)開(kāi)發(fā)的相關(guān)知識(shí)，涉及HTTP、HTML、JavaScript、正則表達(dá)式、自然語(yǔ)言處理、數(shù)據(jù)科學(xué)等內(nèi)容。全書(shū)共分為14章，包括Python基礎(chǔ)知識(shí)、網(wǎng)站分析、網(wǎng)頁(yè)解析、Python文件的讀寫(xiě)、Python與數(shù)據(jù)庫(kù)、AJAX技術(shù)、模擬登錄、文本與數(shù)據(jù)分析、網(wǎng)站測(cè)試、Scrapy爬蟲(chóng)框架、爬蟲(chóng)性能等多個(gè)主題，內(nèi)容覆蓋網(wǎng)絡(luò)抓取與爬蟲(chóng)編程中的主要知識(shí)和技術(shù)，在重視理論基礎(chǔ)的前提下從實(shí)用性和豐富度出發(fā)，結(jié)合實(shí)例演示了編寫(xiě)爬蟲(chóng)程序的核心流程。本書(shū)適合Python語(yǔ)言初學(xué)者、網(wǎng)絡(luò)爬蟲(chóng)技術(shù)愛(ài)好者、數(shù)據(jù)分析從業(yè)人員以及高等院校計(jì)算機(jī)科學(xué)、軟件工程等相關(guān)專業(yè)的師生閱讀。

作者簡(jiǎn)介

暫缺《Python網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)》作者簡(jiǎn)介

圖書(shū)目錄

基礎(chǔ)篇

第1章Python與網(wǎng)絡(luò)爬蟲(chóng)

1.1Python語(yǔ)言

1.1.1什么是Python

1.1.2Python的應(yīng)用現(xiàn)狀

1.2Python的安裝與開(kāi)發(fā)環(huán)境配置

1.2.1在Windows上安裝

1.2.2在Ubuntu和Mac OS上安裝

1.2.3PyCharm的使用

1.2.4Jupyter Notebook

1.3Python的基本語(yǔ)法

1.3.1數(shù)據(jù)類(lèi)型

1.3.2邏輯語(yǔ)句

1.3.3Python中的函數(shù)與類(lèi)

1.3.4如何學(xué)習(xí)Python

1.4互聯(lián)網(wǎng)、HTTP與HTML

1.4.1互聯(lián)網(wǎng)與HTTP協(xié)議

1.4.2HTML

1.5HelloSpider

1.5.1第一個(gè)爬蟲(chóng)程序

1.5.2對(duì)爬蟲(chóng)程序的思考

1.6調(diào)研網(wǎng)站

1.6.1網(wǎng)站的robots.txt與Sitemap

1.6.2查看網(wǎng)站所用的技術(shù)

1.6.3查看網(wǎng)站所有者的信息

1.6.4使用開(kāi)發(fā)者工具檢查網(wǎng)頁(yè)

1.7本章小結(jié)

第2章數(shù)據(jù)的采集

2.1從抓取開(kāi)始

2.2正則表達(dá)式

2.2.1初識(shí)正則表達(dá)式

2.2.2正則表達(dá)式的簡(jiǎn)單使用

2.3BeautifulSoup

2.3.1BeautifulSoup的安裝與特點(diǎn)

2.3.2BeautifulSoup的基本使用

2.4XPath與lxml

2.4.1XPath

2.4.2lxml與XPath的使用

2.5遍歷頁(yè)面

2.5.1抓取下一個(gè)頁(yè)面

2.5.2完成爬蟲(chóng)程序

2.6使用API

2.6.1API簡(jiǎn)介

2.6.2API使用示例

2.7本章小結(jié)

第3章文件與數(shù)據(jù)的存儲(chǔ)

3.1Python中的文件

3.1.1基本的文件讀寫(xiě)

3.1.2序列化

3.2字符串

3.3Python與圖片

3.3.1PIL與Pillow

3.3.2Python與OpenCV簡(jiǎn)介

3.4CSV文件

3.4.1CSV簡(jiǎn)介

3.4.2CSV的讀寫(xiě)

3.5使用數(shù)據(jù)庫(kù)

3.5.1使用MySQL

3.5.2使用SQLite3

3.5.3使用SQLAlchemy

3.5.4使用Redis

3.6其他類(lèi)型的文檔

3.7本章小結(jié)

進(jìn)階篇

第4章JavaScript與動(dòng)態(tài)內(nèi)容

4.1JavaScript與AJAX技術(shù)

4.1.1JavaScript語(yǔ)言

4.1.2AJAX

4.2抓取AJAX數(shù)據(jù)

4.2.1分析數(shù)據(jù)

4.2.2提取數(shù)據(jù)

4.3抓取動(dòng)態(tài)內(nèi)容

4.3.1動(dòng)態(tài)渲染頁(yè)面

4.3.2使用Selenium

4.3.3PyV8與Splash

4.4本章小結(jié)

第5章表單與模擬登錄

5.1表單

5.1.1表單與POST

5.1.2發(fā)送表單數(shù)據(jù)

5.2Cookie

5.2.1什么是Cookie

5.2.2在Python中使用Cookie

5.3模擬登錄網(wǎng)站

5.3.1分析網(wǎng)站

5.3.2通過(guò)Cookie模擬登錄

5.4驗(yàn)證碼

5.4.1圖片驗(yàn)證碼

5.4.2滑動(dòng)驗(yàn)證

5.5本章小結(jié)

第6章數(shù)據(jù)的進(jìn)一步處理

6.1Python與文本分析

6.1.1什么是文本分析

6.1.2jieba與SnowNLP

6.1.3NLTK

6.1.4文本的分類(lèi)與聚類(lèi)

6.2數(shù)據(jù)處理與科學(xué)計(jì)算

6.2.1從MATLAB到Python

6.2.2NumPy

6.2.3Pandas

6.2.4Matplotlib

6.2.5SciPy與SymPy

6.3本章小結(jié)

高級(jí)篇

第7章更靈活和更多樣的爬蟲(chóng)

7.1更靈活的爬蟲(chóng)——以微信數(shù)據(jù)的抓取為例

7.1.1用Selenium抓取Web微信信息

7.1.2基于Python的微信API工具

7.2更多樣的爬蟲(chóng)

7.2.1PyQuery

7.2.2在線爬蟲(chóng)應(yīng)用平臺(tái)

7.2.3使用urllib

7.3對(duì)爬蟲(chóng)的部署和管理

7.3.1配置遠(yuǎn)程主機(jī)

7.3.2編寫(xiě)本地爬蟲(chóng)

7.3.3部署爬蟲(chóng)

7.3.4查看運(yùn)行結(jié)果

7.3.5使用爬蟲(chóng)管理框架

7.4本章小結(jié)

第8章瀏覽器模擬與網(wǎng)站測(cè)試

8.1關(guān)于測(cè)試

8.1.1什么是測(cè)試

8.1.2什么是TDD

8.2Python的單元測(cè)試

8.2.1使用unittest

8.2.2其他方法

8.3使用Python爬蟲(chóng)測(cè)試網(wǎng)站

8.4使用Selenium測(cè)試

8.4.1Selenium測(cè)試常用的網(wǎng)站交互

8.4.2結(jié)合Selenium進(jìn)行單元測(cè)試

8.5本章小結(jié)

第9章更強(qiáng)大的爬蟲(chóng)

9.1爬蟲(chóng)框架

9.1.1Scrapy是什么

9.1.2Scrapy的安裝與入門(mén)

9.1.3編寫(xiě)Scrapy爬蟲(chóng)

9.1.4其他爬蟲(chóng)框架

9.2網(wǎng)站反爬蟲(chóng)

9.2.1反爬蟲(chóng)的策略

9.2.2偽裝headers

9.2.3使用代理

9.2.4訪問(wèn)頻率

9.3多進(jìn)程與分布式

9.3.1多進(jìn)程編程與爬蟲(chóng)抓取

9.3.2分布式爬蟲(chóng)

9.4本章小結(jié)

實(shí)踐篇

第10章爬蟲(chóng)實(shí)踐：下載網(wǎng)頁(yè)中的小說(shuō)和購(gòu)物評(píng)論

10.1下載網(wǎng)絡(luò)小說(shuō)

10.1.1分析網(wǎng)頁(yè)

10.1.2編寫(xiě)爬蟲(chóng)

10.1.3運(yùn)行并查看TXT文件

10.2下載購(gòu)物評(píng)論

10.2.1查看網(wǎng)絡(luò)數(shù)據(jù)

10.2.2編寫(xiě)爬蟲(chóng)

10.2.3數(shù)據(jù)下載結(jié)果與爬蟲(chóng)分析

10.3本章小結(jié)

第11章爬蟲(chóng)實(shí)踐：保存感興趣的圖片

11.1豆瓣網(wǎng)站分析與爬蟲(chóng)設(shè)計(jì)

11.1.1從需求出發(fā)

11.1.2處理登錄問(wèn)題

11.2編寫(xiě)爬蟲(chóng)程序

11.2.1爬蟲(chóng)腳本

11.2.2程序分析

11.3運(yùn)行并查看結(jié)果

11.4本章小結(jié)

第12章爬蟲(chóng)實(shí)踐：網(wǎng)上影評(píng)分析

12.1需求分析與爬蟲(chóng)設(shè)計(jì)

12.1.1網(wǎng)頁(yè)分析

12.1.2函數(shù)設(shè)計(jì)

12.2編寫(xiě)爬蟲(chóng)

12.2.1編寫(xiě)程序

12.2.2可能的改進(jìn)

12.3本章小結(jié)

第13章爬蟲(chóng)實(shí)踐：使用爬蟲(chóng)下載網(wǎng)頁(yè)

13.1設(shè)計(jì)抓取程序

13.2運(yùn)行程序

13.3展示網(wǎng)頁(yè)

第14章爬蟲(chóng)實(shí)踐：使用爬蟲(chóng)框架

14.1Gain框架

14.2使用Gain做簡(jiǎn)單抓取

14.3PySpider框架

14.4使用PySpider進(jìn)行抓取

附錄A

A.1Python中的一些重要概念

A.1.1*args與**kwargs的使用

A.1.2global關(guān)鍵詞

A.1.3enumerate枚舉

A.1.4迭代器與生成器

A.2Python中的常用模塊

A.2.1collections

A.2.2arrow

A.2.3timeit

A.2.4pickle

A.2.5os

A.2.6sys

A.2.7itertools

A.2.8functools

A.2.9threading、queue與multiprocessing

A.3requests庫(kù)

A.3.1requests基礎(chǔ)

A.3.2更多用法

A.4正則表達(dá)式

A.4.1什么是正則表達(dá)式

A.4.2正則表達(dá)式的基礎(chǔ)語(yǔ)法

參考文獻(xiàn)

Python網(wǎng)絡(luò)爬蟲(chóng)實(shí)戰(zhàn)

購(gòu)買(mǎi)這本書(shū)可以去

內(nèi)容簡(jiǎn)介

作者簡(jiǎn)介

圖書(shū)目錄

本目錄推薦

設(shè)計(jì)研究體驗(yàn)

間：空間、時(shí)間與實(shí)踐

當(dāng)代城市建設(shè)中的藝術(shù)設(shè)計(jì)研究

建筑設(shè)計(jì)藝術(shù)研究

民間美術(shù)與現(xiàn)代藝術(shù)設(shè)計(jì)教學(xué)優(yōu)化…

建筑速寫(xiě)

村墅集：鄉(xiāng)村別墅優(yōu)秀設(shè)計(jì)作品集…

設(shè)計(jì)未來(lái)企業(yè)架構(gòu)

建筑設(shè)計(jì)基礎(chǔ)

裝配式建筑技術(shù)與綠色建筑設(shè)計(jì)研…