
定 價:¥79.80
| 作 者: | 呂云翔,張揚 |
| 出版社: | 清華大學出版社 |
| 叢編項: | 清華科技大講堂 |
| 標 簽: | 暫缺 |
| ISBN: | 9787302515920 | 出版時間: | 2019-04-01 | 包裝: | 平裝 |
| 開本: | 16開 | 頁數(shù): | 391 | 字數(shù): |
目錄
基礎篇
第1章Python與網絡爬蟲
1.1Python語言
1.1.1什么是Python
1.1.2Python的應用現(xiàn)狀
1.2Python的安裝與開發(fā)環(huán)境配置
1.2.1在Windows上安裝
1.2.2在Ubuntu和Mac OS上安裝
1.2.3PyCharm的使用
1.2.4Jupyter Notebook
1.3Python的基本語法
1.3.1數(shù)據類型
1.3.2邏輯語句
1.3.3Python中的函數(shù)與類
1.3.4如何學習Python
1.4互聯(lián)網、HTTP與HTML
1.4.1互聯(lián)網與HTTP協(xié)議
1.4.2HTML
1.5HelloSpider
1.5.1第一個爬蟲程序
1.5.2對爬蟲程序的思考
1.6調研網站
1.6.1網站的robots.txt與Sitemap
1.6.2查看網站所用的技術
1.6.3查看網站所有者的信息
1.6.4使用開發(fā)者工具檢查網頁
1.7本章小結
第2章數(shù)據的采集
2.1從抓取開始
2.2正則表達式
2.2.1初識正則表達式
2.2.2正則表達式的簡單使用
2.3BeautifulSoup
2.3.1BeautifulSoup的安裝與特點
2.3.2BeautifulSoup的基本使用
2.4XPath與lxml
2.4.1XPath
2.4.2lxml與XPath的使用
2.5遍歷頁面
2.5.1抓取下一個頁面
2.5.2完成爬蟲程序
2.6使用API
2.6.1API簡介
2.6.2API使用示例
2.7本章小結
第3章文件與數(shù)據的存儲
3.1Python中的文件
3.1.1基本的文件讀寫
3.1.2序列化
3.2字符串
3.3Python與圖片
3.3.1PIL與Pillow
3.3.2Python與OpenCV簡介
3.4CSV文件
3.4.1CSV簡介
3.4.2CSV的讀寫
3.5使用數(shù)據庫
3.5.1使用MySQL
3.5.2使用SQLite3
3.5.3使用SQLAlchemy
3.5.4使用Redis
3.6其他類型的文檔
3.7本章小結
進階篇
第4章JavaScript與動態(tài)內容
4.1JavaScript與AJAX技術
4.1.1JavaScript語言
4.1.2AJAX
4.2抓取AJAX數(shù)據
4.2.1分析數(shù)據
4.2.2提取數(shù)據
4.3抓取動態(tài)內容
4.3.1動態(tài)渲染頁面
4.3.2使用Selenium
4.3.3PyV8與Splash
4.4本章小結
第5章表單與模擬登錄
5.1表單
5.1.1表單與POST
5.1.2發(fā)送表單數(shù)據
5.2Cookie
5.2.1什么是Cookie
5.2.2在Python中使用Cookie
5.3模擬登錄網站
5.3.1分析網站
5.3.2通過Cookie模擬登錄
5.4驗證碼
5.4.1圖片驗證碼
5.4.2滑動驗證
5.5本章小結
第6章數(shù)據的進一步處理
6.1Python與文本分析
6.1.1什么是文本分析
6.1.2jieba與SnowNLP
6.1.3NLTK
6.1.4文本的分類與聚類
6.2數(shù)據處理與科學計算
6.2.1從MATLAB到Python
6.2.2NumPy
6.2.3Pandas
6.2.4Matplotlib
6.2.5SciPy與SymPy
6.3本章小結
高級篇
第7章更靈活和更多樣的爬蟲
7.1更靈活的爬蟲——以微信數(shù)據的抓取為例
7.1.1用Selenium抓取Web微信信息
7.1.2基于Python的微信API工具
7.2更多樣的爬蟲
7.2.1PyQuery
7.2.2在線爬蟲應用平臺
7.2.3使用urllib
7.3對爬蟲的部署和管理
7.3.1配置遠程主機
7.3.2編寫本地爬蟲
7.3.3部署爬蟲
7.3.4查看運行結果
7.3.5使用爬蟲管理框架
7.4本章小結
第8章瀏覽器模擬與網站測試
8.1關于測試
8.1.1什么是測試
8.1.2什么是TDD
8.2Python的單元測試
8.2.1使用unittest
8.2.2其他方法
8.3使用Python爬蟲測試網站
8.4使用Selenium測試
8.4.1Selenium測試常用的網站交互
8.4.2結合Selenium進行單元測試
8.5本章小結
第9章更強大的爬蟲
9.1爬蟲框架
9.1.1Scrapy是什么
9.1.2Scrapy的安裝與入門
9.1.3編寫Scrapy爬蟲
9.1.4其他爬蟲框架
9.2網站反爬蟲
9.2.1反爬蟲的策略
9.2.2偽裝headers
9.2.3使用代理
9.2.4訪問頻率
9.3多進程與分布式
9.3.1多進程編程與爬蟲抓取
9.3.2分布式爬蟲
9.4本章小結
實踐篇
第10章爬蟲實踐: 下載網頁中的小說和購物評論
10.1下載網絡小說
10.1.1分析網頁
10.1.2編寫爬蟲
10.1.3運行并查看TXT文件
10.2下載購物評論
10.2.1查看網絡數(shù)據
10.2.2編寫爬蟲
10.2.3數(shù)據下載結果與爬蟲分析
10.3本章小結
第11章爬蟲實踐: 保存感興趣的圖片
11.1豆瓣網站分析與爬蟲設計
11.1.1從需求出發(fā)
11.1.2處理登錄問題
11.2編寫爬蟲程序
11.2.1爬蟲腳本
11.2.2程序分析
11.3運行并查看結果
11.4本章小結
第12章爬蟲實踐: 網上影評分析
12.1需求分析與爬蟲設計
12.1.1網頁分析
12.1.2函數(shù)設計
12.2編寫爬蟲
12.2.1編寫程序
12.2.2可能的改進
12.3本章小結
第13章爬蟲實踐: 使用爬蟲下載網頁
13.1設計抓取程序
13.2運行程序
13.3展示網頁
第14章爬蟲實踐: 使用爬蟲框架
14.1Gain框架
14.2使用Gain做簡單抓取
14.3PySpider框架
14.4使用PySpider進行抓取
附錄A
A.1Python中的一些重要概念
A.1.1*args與**kwargs的使用
A.1.2global關鍵詞
A.1.3enumerate枚舉
A.1.4迭代器與生成器
A.2Python中的常用模塊
A.2.1collections
A.2.2arrow
A.2.3timeit
A.2.4pickle
A.2.5os
A.2.6sys
A.2.7itertools
A.2.8functools
A.2.9threading、queue與multiprocessing
A.3requests庫
A.3.1requests基礎
A.3.2更多用法
A.4正則表達式
A.4.1什么是正則表達式
A.4.2正則表達式的基礎語法
參考文獻