更新时间:2020-10-13 17:54:03
封面
版权页
内容提要
前言
第1章 网络爬虫概述
1.1 认识网络爬虫
1.1.1 网络爬虫的含义
1.1.2 网络爬虫的主要类型
1.1.3 简单网络爬虫的架构
1.1.4 网络爬虫的应用场景
1.2 Python网络爬虫技术概况
1.2.1 Python中实现HTTP请求
1.2.2 Python中实现网页解析
1.2.3 Python爬虫框架
1.3 搭建开发环境
1.3.1 代码运行环境
1.3.2 开发编辑器
1.4 本章小结及要求
第2章 爬虫基础
2.1 认识HTTP请求
2.1.1 HTTP请求的含义
2.1.2 HTTP请求信息
2.2 爬虫基础——Requests库入门
2.2.1 Requests库的安装
2.2.2 Requests库的请求方法
2.2.3 Requests库的响应对象
2.2.4 响应状态码
2.2.5 定制请求头部
2.2.6 重定向与超时
2.2.7 传递URL参数
2.3 爬虫基础——Urllib库基础
2.3.1 Urllib库简介
2.3.2 发送GET请求
2.3.3 模拟浏览器发送GET请求
2.3.4 POST发送一个请求
2.3.5 URL解析
2.4 本章小结及要求
第3章 网页解析基础
3.1 网页解析概述
3.1.1 常用网页解析工具
3.1.2 HTML源码简介
3.2 XPath语法基础
3.2.1 Lxml库的安装
3.2.2 XPath语法基础——通过路径查找元素
3.2.3 通过属性查找元素
3.2.4 提取属性值
3.2.5 XPath的高级用法
3.3 抓取百度首页实例
3.4 Beautiful Soup库和正则表达式
3.4.1 Beautiful Soup简介
3.4.2 Beautiful Soup基本用法
3.4.3 Beautiful Soup标准选择器
3.4.4 正则表达式
3.5 本章小结及要求
第4章 基础爬虫实例
4.1 Q房网爬虫实例
4.1.1 网站页面分析
4.1.2 编写Q房网二手房房源爬虫代码
4.1.3 保存爬取到的信息
4.2 多层页面的爬取
4.2.1 爬取详情页面分析
4.2.2 编写爬取详情页面的代码
4.3 下载房源图片和实现多线程爬虫
4.3.1 下载房源图片
4.3.2 实现简单多线程爬虫
4.4 本章小结及要求
第5章 Requests模拟登录
5.1 使用Cookies登录网站
5.1.1 网站的保持登录机制
5.1.2 登录豆瓣网站
5.2 模拟登录网站
5.2.1 豆瓣网站的登录分析
5.2.2 Requests会话对象
5.2.3 编写Requests登录豆瓣网站的代码
5.3 验证码的处理
5.3.1 带验证码的网站登录分析
5.3.2 验证码的识别和处理
5.3.3 编写带验证码的豆瓣网站登录代码
5.4 本章小结及要求
第6章 认识和应对反爬虫
6.1 常用的网站反爬虫策略及应对措施
6.1.1 常用的网站反爬虫策略
6.1.2 应对网站反爬虫的措施
6.2 使用IP代理的方法
6.2.1 Requests中使用代理IP
6.2.2 获取免费代理IP
6.3 使用IP代理爬取微信文章
6.3.1 分析微信文章的搜索页面及其URL的构造特点
6.3.2 编写爬虫代码
6.4 本章小结及要求
第7章 动态网页的抓取
7.1 动态网页及其爬取方法
7.1.1 动态网页的含义
7.1.2 动态网页的爬取办法
7.2 动态网页的爬取技巧
7.2.1 链家经纪人页面分析
7.2.2 链家经纪人爬虫实现
7.3 Selenium库的安装与使用
7.3.1 Selenium库的安装
7.3.2 chromedriver的安装和使用