![Python数据预处理技术与实践](https://wfqqreader-1252317822.image.myqcloud.com/cover/321/27563321/b_27563321.jpg)
上QQ阅读APP看书,第一时间看更新
3.7 本章小结
本章介绍了结构化、半结构化和非结构化数据及其数据的采集策略。面对非结构化网页信息,带领读者实现了页面分析和数据爬取,并把抓取的数据进行本地化存储。由于网络爬虫技术内容较多,本书篇幅有限,只是管中窥豹地介绍了网络爬虫技术与方法。下一章介绍文本信息抽取,即对采集的数据(包括DOC、PDF、HTML、Excel等)抽取文本信息。
本章介绍了结构化、半结构化和非结构化数据及其数据的采集策略。面对非结构化网页信息,带领读者实现了页面分析和数据爬取,并把抓取的数据进行本地化存储。由于网络爬虫技术内容较多,本书篇幅有限,只是管中窥豹地介绍了网络爬虫技术与方法。下一章介绍文本信息抽取,即对采集的数据(包括DOC、PDF、HTML、Excel等)抽取文本信息。