从本章开始,我们开始学习 Python 网页爬虫的相关知识。我们使用 Python 自带的 urllib 模块抓取糗事百科网站的搞笑段子,并使用正则表达式提取出来我们想要的内容。本章的知识涉及到从爬取网站内容到解析网站内容,含有网络爬虫技术的各个方面,学完本章后,完全可以胜任大多数网络爬虫项目。
本章不但介绍网络爬虫库,以及正则表达式方面的知识,还介绍在编写爬虫项目中的各个细节方面的知识点,以及 HTTP 协议。学完本章后,你会对爬虫方面的细节得信应收,对爬虫项目开发有更清晰的认识。
如果以上内容对您有帮助,请老板用微信扫一下赞赏码,赞赏后加微信号 birdpython 领取免费视频。