崔庆才老师爬虫的学习笔记。

一、Cookies池详解

1、为什么要维护cookie池

有的网站需要登录后才能爬取,如新浪微博

爬取过程中如果频率过高会导致封号,那么如果想要获得非常多的数据,则需要非常多的账号

2、cookie池的要求

  • 自动登录更新
  • 定时验证筛选
  • 提供外部接口(可将池架在远程的服务器上,实现远程部署

3、cookie池的架构

账号队列 ===》 生成器 ===》 cookies队列(对外提供API) ===》 定时检测器

4、cookie池的实现

需要先将一定量的账号密码之类的cookie存进Redis数据库,然后利用python调用并维护。

关于cookies池的维护,有以下开源项目案例可供参考:https://github.com/Germey/CookiesPool

持续更新…

× 多少都行~
打赏二维码