一、Cookies池详解
1、为什么要维护cookie池
有的网站需要登录后才能爬取,如新浪微博
爬取过程中如果频率过高会导致封号,那么如果想要获得非常多的数据,则需要非常多的账号
2、cookie池的要求
- 自动登录更新
- 定时验证筛选
- 提供外部接口(可将池架在远程的服务器上,实现远程部署
3、cookie池的架构
账号队列 ===》 生成器 ===》 cookies队列(对外提供API) ===》 定时检测器
4、cookie池的实现
需要先将一定量的账号密码之类的cookie存进Redis数据库,然后利用python调用并维护。
关于cookies池的维护,有以下开源项目案例可供参考:https://github.com/Germey/CookiesPool
持续更新…
最后更新: 2018年08月15日 20:27
原始链接: http://pythonfood.github.io/2018/07/03/使用Redis-Flask维护动态Cookies池/