崔庆才老师爬虫的学习笔记。

一、命令行详解

scrapy startproject testproject # 新建项目

cd testproject

scrapy genspider baidu www.baidu.com # 生成spider

cd testproject

cd spiders

scrapy genspider -l # 列出所有的模板

scrapy genspider -t crawl zhihu www.zhihu.com # 指定crwal模板，生成spider

scrapy crawl zhihu # 运行爬虫

scrapy crawl baidu

scrapy check # 检查代码错误

scrapy list # 列出项目所有的spider

scrapy edit zhihu # 在命令行下编辑spider

cd ../../../

scrapy fetch http://www.baidu.com # download一个网页，返回网页源代码

scrapy fetch --nolog http://www.baidu.com # 返回网页源代码时，不会显示日志信息

scrapy fetch --headers http://www.baidu.com # 返回网页源代码时，返回headers信息

scrapy fetch --no-redirect http://www.baidu.com # 请求网页时，不能重定向

scrapy view http://www.baidu.com # 请求网页，生成document下载下来，并用浏览器自动打开

scrapy view http://www.taobao.com # 会发现淘宝的网页很多内容不显示，因为都是用ajax加载的

scrapy shell https://www.baidu.com # 进入命令行交互模式

cd D:\PycharmProjects\quotetutroial

scrapy parse http://quotes.toscrape.com --callback parse # parse方法，传入url，指定参数，看下解析结果

scrapy settings --get MONGO_URI # settings方法，获取一些配置信息

scrapy settings -h # 获取一些帮助信息

scrapy settings --getbool=ROBOTSTXT_OBEY # 验证下是否遵循ROBOTSTXT_OBEY这个规则

scrapy runspider quotes.py # 运行spider，注意文件名带.py

scrapy version # 输出scrapy版本

scrapy version -v # 输出一些依赖库的版本

scrapy bench # 测试下当前的爬行速度

持续更新…

最后更新： 2018年08月16日 10:58

赏