崔庆才老师爬虫的学习笔记。

一、命令行详解

1、Scrapy官方文档

https://doc.scrapy.org/en/latest/

2、命令行详解

scrapy startproject testproject # 新建项目

cd testproject

scrapy genspider baidu www.baidu.com # 生成spider

cd testproject

cd spiders

scrapy genspider -l # 列出所有的模板

scrapy genspider -t crawl zhihu www.zhihu.com # 指定crwal模板,生成spider

scrapy crawl zhihu # 运行爬虫

scrapy crawl baidu

scrapy check # 检查代码错误

scrapy list # 列出项目所有的spider

scrapy edit zhihu # 在命令行下编辑spider

cd ../../../

scrapy fetch http://www.baidu.com # download一个网页,返回网页源代码

scrapy fetch --nolog http://www.baidu.com # 返回网页源代码时,不会显示日志信息

scrapy fetch --headers http://www.baidu.com # 返回网页源代码时,返回headers信息

scrapy fetch --no-redirect http://www.baidu.com # 请求网页时,不能重定向

scrapy view http://www.baidu.com # 请求网页,生成document下载下来,并用浏览器自动打开

scrapy view http://www.taobao.com # 会发现淘宝的网页很多内容不显示,因为都是用ajax加载的

scrapy shell https://www.baidu.com # 进入命令行交互模式

  • request # 交互模式下进行操作

  • reponse.text # 交互模式下进行操作

  • reponse.headers # 交互模式下进行操作

  • response.css('title::text').extract_first() # 交互模式下进行操作

  • view(response) # 交互模式下进行操作

  • exit() # 退出交互模式

cd D:\PycharmProjects\quotetutroial

scrapy parse http://quotes.toscrape.com --callback parse # parse方法,传入url,指定参数,看下解析结果

scrapy settings --get MONGO_URI # settings方法,获取一些配置信息

scrapy settings -h # 获取一些帮助信息

scrapy settings --getbool=ROBOTSTXT_OBEY # 验证下是否遵循ROBOTSTXT_OBEY这个规则

scrapy runspider quotes.py # 运行spider,注意文件名带.py

scrapy version # 输出scrapy版本

scrapy version -v # 输出一些依赖库的版本

scrapy bench # 测试下当前的爬行速度

持续更新…

最后更新: 2018年08月16日 10:58

原始链接: http://pythonfood.github.io/2018/07/05/Scrapy命令行详解/

× 多少都行~
打赏二维码