一、命令行详解
1、Scrapy官方文档
https://doc.scrapy.org/en/latest/
2、命令行详解
scrapy startproject testproject # 新建项目
cd testproject
scrapy genspider baidu www.baidu.com # 生成spider
cd testproject
cd spiders
scrapy genspider -l # 列出所有的模板
scrapy genspider -t crawl zhihu www.zhihu.com # 指定crwal模板,生成spider
scrapy crawl zhihu # 运行爬虫
scrapy crawl baidu
scrapy check # 检查代码错误
scrapy list # 列出项目所有的spider
scrapy edit zhihu # 在命令行下编辑spider
cd ../../../
scrapy fetch http://www.baidu.com # download一个网页,返回网页源代码
scrapy fetch --nolog http://www.baidu.com # 返回网页源代码时,不会显示日志信息
scrapy fetch --headers http://www.baidu.com # 返回网页源代码时,返回headers信息
scrapy fetch --no-redirect http://www.baidu.com # 请求网页时,不能重定向
scrapy view http://www.baidu.com # 请求网页,生成document下载下来,并用浏览器自动打开
scrapy view http://www.taobao.com # 会发现淘宝的网页很多内容不显示,因为都是用ajax加载的
scrapy shell https://www.baidu.com # 进入命令行交互模式
request# 交互模式下进行操作reponse.text# 交互模式下进行操作reponse.headers# 交互模式下进行操作response.css('title::text').extract_first()# 交互模式下进行操作view(response)# 交互模式下进行操作exit()# 退出交互模式
cd D:\PycharmProjects\quotetutroial
scrapy parse http://quotes.toscrape.com --callback parse # parse方法,传入url,指定参数,看下解析结果
scrapy settings --get MONGO_URI # settings方法,获取一些配置信息
scrapy settings -h # 获取一些帮助信息
scrapy settings --getbool=ROBOTSTXT_OBEY # 验证下是否遵循ROBOTSTXT_OBEY这个规则
scrapy runspider quotes.py # 运行spider,注意文件名带.py
scrapy version # 输出scrapy版本
scrapy version -v # 输出一些依赖库的版本
scrapy bench # 测试下当前的爬行速度
持续更新…
最后更新: 2018年08月16日 10:58