一、命令行详解
1、Scrapy官方文档
https://doc.scrapy.org/en/latest/
2、命令行详解
scrapy startproject testproject
# 新建项目
cd testproject
scrapy genspider baidu www.baidu.com
# 生成spider
cd testproject
cd spiders
scrapy genspider -l
# 列出所有的模板
scrapy genspider -t crawl zhihu www.zhihu.com
# 指定crwal模板,生成spider
scrapy crawl zhihu
# 运行爬虫
scrapy crawl baidu
scrapy check
# 检查代码错误
scrapy list
# 列出项目所有的spider
scrapy edit zhihu
# 在命令行下编辑spider
cd ../../../
scrapy fetch http://www.baidu.com
# download一个网页,返回网页源代码
scrapy fetch --nolog http://www.baidu.com
# 返回网页源代码时,不会显示日志信息
scrapy fetch --headers http://www.baidu.com
# 返回网页源代码时,返回headers信息
scrapy fetch --no-redirect http://www.baidu.com
# 请求网页时,不能重定向
scrapy view http://www.baidu.com
# 请求网页,生成document下载下来,并用浏览器自动打开
scrapy view http://www.taobao.com
# 会发现淘宝的网页很多内容不显示,因为都是用ajax加载的
scrapy shell https://www.baidu.com
# 进入命令行交互模式
request
# 交互模式下进行操作reponse.text
# 交互模式下进行操作reponse.headers
# 交互模式下进行操作response.css('title::text').extract_first()
# 交互模式下进行操作view(response)
# 交互模式下进行操作exit()
# 退出交互模式
cd D:\PycharmProjects\quotetutroial
scrapy parse http://quotes.toscrape.com --callback parse
# parse方法,传入url,指定参数,看下解析结果
scrapy settings --get MONGO_URI
# settings方法,获取一些配置信息
scrapy settings -h
# 获取一些帮助信息
scrapy settings --getbool=ROBOTSTXT_OBEY
# 验证下是否遵循ROBOTSTXT_OBEY这个规则
scrapy runspider quotes.py
# 运行spider,注意文件名带.py
scrapy version
# 输出scrapy版本
scrapy version -v
# 输出一些依赖库的版本
scrapy bench
# 测试下当前的爬行速度
持续更新…
最后更新: 2018年08月16日 10:58