Requests小技巧和scrapy说明
Requests小技巧
requests.utils.dict_from_cookiejar把cookie对象转化为字典- 请求SSL证书验证
requests.get("<https://www.12306.cn/mormhweb/>", verify=False) - 配合状态码判断是否请求成功
assert response.status_code ==200
Scrapy
爬虫库 python3.6以上
1 | asn1crypto==0.24.0 |
常用命令
- 全局命令^1
- fetch: 用来显示爬虫爬取过程
- runspider: 可以实现不依托scrapy的爬虫项目,直接运行一个爬虫文件。
- settings:
- shell:
- startproject:
- version:
- view:可以下载某个网页并用浏览器查看。
- 项目命令
- bench: 可以测试本地硬件的性能; 运行scrapy bench 时,会创建一个本地服务器并以最大速度爬行
- check: 爬虫测试比较麻烦,所以在scrapy中使用合同(contract)的方式对爬虫进行测试。
scrapy check [爬虫名] - crawl
- edit: Linux中可以直接打开编辑器编辑爬虫文件
- genspider: 有多个模板可供选择 参数 -t crawl
- list: 列出当前可以使用的爬虫文件
- parse: 获取指定的网址,使用对应的爬虫文件处理和分析
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 天涯海阁!
评论








