一、Pycharm安装,这个都熟悉:
二、pycharm创建项目后,在Terminal中输入如下命令:
1、创建一个名为 scrapy_book 的模块:scrapystartproject scrapy_book
2、创建好模块后,进入spiders目录下创建爬虫,输入:scrapy genspiderspiders001 www.test.com
spiders001 为爬虫名称
www. test.com 为爬取开始的一级域名
目录结构如下:
三、由于scrapy默认不能在IDE中运行,所以使用如下运行方式:
1、新建一个start.py文件与scrapy.cfg同级,其内容如下:
from scrapy.cmdline import execute
execute(['scrapy', 'crawl', 'spiders001'])
execute里的前两个字符串不变,最后一个是取的爬虫名,然后直接运行start.py文件即可。
2、另一种方法就是直接在Terminal中输入scrapycrawl spiders001回车即可;