一、Pycharm安装,这个都熟悉:


二、pycharm创建项目后,在Terminal中输入如下命令:

1、创建一个名为 scrapy_book 的模块:scrapystartproject scrapy_book   


2、创建好模块后,进入spiders目录下创建爬虫,输入:scrapy genspiderspiders001 www.test.com   

spiders001 为爬虫名称

www. test.com 为爬取开始的一级域名

     目录结构如下:



三、由于scrapy默认不能在IDE中运行,所以使用如下运行方式:

1、新建一个start.py文件与scrapy.cfg同级,其内容如下:

from scrapy.cmdline import execute

execute([
'scrapy', 'crawl', 'spiders001'])

execute里的前两个字符串不变,最后一个是取的爬虫名,然后直接运行start.py文件即可。

2、另一种方法就是直接在Terminal中输入scrapycrawl spiders001回车即可;