首页 - 技术栈

新建一个Scrapy工程

作者: 五速梦信息网
时间: 2026年06月17日 18:04

新建一个Scrapy工程

进入你的目标目录，输入以下指令，创建项目intern。

$ scrapy startproject intern

目录结构如下：

. ├── scrapy.cfg └── intern ├── init.py ├── items.py ├── pipelines.py ├── settings.py └── spiders └── __init__.py

这个目录结构要熟记于心。

scrapy.cfg: 全局配置文件
intern/: 项目python模块
intern/items.py: 项目items文件，定义爬取的数据保存结构
intern/pipelines.py: 项目管道文件，对爬取来的数据进行清洗、筛选、保存等操作
intern/settings.py: 项目配置文件
intern/spiders: 放置spider的目录

3.2 编写items.py文件。

定义item的字段如下：

import scrapy
class InternItem(scrapy.Item):
  title = scrapy.Field()
  href = scrapy.Field()
  author = scrapy.Field()
  time = scrapy.Field()
  content = scrapy.Field()
  is_dev = scrapy.Field()
  is_alg = scrapy.Field()
  is_fin = scrapy.Field()
  base_url_index = scrapy.Field()

定义的方法很简单，每个字段都=scrapy.Field()即可。使用：比如要使用某item的title，就像python中的dict一样，item[‘title’]即可。

3.3 编写爬虫。

好了终于到了编写爬虫了。以爬取水木社区的爬虫为例。在spiders目录下，创建smSpider.py。