新建一个Scrapy工程
- 作者: 五速梦信息网
- 时间: 2026年03月19日 18:00
新建一个Scrapy工程
进入你的目标目录,输入以下指令,创建项目intern。
$ scrapy startproject intern
目录结构如下:
.
├── scrapy.cfg
└── intern
├── init.py
├── items.py
├── pipelines.py
├── settings.py
└── spiders
└── __init__.py
这个目录结构要熟记于心。
- scrapy.cfg: 全局配置文件
- intern/: 项目python模块
- intern/items.py: 项目items文件,定义爬取的数据保存结构
- intern/pipelines.py: 项目管道文件,对爬取来的数据进行清洗、筛选、保存等操作
- intern/settings.py: 项目配置文件
- intern/spiders: 放置spider的目录
定义item的字段如下:
import scrapy
class InternItem(scrapy.Item):
title = scrapy.Field()
href = scrapy.Field()
author = scrapy.Field()
time = scrapy.Field()
content = scrapy.Field()
is_dev = scrapy.Field()
is_alg = scrapy.Field()
is_fin = scrapy.Field()
base_url_index = scrapy.Field()
定义的方法很简单,每个字段都=scrapy.Field()即可。 使用:比如要使用某item的title,就像python中的dict一样,item[‘title’]即可。
3.3 编写爬虫。好了终于到了编写爬虫了。以爬取水木社区的爬虫为例。在spiders目录下,创建smSpider.py。
相关文章
-
简述python setup.py install的过程
简述python setup.py install的过程
- 技术栈
- 2026年03月19日
-
pip3 常见用法总结
pip3 常见用法总结
- 技术栈
- 2026年03月19日
-
搭建你的专属短网址生成系统
搭建你的专属短网址生成系统
- 技术栈
- 2026年03月19日
-
用Python爬取实习信息(Scrapy初体验)
用Python爬取实习信息(Scrapy初体验)
- 技术栈
- 2026年03月19日
-
php过滤表单提交的危险代码
php过滤表单提交的危险代码
- 技术栈
- 2026年03月19日
-
搜索引擎蜘蛛爬虫名称最新整理总汇
搜索引擎蜘蛛爬虫名称最新整理总汇
- 技术栈
- 2026年03月19日
