Python之Scrapy爬虫框架安装及简单使用
- 作者: 五速梦信息网
- 时间: 2026年04月04日 13:30
题记:早已听闻python爬虫框架的大名。近些天学习了下其中的Scrapy爬虫框架,将自己理解的跟大家分享。有表述不当之处,望大神们斧正。
一、初窥Scrapy
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
其最初是为了 页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
本文档将通过介绍Scrapy背后的概念使您对其工作原理有所了解, 并确定Scrapy是否是您所需要的。
当您准备好开始您的项目后,您可以参考 入门教程 。
二、Scrapy安装介绍
Scrapy框架运行平台及相关辅助工具
您可以使用pip来安装Scrapy(推荐使用pip来安装Python package).
pip install Scrapy
Windows下安装流程:
PATHPATH
C:\Python27\;C:\Python27\Scripts\;
除此之外,还可以用cmd命令来设置Path:
c:\python27\python.exe c:\python27\tools\scripts\win_add2path.py
安装配置完成之后,可以执行命令python --version查看安装的python版本。(如图所示)

请确认下载符合您系统的版本(win32或者amd64)
pip
pip --version
pip
pip install Scrapy
至此windows下Scrapy安装已经结束。
三、Scrapy入门教程
1、在cmd中创建Scrapy项目工程。
scrapy startproject tutorial
2、文件目录结构如下:
。
解析scrapy框架结构:
scrapy.cfgtutorial/tutorial/items.pytutorial/pipelines.pytutorial/settings.pytutorial/spiders/
3、编写简单的爬虫
1、在item.py中配置需采集页面的字段实例。
2、在tutorial/spiders/spider.py中书写要采集的网站以及分别采集各字段。
3、在tutorial/pipelines.py管道中保存数据。
4、tutorial/settings.py中配置执行环境。
5、新建main文件执行爬虫代码。
最终,执行main.py后在data.json文件中获取到采集结果的json数据。

- 上一篇: python之类介绍
- 下一篇: python之pil图像库操作
相关文章
-
python之类介绍
python之类介绍
- 互联网
- 2026年04月04日
-
Python之路3【知识点】白话Python编码和文件操作
Python之路3【知识点】白话Python编码和文件操作
- 互联网
- 2026年04月04日
-
python之路56 dajngo最后一天 csrf跨站请求 auth模块登录注册方法
python之路56 dajngo最后一天 csrf跨站请求 auth模块登录注册方法
- 互联网
- 2026年04月04日
-
python之pil图像库操作
python之pil图像库操作
- 互联网
- 2026年04月04日
-
Python之Numpy库常用函数大全(含注释)(转)
Python之Numpy库常用函数大全(含注释)(转)
- 互联网
- 2026年04月04日
-
Python之mysql数据库更新表数据接口实现
Python之mysql数据库更新表数据接口实现
- 互联网
- 2026年04月04日





