首页 - 互联网

Python之Scrapy爬虫框架安装及简单使用

作者: 五速梦信息网
时间: 2026年06月03日 13:34

题记：早已听闻python爬虫框架的大名。近些天学习了下其中的Scrapy爬虫框架，将自己理解的跟大家分享。有表述不当之处，望大神们斧正。

一、初窥Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

本文档将通过介绍Scrapy背后的概念使您对其工作原理有所了解，并确定Scrapy是否是您所需要的。

当您准备好开始您的项目后，您可以参考入门教程。

二、Scrapy安装介绍

Scrapy框架运行平台及相关辅助工具

您可以使用pip来安装Scrapy(推荐使用pip来安装Python package).

pip install Scrapy

Windows下安装流程：

PATHPATH

C:\Python27\;C:\Python27\Scripts\;

除此之外，还可以用cmd命令来设置Path：

c:\python27\python.exe c:\python27\tools\scripts\win_add2path.py

安装配置完成之后，可以执行命令python --version查看安装的python版本。（如图所示）

请确认下载符合您系统的版本(win32或者amd64)

pip

pip --version

pip

pip install Scrapy

至此windows下Scrapy安装已经结束。

三、Scrapy入门教程

1、在cmd中创建Scrapy项目工程。

scrapy startproject tutorial

2、文件目录结构如下：。

解析scrapy框架结构：

scrapy.cfgtutorial/tutorial/items.pytutorial/pipelines.pytutorial/settings.pytutorial/spiders/

3、编写简单的爬虫

1、在item.py中配置需采集页面的字段实例。

2、在tutorial/spiders/spider.py中书写要采集的网站以及分别采集各字段。

3、在tutorial/pipelines.py管道中保存数据。

4、tutorial/settings.py中配置执行环境。

5、新建main文件执行爬虫代码。

最终，执行main.py后在data.json文件中获取到采集结果的json数据。

Python之Scrapy爬虫框架安装及简单使用

相关文章

python之类介绍

Python之路3【知识点】白话Python编码和文件操作

python之路56 dajngo最后一天 csrf跨站请求 auth模块登录注册方法

python之pil图像库操作

Python之Numpy库常用函数大全（含注释）(转)

Python之mysql数据库更新表数据接口实现

（八）Struts2中的参数封装

.net 调用R语言的函数（计算统计值pvalue 对应excel ：ttest）

（翻译）FIFO In Hardware

.net 微信公众号

（几乎）完美实现 el

.net6创建AppDomain

测试文章2

测试文章1