python 把数据写到tet_Crawlab准备之python+scrapy环境搭建

2023-11-19

上篇《分布式爬虫管理平台Crawlab开发搭建》把爬虫的管理后台搭建起来了；捣鼓一番发现要真正爬取数据还有下不少的功夫。这篇看看怎么搭建python+scrapy环境。

0x01：安装Python3

下载python安装包，具体版本根据自己的系统要求https://www.python.org/downloads/windows/
下载安装完成后直接cmd输入python，可正常查看版本

注：安装过程中请注意一定要请勾选pip安装并加入到环境变量中，否则后续无法正常安装第三方类库。

0x02：安装爬虫所需的一些常用类库

安装 selenimu 自动化web包，cmd进入任意目录，执行

pip install selenium

安装 pymysql 连接mysql包，cmd进入任意目录，执行。方便以后把爬取的数据插入数据库pip install pymysql
安装 pillow 图片处理包pip install pillow

备注：pillow官网

https://pillow.readthedocs.io/en/latest/installation.html

安装 pypiwin32 操作底层dll包pip install pypiwin32
安装 requests 发送web请求包pip install requests
安装 scrapy 爬虫框架包pip install scrapy

备注：安装爬虫框架必须依赖的第三方类库Twisted，在使用pip安装时会出现下载文件失败而无法安装问题，可以先下载Twisted安装文件。然后使用pip install安装Twisted。

pip install 下载Twisted文件绝对路径

下载地址如下(下载与Python版本匹配的whl文件)：

https://www.lfd.uci.edu/~gohlke/pythonlibs/

安装解析网页内容包pip install bs4

0x03：验证scrapy 是否安装成功

进入cmd，输入 scrapy 查看scrapy是否安装成功

0x04：创建爬虫项目

创建项目，只需一行命令即可创建名为 tutorial 的Scrapy项目：

scrapy startproject tutorial

tutorial项目的目录结构大概如下：

创建爬虫的模板文件进入 ./tutorial/tutorial 执行：scrapy genspider QuoteSpider "http://www.baidu.com"

QuoteSpider是文件名，http://www.baidu.com是要爬取的域名， ./tutorial/tutorial/spiders 目录下生成一个QuoteSpider.py文件。文件内容如下：

修改一下QuoteSpider.py文件：

import scrapyclass QuotespiderSpider(scrapy.Spider):    name = 'QuoteSpider'    # 允许爬取的域名    # allowed_domains = ['landchina.mnr.gov.cn']    start_urls = ['http://landchina.mnr.gov.cn/scjy/tdzr/index_1.htm']    def parse(self, response): # resonse相当于从网络中返回内容所存储的或对应的对象        fname = response.url.split('/')[-1] # 定义文件名字，把response中的内容写到一个html文件中        with open(fname, 'wb') as f: # 从响应的url中提取文件名字作为保存为本地的文件名，然后将返回的内容保存为文件            f.write(response.body)                   self.log('Saved file %s.' % fname) # self.log是运行日志，不是必要的

这个代码很简单就是爬取一个页面，并保存到文件中。

执行tutorial爬虫项目，在cmd目录中执行

scrapy crawl QuoteSpider

执行日志如下

可以在 tutorial 目录下看的 index_1.htm 文件；该文件就是爬取到的内容。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python 把数据写到tet_Crawlab准备之python+scrapy环境搭建的相关文章

如何在Jenkins上更改工作空间并建立记录根目录？

我希望将 Jenkins 的数据写入驱动器 E 因为这是服务器上的大型驱动器 Jenkins 本身安装在 C 上我怎么做我看到的默认配置是工作区根目录 ITEM ROOTDIR 工作区构建记录根目录 ITEM ROOTDIR 构建
错误：模块“html”不提供视图引擎（Express）

我正在尝试设置一个简单的路由应用程序但在渲染页面时不断遇到错误 Error Module html does not provide a view engine 奇怪的是我已经在 app js 文件中指定了视图引擎但仍然收到错误 app
我如何用 javascript/jquery 进行两指拖动？

我正在尝试创建当有两个手指放在 div 上时拖动 div 的功能我已将 div 绑定到 touchstart 和 touchmove 事件我只是不确定如何编写这些函数就像是if event originalEvent targetTo
服务器响应 PASV 命令返回的地址与建立 FTP 连接的地址不同

System Net WebException 服务器响应 PASV 命令返回的地址与建立 FTP 连接的地址不同在 System Net FtpWebRequest CheckError 在 System Net FtpWebReque
Maven 构建错误 TOOLS.JAR NOT FOUND IN JRE

我在构建 Maven 项目时遇到这个问题请帮我解决 ERROR Failed to execute goal org apache maven plugins maven compiler plugin 2 5 1 compile def
Android 的代码覆盖率[重复]

这个问题在这里已经有答案了可能的重复 Android测试代码覆盖率 Eclipse https stackoverflow com questions 3282702 android test code coverage eclipse
Angular 2：使用正则表达式进行数字验证

我正在尝试验证 IE 11 中的数字字段
UWP 应用程序在与商店关联后崩溃

我正在为 Windows 创建一个 cordova 应用程序将应用程序与商店关联后应用程序起始页变为白色空白如果应用程序使用包标识名称 com something moretext 则该应用程序可以正常工作但我的商店包身份名称是 5
防止 Ada DLL 中的名称损坏

有没有一种简单的方法可以防止在创建 Ada DLL 时 Ada 名称被破坏这是我的 adb 代码 with Ada Text IO package body testDLL is procedure Print Call is begin
Swift 中的 quitFirstResponder

我怎样才能用Apple的新语言实现它 Objective C 代码 void touchesBegan NSSet touches withEvent UIEvent event for UIView view in self view s
Maven2继承

如果我有一个父 pom 并且想将其继承到多个项目我通常通过添加到项目顶部来做到这一点
纯旧 PHP 对象 (POPO) 一词的确切含义是什么？

我想了解一下波波我搜索了 popo 发现它代表 Plain Old Php Object 但我不确定 Plain Old Php Object 的确切含义我想知道什么是 popo 以及在哪里使用它谢谢普通旧在此处插入语言对象是一
如何用LoaderManager自动重新查询

我有一个应用程序显示来自 SQLite DB 的数据并且数据不断变化所以显然我认为我应该使用 LoaderManager 来显示数据我读过一些关于将 LoaderManager 与 SQLite 结合使用的内容然后看到了亚历克斯
用 Beautiful Soup 进行抓取：为什么 get_text 方法不返回该元素的文本？

最近我一直在用 python 开发一个项目其中涉及抓取一些网站的一些代理我遇到的问题是当我尝试抓取某个知名代理站点时当我要求 Beautiful Soup 查找 IP 在代理表中的位置时它并没有按照我的预期执行操作我将尝试查找每
使用并非为 IOC 设计的遗留应用程序避免服务定位器反模式

我经常读到IOC 中的服务定位器是一种反模式 http blog ploeh dk 2010 02 03 ServiceLocatorIsAnAntiPattern aspx 去年我们在工作中的应用程序中引入了 IOC 具体来说是 Nin
JavaScript 中“键”的类型是什么？

当我失去焦点并开始思考一个愚蠢的问题时我遇到了这样的时刻 var a b value b 的类型是什么我的意思不是值的类型而是标记为 b 的实际键背景当我必须创建一个字符串键时我开始想知道这一点 var a b value
从 Teradata sql Assistant 将结果导出到 Excel 工作表

我想通过在 Teradata SQL Assistant 中运行查询将结果导出到 Excel 工作表中我使用了复制粘贴但没有用提前致谢如果您将答案返回到 SQL Assistant 您应该能够从文件菜单中选择保存答案集然后
RavenDB：为什么我会在此多重映射/归约索引中获得字段空值？

受到 Ayende 文章的启发https ayende com blog 89089 ravendb multi maps reduce indexes https ayende com blog 89089 ravendb multi m
尝试了解天蓝色云服务中的负载平衡

我正在维护一个天蓝色的云服务它有 1 个 Web 角色和几个辅助角色该网络角色有多个实例当我从资源中打开云服务时我可以看到服务端点和公共IP地址我想了解这个蔚蓝云服务中的流量负载是如何平衡的我搜索了负载均衡器但在订阅中找不到它
GAE 无法部署到 App Engine

我正在尝试从 Eclipse 发布 Web 应用程序我在 GAE 上创建了四个项目可以通过登录我的帐户并查看控制台来查看它们我已经改变了appengine web xml到项目的应用程序 ID 如果我将其更改为 GAE 上第一个创建的

随机推荐

Qt 信号和槽的小问题（新手向）

Qt项目报错 static assertion failed Signal and slot arguments are not compatible 信号和槽的参数不对应例槽函数 void A give QString a qDebu
内存数据库-3-[redis]的架构原理和部署模式

参考redis三种模式对比 Redis 是一个开源的 key value 存储系统由于出众的性能大部分互联网企业都用来做服务器端缓存 1 单实例模式问题 1 内存容量有限 2 处理能力有限 3 无法高可用 Redis 在3 0版本前只
我的股票项目环境配置过程记录（含python打包方法linux windows）

股票项目从源码配置环境 V1 0 Windows 如果只是跑只需要这两个 pip3 install PyQt5 i https pypi douban com simple pip install U matplotlib pip inst
直流-直流（DC-DC）变换电路

直流直流 DC DC 变换电路可以将一种直流电源经过变换电路后输出另一种具有不同输出特性的直流电源可以是一种固定电压或可调电压的直流电按照电路拓扑结构的不同 DC DC变换电路可以分成两种形式不带隔离变压器的DC DC变换电路和带
Tomcat7安装及配置教程

Apache Tomcat7 0安装及配置教程 Apache Tomcat7 0官方网站链接 http tomcat apache org apache tomcat 7 0 73 windows x64 先解压下载的压缩包然后在bin目
使用express封装一个简单的http代理服务器以及手动设置Access-Control-Allow-Origin解决跨域问题

一跨域是什么先来了解一下什么是跨域才能知道如何解决跨域问题跨域出于浏览器的同源策略限制使浏览器不能执行其他网站的脚本同源策略是浏览器对 javascript 施加的安全限制所谓同源就是指在同一个域内就是两个地址具有相同的协
自学Java的知识盲点（面向对象编程）

目录 1 类和对象 1 1对象属性行为 1 1 1属性成员变量 1 2类和对象的内存分配机制 1 3构造方法 1 3 1this关键字 1 4访问修饰符 2 封装 2 1定义 3 继承 ctrl h可以看继承关系 3 1基本介绍本质
VS2019配置QT及打开项目报错处理

放在一起是因为配置的拖了比较久于是就放一起以后要是遇到了能够处理也希望对遇到同样问题的能有所参考对于下载安装qt的教程就不写了因为已经好些优秀的文章了这里把一位博主的地址放一下可以看看qt下载里面分享了下载的国内镜像地址
STM32CubeMAX：H库函数整理笔记

GPIO HAL GPIO TogglePin GPIO TypeDef GPIOx uint16 t GPIO Pin 功能用于切换指定的GPIO引脚 HAL GPIO EXTI Callback uint16 t GPIO Pin 功
Windows应急响应-入侵排查

Windows应急响应入侵排查 1检测系统账户安全查看服务器有没有可疑账户新增账户 Win R lusrmgr msc 看有没有新增加用户查看服务器有没有隐藏用户克隆账户第一步 Win R打开运行窗口输入regedit打开注册表编
cehp 维护（二）常见告警维护

零修订记录序号修订时间修订内容 1 2021 11 18 新增一摘要笨猪主要介绍ceph常见告警及维护方法或过程中遇到的问题二环境信息 2 1 ceph版本 cephadmin proceph01 ceph v ceph
为什么不发展三进制计算机,三进制计算机

三进制计算机是以三进法数字系统为基础而发展的计算机三进制逻辑相比较现今的计算机使用二进制数字系统更接近人类大脑的思维方式二进制计算规则非常简单但并不能完全表达人类想法在一般情况下命题不一定为真或假还可能为未知在三进制逻辑学中
折半查找算法 ,又称二分查找。(C语言)

分析此题目的是找到k 7的数 k的值可随便更改如果数组中没有k对应的值则找不到这个数字并且输出查找次数代码 include
Django 项目部署

Django 项目部署 1 概述将开发完成的 Django 项目部署到指定的服务器上而服务器的系统基本都是 linux Django 项目当前最主要的部署方式是 Python Django Nginx uWSGI python 是 py
一键换衣，任何图片局部一键AI修改，超强“魔法棒”！

今天分享一个咱们的AI绘画工具的一个强大功能它能够针对图片的任意局部进行一键AI修改炒鸡强大下面是花了几分钟修改的一张图片原图修改后看出区别没有头发颜色裤子项链背景画面都发生了改变下面就来揭秘咱是怎么操作的首先打开软
Ceph 4 slow ops, oldest one blocked for 638 sec, mon.cephnode01 has slow ops

因为实验用的是虚拟机的关系晚上一般会挂起第二天早上都能看到 4 slow ops oldest one blocked for 638 sec mon cephnode01 has slow ops的报错虽然不影响使用但看着有点难受
【100%通过率】【华为OD机试c++\python】组合出合法最小数【2023 Q1 A卷

华为OD机试题目列表 2023Q1 点这里 2023华为OD机试刷题指南点这里题目描述给一个数组数组里面都是代表非负整数的字符串将数组里所有的数值排列组合拼接起来组成一个数字输出拼接成的最小的数字输入描述一个数组数组不
oracle函数与触发器

1 无参函数 CREATE OR REPLACE FUNCTION func1 RETURN VARCHAR2 IS BEGIN RETURN 欢迎你 USER 现在是 to char SYSDATE yyyy mm dd END func
笔记总结备份

目录文章目录目录前言版本控制常用git 命令操作系统系统机器数时间管理早期的 Linux 时间系统中断内存管理内存分区 malloc申请一块内存的背后原理 RTOS 系统栈和协议栈寄存器磁盘调度算法虚拟内存
python 把数据写到tet_Crawlab准备之python+scrapy环境搭建

上篇分布式爬虫管理平台Crawlab开发搭建把爬虫的管理后台搭建起来了捣鼓一番发现要真正爬取数据还有下不少的功夫这篇看看怎么搭建python scrapy环境 0x01 安装Python3 下载python安装包具体版本根据自己的

python 把数据写到tet_Crawlab准备之python+scrapy环境搭建

python 把数据写到tet_Crawlab准备之python+scrapy环境搭建 的相关文章

随机推荐

热门标签

python 把数据写到tet_Crawlab准备之python+scrapy环境搭建的相关文章