pyspider安装与初次使用的那些坑

2023-05-16

pyspider是一个python的爬虫框架,安装过程遇到不少坑,在这里总结一下。

安装

安装只需要简单用pip安装就可以了

pip install pyspider

测试

使用

pyspider

pyspider all

测试是否安装成功。

C:\Users\hp>pyspider all
c:\users\hp\anaconda3\lib\site-packages\pyspider\libs\utils.py:196: FutureWarning: timeout is not supported on your platform.
  warnings.warn("timeout is not supported on your platform.", FutureWarning)
Error: Could not create web server listening on port 25555
[I 210302 17:11:42 result_worker:49] result_worker starting...
[I 210302 17:11:42 processor:211] processor starting...
[I 210302 17:11:43 scheduler:647] scheduler starting...
[I 210302 17:11:43 scheduler:586] in 5m: new:0,success:0,retry:0,failed:0
[I 210302 17:11:43 tornado_fetcher:638] fetcher starting...
[I 210302 17:11:43 scheduler:782] scheduler.xmlrpc listening on 127.0.0.1:23333
[I 210302 17:11:43 app:76] webui running on 0.0.0.0:5000
[I 210302 17:13:43 scheduler:586] in 5m: new:0,success:0,retry:0,failed:0

出现webui running on 0.0.0.0:5000就成功了。

使用

在浏览器内输入

localhost:5000

成功显示后,点击create键创建新项目

 

问题

坑1:ininvalid syntax报错

File “C:\Users\hp\Anaconda3\Lib\site-packages\pyspider\run.py”, line 231

async=True, get_object=False, no_input=False):
SyntaxError: invalid syntax


原因是:导致这种情况的原因是在更新的python3 中,已经将async 设置为关键字,而pyspider 版本更新缓慢并没有在此处修改,所以导致pyspider 不能正常启动。
处理异常有两种方法:1、降低python 版本,降低至3.5即可,但这种方法过于麻烦。2、修改出现异常的关键字。
这里我们采用第二种方法来解决问题。
主要有两个文件:C:\Users\hp\Anaconda3\Lib\site-packages\pyspider\run.py 和 C:\Users\hp\Anaconda3\Lib\Lib\site-packages\pyspider\fetcher\tornado_fetcher.py
在替换是要注意:只替换名为async 的变量或参数名。不要图省事选择“全部替换”
替换保存后再次运行“pyspider all”
这时spider只启动到“scheduler xmlrpc listening on 127.0.0.1:23333”就停止了
继续替换PYTHON_HOME\Lib\site-packages\pyspider\webui\app.py中的async

坑2:wsgidav版本问题

ValueError: Invalid configuration:
-Deprecated option ‘domaincontroller’: use ‘http_authenticator.domain_controller’ instead.

或卡在

 scheduler.xmlrpc listening on 127.0.0.1:23333

C:\Users\hp>pyspider all
c:\users\hp\anaconda3\lib\site-packages\pyspider\libs\utils.py:196: FutureWarning: timeout is not supported on your platform.
  warnings.warn("timeout is not supported on your platform.", FutureWarning)
Error: Could not create web server listening on port 25555
[I 210302 17:11:42 result_worker:49] result_worker starting...
[I 210302 17:11:42 processor:211] processor starting...
[I 210302 17:11:43 scheduler:647] scheduler starting...
[I 210302 17:11:43 scheduler:586] in 5m: new:0,success:0,retry:0,failed:0
[I 210302 17:11:43 tornado_fetcher:638] fetcher starting...
[I 210302 17:11:43 scheduler:782] scheduler.xmlrpc listening on 127.0.0.1:23333
[I 210302 17:13:43 scheduler:586] in 5m: new:0,success:0,retry:0,failed:0
[I 210302 17:13:43 scheduler:586] in 5m: new:0,success:0,retry:0,failed:0
[I 210302 17:13:43 scheduler:586] in 5m: new:0,success:0,retry:0,failed:0

解决方法1:

打开PYTHON_HOME\Lib\site-packages\pyspider\webui\webdav.py文件,修改第209行

目标位置 : 'domaincontroller': NeedAuthController(app),
更改为 :  http_authenticator':{
            'HTTPAuthenticator':NeedAuthController(app),
        },

保存文件后再次运行

解决方法2:降低版本

因为3.0的版本不兼容,所以替换为2.4.1[4]

pip uninstall wsgidav
pip install wsgidav==2.4.1

坑3:卡在result_worker starting…

如果一直卡在result_worker starting…,如下图所示。

第一个终端
可以新打开一个终端(这个终端暂时不关),再依次输入pyspider,输入完成后再关闭第一个终端。

在这里插入图片描述

第二个终端
运行后:

在这里插入图片描述

坑4:安装Phantomjs

在官网下载解压后,并将pathtomjs.exe拖进python.exe的同级目录下即可。

网址:http://phantomjs.org/download.html

   1. 解压缩找到exe文件>>复制exe文件并复制到python.exe文件所在的位置

    

 

            a. 找到python.exe:

    

            b. 复制粘贴:

坑5:

C:\Users\hp>pyspider all
c:\users\hp\anaconda3\lib\site-packages\pyspider\libs\utils.py:196: FutureWarning: timeout is not supported on your platform.
  warnings.warn("timeout is not supported on your platform.", FutureWarning)
Error: Could not create web server listening on port 25555

找到phantomjs 进程,phantomjs进程未结束,端口被占用,将占用端口杀掉就行了。

功能命令
查找所有运行的端口netstat -ano

查看被占用端口对应的 PID 

netstat -a

查看指定 PID 的进程

tasklist|findstr "9088"
结束进程taskkill /T /F /PID 9088

不行的话关机重启。

参考资料:

https://blog.csdn.net/weixin_39190382/article/details/104923254

https://blog.csdn.net/qq_33472765/article/details/80697263

 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

pyspider安装与初次使用的那些坑 的相关文章

  • Matlab调用Cuda程序

    目录 一 环境配置 1 GPU 43 VisualStudio 43 Matlab版本适配性查看 2 Matlab环境配置 二 使用Matlab编译CUDA工程 1 建立CUDA工程并编写GPU代码 2 编写可供Matlab编译的CUDA代
  • python函数参数*args**kwargs用法实例

    http www jb51 net article 44104 htm python当函数的参数不确定时 xff0c 可以使用 args和 kwargs args没有key值 xff0c kwargs有key值 下面看例子 复制代码 代码如
  • 简易图解移轴镜头 (Tilt-Shift Lens) 原理 简易图解移轴镜头 (Tilt-Shift Lens) 原理

    http fotomen cn 2012 10 tilt shift lens 移轴镜 Tilt Shift Lens 是颇昂贵的玩意 xff0c 例如 Canon 的 TS E 24mm f 3 5L II xff0c 官方零售价是 HK
  • GTA5最新线上小助手

    https wwr lanzoui com ivR9Wsuixmb 密码 4ug1
  • DELL-R730服务器U盘安装操作系统指南

    一 系统安装注意事项 xff1a 1 DELL服务器安装系统 xff0c 根据实际情况先做raid5 xff0c 因为我们有3块硬盘 xff1b 2 安装系统前先把U盘做成启动盘 xff0c 然后下载相应的阵列卡驱动 xff0c 阵列卡驱动
  • VCS2018 linux 安装

    VCS linux 安装 自己去网上找2018版本的vcs 和verdi xff0c 就不贴出来了 xff0c 这里把安装过程中遇到的一些问题留作记录 声明 xff1a 只做学术研究 xff0c 不做商业用途 xff0c 公司使用推荐购买正
  • Ubuntu mate 20.04及无vnc的Ubuntu 系统开启vnc

    Ubuntu mate 20 04及无vnc的Ubuntu 系统开启vnc 目录 Ubuntu mate 20 04及无vnc的Ubuntu 系统开启vnc1 介绍2 步骤 1 介绍 2 步骤 1 介绍 我学习ros机器人的过程中 xff0
  • OpenCV入门(四)——边缘检测

    目录 0x01 梯度算子 0x02 一阶微分算子 0x03 二阶微分算子 0x04 图像差分运算 0x05 非极大值抑制 0x06 基本边缘算子 Sobel 0x07 基本边缘算子 Laplace 0x08 基本边缘检测算子 Roberts
  • python教程:9种元组常用操作方法

    基础知识 xff5e 总之多记多看就对了 一 元组定义 元组不可变 xff0c 当我们需要创建一组不可改变的数据时 xff0c 通常是将这些数据放进元组中 tu 61 1 2 3 39 a 39 39 b 39 39 c 39 小括号定义元
  • 3D打印Gcode命令指令简析

    G0 xff1a 快速移动 G1 xff1a 控制移动 坐标轴XYZE移动控制 xff08 G0和G1一样 xff09 例子 xff1a G0 F2000 X30 Y30 Z30 E3 G2 xff1a 顺时针画弧 G3 xff1a 逆时针
  • 数学建模(一)—— 人口增长模型的确定

    一 题目要求二 相关的基础知识2 1 马尔萨斯 Malthus 人口指数增长模型2 2 逻辑斯蒂 Logistic 增长模型2 3 改进的Logistic模型2 4 BP神经网络模型 三 模型的建立与求解3 1 Malthus模型3 2 L
  • 将火狐浏览器视频播放倍速设置为3倍速及其以上

    看视频最快只能两倍速 xff1f 使用火狐浏览器看视频时将视频播放倍速提升到最快16倍速的方法来了 xff01 xff01 xff01 step1 xff1a 打开火狐浏览器页面左上角的应用程序菜单 xff0c 点击扩展和主题 xff1b
  • 折半插入排序算法

    折半插入排序 xff08 Binary Insertion Sort xff09 是对插入排序算法的一种改进 所谓插入排序 xff0c 就是不断的依次将元素插入前面已排好序的序列中 由于前半部分为已排好序的数列 xff0c 这样我们不用按顺
  • VOC2007数据集详细分析

    VOC数据集官网链接 http host robots ox ac uk pascal VOC VOC2007数据集官网链接 http host robots ox ac uk pascal VOC voc2007 index html V
  • Requirement already satisfied解决办法

    遇到的问题 xff1a 当使用电脑中安装的Python 3 7的IDLE去运行某一个python文件时 xff0c 会出现ModuleNotFoundError No module named 39 numpy 39 的报错 xff0c 需
  • 使用Python将DOTA数据集的格式转换成VOC2007数据集的格式

    一 VOC2007数据集二 DOTA数据集三 将DOTA数据集的格式转换成VOC2007数据集的格式 一 VOC2007数据集 VOC2007数据集的文件结构如下图所示 其中 xff0c 文件夹Annotations中存放的是图像的标注信息
  • 设计一个卷积神经网络模型用于遥感图像的场景分类

    遥感图像场景分类是指对遥感图像中场景语义内容标签的映射过程 xff0c 对高分辨率遥感影像的信息提取及内容理解有着重要的意义 主要的场景分类方法可以分为三类 xff1a 第一类是基于底层视觉特征的场景分类方法 xff0c 第二类是基于中层视
  • 使用Python随机生成数据的一些方法

    通过Python Faker生成测试数据通过Python基础语法生成一些随机数利用26个字母和10个数字随机生成5个八位密码生成5个2位小数点的随机数生成5个随机整数数 通过Python Faker生成测试数据 通过Python Faker
  • 源码阅读及理论详解《 Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 》

    Informer论文 xff1a https arxiv org pdf 2012 07436 pdf Informer源码 xff1a GitHub zhouhaoyi Informer2020 The GitHub repository
  • Python实现排序

    在Python中可以使用提供的sort排序法对list实现排序 Python提供两种内置排序的函数分别是sort 和sorted xff0c 这两种函数用法差别在于sort 会直接修改原始的list进行排序 xff0c sorted 可迭代

随机推荐

  • Python排序进阶版:根据一个列表的顺序对其他列表进行排序

    在Python中如果需要根据列表A对列表B进行排序的问题时有以下2种方法 xff1a 方法1 xff1a 根据列表B中每个元素的下标来获取列表A中对应位置的元素 xff0c 将其作为排序依据即可 a span class token ope
  • 基于MATLAB GUI的系统设计(四)

    接下来学习的是关于图像处理方面的知识 实例一 xff1a 对图像进行灰度处理 直方图均衡化处理 二值处理以及用Canny算子对图像进行边缘检测 第一步 xff1a GUIDE画界面 第二步 xff1a 编辑代码 function varar
  • HashMap的工作原理(图文+例子)详解,绝对简单通俗易懂

    目录 什么是HashMap xff1f HashMap的内部结构 内部结构之数组 内部结构之链表 Put方法与Get方法原理 JDK1 7月JDK1 8中HashMap的区别 什么是HashMap xff1f 基于哈希表的 Map 接口的实
  • vnc序列号

    5D7L8 ZQXSA 2L5D4 4UFB4 PWDLA 8KNFU MZZHE WA449 2SLLH 48Q7A
  • A星(A*、A Star)路径规划算法详解(附MATLAB代码)

    首先看看运行效果 xff0c 分别有三种模式 xff0c 代码运行前需要通过鼠标点击设置起点和终点 第一种模式直接输出最短路径 第二种模式输出最短路径的生成过程 第三种模式输出最短路径的生成过程和详细探索的过程 代码获取 gitee链接 x
  • ubuntu系统支持GIGABYTE X570 I AORUS PRO WIFI主板温度及风扇转速检测

    原文链接 xff1a How to fix bugs in Ubuntu 20 04 LTS after installation 43 all necessary programs ITCooky Recipes Not getting
  • 计算机启动过程(windows XP 系统)

    计算机启动过程 xff08 windows XP 系统 xff09 共五步 1 预引导 Pre Boot 阶段 xff1b 2 引导阶段 xff1b 3 加载内核阶段 xff1b 4 初始化内核阶段 xff1b 5 登陆 第一个阶段 首先
  • 2006年6月21日

    最近住了一段时间医院 xff0c 在那里除了休息就是休息 xff0c 回来都一周了 xff0c 我都没有适应了学校的生活 xff0c 一天除了睡觉就是看世界杯 哈哈 xff0c 得要有个好心态 看一点东西就算一点 xff0c 写出来 xff
  • 2006 年6月23日

    我为网上下载的一个TDI的源代码写了一个source文件 xff0c 可是编译时却出现了如下问题 can 39 t open include file 34 netpnp h 34 以及 can 39 t open input file 3
  • Linux搭建Web服务器(三)——服务器编程基本框架以及事件处理模式

    目录 0x01 服务器编程基本框架 0x02 两种高效的事件处理模式 Reactor 模式 Proactor 模式 模拟Proactor 模式 0x01 服务器编程基本框架 虽然服务器程序的种类繁多 xff0c 但是其基本框架都是一样的 x
  • 解决docker容器IP不固定问题

    创建了两个容器 xff0c 做好mysql的主从配置了 xff0c 重启docker容器之后 xff0c 发现容器的ip地址变了 xff0c 这就尴尬了 xff0c 首先了解到了docker默认采用 bridge 连接 xff0c 启动容器
  • VSCode 基本使用

    一 VSCode 界面功能介绍 1 Git History xff0c 相当于 git log 3 打开上一提交版本的更改记录 4 显示提交注释 5 向右分屏 6 直接定位到第几行 7 解析当前文件的语言 8 切换项目 xff08 基于 P
  • keras中实现简单的反卷积

    我这里将反卷积分为两个操作 xff0c 一个是UpSampling2D xff0c 用上采样将原始图片扩大 xff0c 然后用Conv2D 这个函数进行卷积操作 xff0c 就可以完成简单的反卷积 xff1a UpSampling2D xf
  • STM32学习笔记:蜂鸣器实验

    STM32学习笔记 xff1a 蜂鸣器实验 蜂鸣器实现原理和led点亮大同小异 xff0c 所以就不重新编写了 一 所使用的函数 span class token number 1 span 时钟使能函数 span class token
  • centos6/7通用查看系统版本

    方法一 可以用lsb release a来查看系统版本 root 64 centos6 lsb release a LSB Version base 4 0 amd64 base 4 0 noarch core 4 0 amd64 core
  • 欢迎使用CSDN-markdown编辑器

    ADB操作命令及其详解 adb是什么 xff1a adb的全称为Android Debug Bridge xff0c 就是起到调试桥的作用 通过adb我们可以在Eclipse中方面通过DDMS来调试android程序 xff0c 说白了就是
  • 私有云上创建与配置虚拟机

    目录 一 登录私有云 二 创建网络 新建路由等 xff08 一 xff09 创建网络 hy 二 新建路由 xff08 三 xff09 添加接口 xff08 四 xff09 查看网络拓扑 xff08 五 xff09 添加端口 三 创建实例 x
  • 远程桌面打开mayavi,基于VirtualGL + Turbovnc

    实现内容 xff1a 远程桌面打开mayavi xff0c 基于VirtualGL 43 Turbovnc 参考链接 xff1a 链接1 下面是复制过来的内容 xff0c 附加上我的注释 xff1a Setup VirtualGL and
  • twisted笔记三:當Deferred遇上Thread(转载)

    Deferred不會自動實現將阻塞過程轉為非阻塞過程 xff0c 雖然它已經有那樣的機制但還是要你去多走一步 要將阻塞過程轉為真正的非阻塞過程 xff0c 那麼只有借用線程 但至於線程調用你不用太擔心 xff0c twisted已為你準備好
  • pyspider安装与初次使用的那些坑

    pyspider是一个python的爬虫框架 xff0c 安装过程遇到不少坑 xff0c 在这里总结一下 安装 安装只需要简单用pip安装就可以了 pip install pyspider 测试 使用 pyspider 或 pyspider