用scrapy爬虫无数据

2023-10-27

@[TOC]用scrapy爬虫不到数据,求大神解决

运行后终端显示:
D:\BaiduNetdiskDownload\jobui>C:/Users/admin/AppData/Local/Programs/Python/Python36-32/python.exe d:/BaiduNetdiskDownload/jobui/main.py
2020-02-07 22:29:33 [scrapy.utils.log] INFO: Scrapy 1.8.0 started (bot: jobui)
2020-02-07 22:29:33 [scrapy.utils.log] INFO: Versions: lxml 4.5.0.0, libxml2 2.9.5, cssselect 1.1.0, parsel 1.5.2, w3lib 1.21.0, Twisted 19.10.0, Python 3.6.3 (v3.6.3:2c5fed8, Oct 3 2017, 17:26:49) [MSC v.1900 32 bit
(Intel)], pyOpenSSL 19.1.0 (OpenSSL 1.1.1d 10 Sep 2019), cryptography 2.8, Platform Windows-7-6.1.7601-SP1
2020-02-07 22:29:33 [scrapy.crawler] INFO: Overridden settings: {‘BOT_NAME’: ‘jobui’, ‘DOWNLOAD_DELAY’: 3, ‘NEWSPIDER_MODULE’: ‘jobui.spiders’, ‘SPIDER_MODULES’: [‘jobui.spiders’], ‘USER_AGENT’: ‘Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36’}
2020-02-07 22:29:33 [scrapy.extensions.telnet] INFO: Telnet Password: 1ab83f8133d075be
2020-02-07 22:29:33 [scrapy.middleware] INFO: Enabled extensions:
[‘scrapy.extensions.corestats.CoreStats’,
‘scrapy.extensions.telnet.TelnetConsole’,
‘scrapy.extensions.logstats.LogStats’]
2020-02-07 22:29:34 [scrapy.middleware] INFO: Enabled downloader middlewares:
[‘scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware’,
‘scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware’,
‘scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware’,
‘scrapy.downloadermiddlewares.useragent.UserAgentMiddleware’,
‘scrapy.downloadermiddlewares.retry.RetryMiddleware’,
‘scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware’,
‘scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware’,
‘scrapy.downloadermiddlewares.redirect.RedirectMiddleware’,
‘scrapy.downloadermiddlewares.cookies.CookiesMiddleware’,
‘scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware’,
‘scrapy.downloadermiddlewares.stats.DownloaderStats’]
2020-02-07 22:29:34 [scrapy.middleware] INFO: Enabled spider middlewares:
[‘scrapy.spidermiddlewares.httperror.HttpErrorMiddleware’,
‘scrapy.spidermiddlewares.offsite.OffsiteMiddleware’,
‘scrapy.spidermiddlewares.referer.RefererMiddleware’,
‘scrapy.spidermiddlewares.urllength.UrlLengthMiddleware’,
‘scrapy.spidermiddlewares.depth.DepthMiddleware’]
2020-02-07 22:29:35 [scrapy.middleware] INFO: Enabled item pipelines:
[‘jobui.pipelines.JobuiPipeline’]
2020-02-07 22:29:35 [scrapy.core.engine] INFO: Spider opened
2020-02-07 22:29:35 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at
0 items/min)
2020-02-07 22:29:35 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6023
2020-02-07 22:29:35 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.jobui.com/rank/company/> (referer: None)
2020-02-07 22:29:35 [scrapy.core.engine] INFO: Closing spider (finished)
2020-02-07 22:29:36 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{‘downloader/request_bytes’: 300,
‘downloader/request_count’: 1,
‘downloader/request_method_count/GET’: 1,
‘downloader/response_bytes’: 6414,
‘downloader/response_count’: 1,
‘downloader/response_status_count/200’: 1,
‘elapsed_time_seconds’: 0.740043,
‘finish_reason’: ‘finished’,
‘finish_time’: datetime.datetime(2020, 2, 7, 14, 29, 36, 65906),
‘log_count/DEBUG’: 1,
‘log_count/INFO’: 10,
‘response_received_count’: 1,
‘scheduler/dequeued’: 1,
‘scheduler/dequeued/memory’: 1,
‘scheduler/enqueued’: 1,
‘scheduler/enqueued/memory’: 1,
‘start_time’: datetime.datetime(2020, 2, 7, 14, 29, 35, 325863)}
2020-02-07 22:29:36 [scrapy.core.engine] INFO: Spider closed (finished)

我的爬虫主程序:
import scrapy
import bs4
from …items import JobuiItem

class JobuiSpider(scrapy.Spider):
name = ‘jobs’
allowed_domins = [‘https://www.jobui.com’]
start_urls = [‘https://www.jobui.com/rank/company/’]

def parse(self,response):
    bs = bs4.BeautifulSoup(response.text,'html.parser')
    ul_list = bs.find_all('ul',class_="textlist flsty cfix")
    for ul in ul_list:
        a_list = ul.find_all('a')
        for a in a_list:
            company_id = a['href']
            url = 'https://www.jobui.com{id}jobs'
            real_url = url.format(id=company_id)
            yield scrapy.Request(real_url,callback=self.parse_job)

def parse_job(self,response):
    bs = bs4.BeautifulSoup(response.text,'html.parser')
    company = bs.find(id="companyH1").text
    datas = bs.find_all('div',class_="c-job-list")
    for data in datas:
        item = JobuiItem()
        item['company'] = company
        item['position'] = data.find('a').find('h3').text
        spantexts = data.find_all('span')
        item['address'] = spantexts[0].text
        item['detail'] = spantexts[1].text
        yield item

setting.py:

-- coding: utf-8 --

Scrapy settings for jobui project

For simplicity, this file contains only settings considered important or

commonly used. You can find more settings consulting the documentation:

https://docs.scrapy.org/en/latest/topics/settings.html

https://docs.scrapy.org/en/latest/topics/downloader-middleware.html

https://docs.scrapy.org/en/latest/topics/spider-middleware.html

BOT_NAME = ‘jobui’

SPIDER_MODULES = [‘jobui.spiders’]
NEWSPIDER_MODULE = ‘jobui.spiders’

Crawl responsibly by identifying yourself (and your website) on the user-agent

USER_AGENT =“Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)”,
“Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)”,
“Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)”,
“Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)”,
“Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6”,
“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1”,
“Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0”,
“Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5”

Obey robots.txt rules

ROBOTSTXT_OBEY = False

Configure maximum concurrent requests performed by Scrapy (default: 16)

#CONCURRENT_REQUESTS = 32

Configure a delay for requests for the same website (default: 0)

See https://docs.scrapy.org/en/latest/topics/settings.html#download-delay

See also autothrottle settings and docs

DOWNLOAD_DELAY = 3

The download delay setting will honor only one of:

#CONCURRENT_REQUESTS_PER_DOMAIN = 16
#CONCURRENT_REQUESTS_PER_IP = 16

Disable cookies (enabled by default)

#COOKIES_ENABLED = False

Disable Telnet Console (enabled by default)

#TELNETCONSOLE_ENABLED = False

Override the default request h

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

用scrapy爬虫无数据 的相关文章

  • 使用 PHP 更新 XML 节点

    我有一个 XML 文件 test xml
  • 通过 post 使用 php 发送 XML

    我知道有很多类似的问题 但我尝试过摆弄所有的解决方案 但似乎无法使其发挥作用 我正在尝试将 xml 直接发布到 Web 服务并获得响应 从技术上讲 我正在尝试连接到freightquote com 您可以在右上角找到该文档this http
  • SSRS ReportViewer 与 XML 嵌入数据源相关的问题

    我有 C WPF 应用程序 我想在 ReportViewer 控件中显示 SSRS 报告 本地报告文件中嵌入了 XML 数据源 从 SQL Server Business Intelligence Development Studio 运行
  • Java - 从 XML 文件读取注释

    我必须从 XML 文件中提取注释 我找不到使用 JDOM 或其他东西来让它们使用的方法 目前我使用 Regex 和 FileReader 但我不认为这是正确的方法 您可以使用 JDOM 之类的东西从 XML 文件中获取注释吗 或者它仅限于元
  • 从标签中提取 HTML5 数据属性

    我想从标签中提取所有 HTML5 数据属性 就像这个 jQuery 插件 http www orangesoda net jquery dataset html 例如 给定 span class highlight Joe Bloggs s
  • 在另一个布局中以编程方式膨胀布局

    我的 Android 应用程序需要帮助 我需要在另一个布局中膨胀一个布局 但我不知道该怎么做 我的xml代码是这样的 item xml 我需要膨胀多个 xml 取决于可变数量
  • 多线程读取xml文件

    我进行了很多搜索 但找不到适合我的问题的解决方案 我编写了一个 xml 文件 其中包含电视节目的所有剧集信息 它大小 38 kb 包含大约 680 个变量的属性和字符串 起初 我只是在 XMLTextReader 的帮助下阅读它 它在我的四
  • C# 的 xml 序列化中是否有一个属性可以跳过空数组?

    C 的 xml 序列化中是否有一个属性可以跳过空数组 这将提高 xml 输出的可读性 好吧 你也许可以添加一个ShouldSerializeFoo method using System using System ComponentMode
  • xpath 根据子值选择父级

    我希望选择状态为 实时 的每个活动 我在 Drupal 的 XPath XML 解析器中使用它 并具有上下文基本查询和 xpath 查询字段 上下文 这是基本查询 所有其他查询都将在此上下文中运行 我目前有 语境 event status
  • 使用 XSLT 转换 XML 并保留 CDATA(在 Ruby 中)

    我正在尝试将包含如下内容的文档转换为另一个文档 使 CDATA 与第一个文档中的完全相同 但我还没有弄清楚如何使用 XSLT 保留 CDATA 初始 XML
  • 如何从 SQL Server 2008 返回由共享公共父级的多个选择构成的 XML

    我尝试过使用 FOR XML PATH FOR XML EXPLICIT 和 FOR XML AUTO 但数据从未采用正确的层次结构构建 基本上 我有一张父表 客户 和 3 个子表 每个表都有一个 customerid 列 Customer
  • 自动完成功能在特定层次结构的 XML 文件中不起作用

    特别是 XML 节点层次结构 例如 DrawerLayout gt RelativeLayout gt ImageButton 自动完成功能无法按预期工作 建议列表包含无效项目 例如 android src里面没有显示ImageButton
  • 如何使用 PHP 从文档中删除无效的 XML 字符

    我试图生成一个大约 23 到 30 MB 的 XML 文档 当我用 Firefox 打开它时 我收到 XML Parsing Error not well formed Location file Users User Downloads
  • 如何防止 .NET 中的 XPath/XML 注入

    如何防止 NET Framework 中的 XPATH 注入 我们之前使用字符串连接来构建 XPATH 语句 但发现最终用户可以执行一些任意 XPATH 例如 string queryValue pages url USER INPUT V
  • 如何在 iOS 中将 NSData 变量转换为 NSInteger 变量

    我有以下返回的 api 方法NSData 我在另一个视图控制器中调用了这个方法 如何转换NSData to NS整数 NSData getBusXMLAtStop NSString stopnumber NSMutableURLReques
  • XDocument 似乎不存在于 System.Xml 命名空间中

    我遇到了我认为可能是一个非常简单的问题 在开发我的第一个 WP7 应用程序时 我已经进入了访问我的站点 api 并解析 XML 的阶段 但是我在尝试使用 XDocument 时遇到了困难 我四处搜索并找到了这个示例代码 将 XML 文件从网
  • 将 cXML 反序列化为 C# 类

    我正在尝试将 cXML 字符串反序列化为 C 类 但是 在反序列化时 除了根元素之外 我似乎无法获得任何东西来反序列化 如何反序列化 XML 文档 https stackoverflow com questions 364253 how t
  • Android Studio图形界面中的ViewFlipper切换?

    感谢您抽出时间并在有时间的情况下回答我的问题 我对 Android 编程相当陌生 所以任何帮助都很棒 我正在使用 Android Studio 并且编写了一个包含多个布局的 XML 布局 我可以在使用 ViewFlipper showNex
  • Python:将 xml 文件转换为图像

    我希望使用 python 脚本将 xml 文件转换为图像 最好是 png 文件 我没有从我的在线研究中找到太多信息 我正在尝试使用 PIL 从这个帖子 https stackoverflow com questions 5741803 co
  • Android:java.lang.OutOfMemoryError:

    我在 Android 上开发了一个使用大量图像的应用程序 可绘制文件夹中有很多图像 比如说超过 100 张 我正在开发图像动画应用程序 我使用 imageview 来显示 GIF 图像 我使用了将 gif 图像分割成多个 PNG 格式图像的

随机推荐

  • 软件测试--静态白盒测试

    软件测试 静态白盒测试 静态测试是指测试非运行部分 检查和审查 静态白盒测试是指在不执行软件的条件下条理地仔细审查软件设计 体系结构和代码 从而找出软甲缺陷的过程 又称为结构化测试 静态白盒测试的好处 能够尽早发现软件缺陷 并且能够为黑盒测
  • 浅析网络编程之AF_INET和PF_INET

    在网络编程中 创建TCP套接字时 我们使用 socked socket AF INET SOCK STREAM 0 来创建一个网际 AF INET 字节流 SOCK STREAM 套接字 AF表示ADDRESS FAMILY 地址族 PF表
  • VueX报错:Uncaught TypeError: Object(...) is not a function at resetStoreState (vuex.esm-browser.js?

    当我们使用Vuex并运行项目时 发现浏览器报如下错误 这是因为Vuex 版本过高所导致的 我们去package json中查看我们当前的Vuex版本为 vuex 4 0 2 只需重新安装低版本的Vuex就可以解决问题 我们在终端输入 npm
  • Frechet Distance距离算法详解

    Frechet Distance 它是计算两曲线距离的算法 用来判断两曲线的相似度 计算结果越小说明相似度越高 基于python实现该算法 需要下载numpy包 向量库 import math import numpy as np 这个方法
  • jquery获得当前元素父级元素_如何使用jQuery获取父元素

    jQuery获取父元素我们有三种方式可以实现 parent parents closest 下面我们将介绍jQuery获取父元素的这三种方式以及一个具体的示例 web前端学习 打造全网web前端全栈资料库 总目录 看完学的更快 掌握的更加牢
  • 蛋白+小分子配体md(详细保姆教程)

    继续搬一点近期飞书文档模拟的到博客里 参考博客 Gromac中文教程 https jerkwin github io GMX GMXtut 5 E6 A6 82 E8 BF B0 https www jianshu com p b10fe4
  • 基于Python的爬虫设计与数据分析 计算机毕业设计源码37836

    目 录 摘要 1 绪论 1 1课题背景 1 2研究目的及意义 1 3爬虫技术 1 4django框架介绍 2 1 5论文结构与章节安排 3 2 基于Python的爬虫设计与数据分析分析 4 2 1 可行性分析 4 2 2 系统流程分析 4
  • 用户积分营销的三种方式

    私域流量时代下 商家们都纷纷搭建私域流量池来实现引流 增长 但是如果商家只是单纯地通过搭建私域流量池来实现用户进行转化 出来的效果是非常缓慢的 同时对于用户留存以及用户粘性的提升帮助不是太大 因此 我们需要设计一种新的玩法去进行私域流量池运
  • 设置DialogFragment背景透明

    设置DialogFragment背景透明的方法如下 1 在onCreateView 方法中设置弹窗内部的背景透明 Override public View onCreateView LayoutInflater inflater Nulla
  • postman下载文件乱码

    环境 postman v8 0 7 遇到的问题 postman下载文件时乱码 解决方案 不要用send 用边上小箭头里的send and Download
  • JS 鼠标粒子效果

  • UE虚幻引擎教程_生成云平台指定路径下的exe文件

    市面上大量优秀的游戏都是基于UE制作的 UE虚幻引擎制作的作品可以在windows mac linux以及ps4 x boxone ios android甚至是html5等平台上运行 本文介绍了UE虚幻引擎如何生成云平台指定路径下的EXE
  • 创建操作符(初稿)

    just 将一个或多个对象转换成发射这个或这些对象的一个Observable from 将一个Iterable 一个Future或者一个数组转换成一个Observable create 使用一个函数从头创建一个Observable defe
  • vim 插入模式小技巧

    1 vim插入模式快捷键 ctrl h 删除上一个字符 ctrl w 删除上一个单词 ctrl u 删除当前行 这三个快捷键也适用与终端中 2 终端中的快捷键 ctrl a 快速移动到行首 ctrl e 快速移动到行末 ctrl b 向前移
  • 面试题-网络

    以下所有整理内容都是我从第一次面试开始 将所有遇到的问题整合后的结果 所有的内容都是我在面试中真实遇到的问题 有BAT这样的大厂 也有很多小厂 在面试超过20家之后 遇到的绝大多数问题都开始重复 这份资料给我的面试带来了非常多的便利 现在我
  • 大数据单机学习环境搭建(12)Azkaban的简单使用

    专题 大数据单机学习环境搭建和使用 1 登录和密码修改 2 新建工程 2 1新建工程 2 2创建zip文件 2 3添加文件到项目 3 任务执行 3 1立即执行 3 2 设置定时任务 4 依赖任务建立 大数据单机学习环境搭建 12 Azkab
  • OpenCV Mat数据类型指针ptr的使用

    常用形式 mat ptr
  • leetcode-340 Longest Substring with at most k-distinct characters(至多包含 K 个不同字符的最长子串)

    题目描述 给定一个字符串 s 找出 至多 包含 k 个不同字符的最长子串 T 示例 1 输入 s eceba k 2 输出 3 解释 则 T 为 ece 所以长度为 3 示例 2 输入 s aa k 1 输出 2 解释 则 T 为 aa 所
  • 【项目实战】SpringBoot多环境(dev、test、prod)配置

    一 三套环境介绍 1 1 开发环境 dev 开发环境是程序猿们专门用于开发的服务器 配置可以比较随意 为了开发调试方便 一般打开全部错误报告 1 2 测试环境 test 一般是克隆一份生产环境的配置 一个程序在测试环境工作不正常 那么肯定不
  • 用scrapy爬虫无数据

    TOC 用scrapy爬虫不到数据 求大神解决 运行后终端显示 D BaiduNetdiskDownload jobui gt C Users admin AppData Local Programs Python Python36 32