Python scrapy爬虫生成启动 crawlspider命令爬取示例网站的数据案例

2023-11-10

创建一个scrapy项目
scrapy startproject myscrapy
生成一个爬虫
scrapy genspider example example.com
启动爬虫
scrapy crawl example
生成crawlspider
scrapy genspider -t crawl example "example.com"

案例：爬取网站的数据

import scrapy
from selenium import webdriver
from selenium.webdriver.chrome.options import Options


class Spider(scrapy.Spider):
    name = ''
    allowed_domains = ['.com']
    start_urls = ['http://.com/']
    page = 1

    def __init__(self):
        chrome_options = Options()
        chrome_options.add_argument('--headless')
        chrome_options.add_argument('--disable-gpu')
        self.browser = webdriver.Chrome(executable_path=r'C:\Program Files\Google\Chrome\Application\chromedriver.exe',
                                        chrome_options=chrome_options)

    # def closed(self, spider):
    #     print("spider closed")
    #     self.browser.close()

    def parse(self, response):
        res_div_list = response.xpath("//div[@class='recruit-list']")
        for div in res_div_list:
            item = {}
            item["title"] = div.xpath(".....
            yield scrapy.Request("https://.com/....?...="...., callback=self.detail,
                                 meta={
                                     "item": item
                                 })

        # res = response.xpath("/html").extract()
        # print(res)
        while self.page <= 0:
            self.page += 1
            next_url = self.start_urls[0] + "?index=" + self.page.__str__()
            yield scrapy.Request(next_url, callback=self.parse)  # 这个URL用callback方法处理

    def detail(self, response):
        item = response.meta["item"]
        item["duty"] = response.xpath("//div[@class='duty-text']//li[@class='explain-item']/text()").extract()[0]
        yield item

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

开发语言

Python scrapy爬虫生成启动 crawlspider命令爬取示例网站的数据案例的相关文章

如何（重新）命名 pandas 数据框中的空列标题而不导出到 csv

我有一个熊猫数据框df1带有一个索引列和一系列未命名的值我想为未命名的系列指定一个名称到目前为止我知道的唯一方法是导出到df1 csv using df1 to csv df1 csv header Signal 然后使用以下命令重新
如果 Excel 文件是由程序创建的，Pandas read_excel 对于具有简单公式的单元格返回 nan [重复]

这个问题在这里已经有答案了 I use pd read excel读取由以下命令创建的 excel 文件openpyxl并从一个网址下载解析后的数据框将给出nan如果单元格值是公式 which formula is simply 100
str.translate 与 str.replace - 何时使用哪一个？

何时以及为什么使用前者而不是后者反之亦然目前尚不完全清楚为什么有些人使用前者以及为什么有些人使用后者它们有不同的目的 translate只能用任意字符串替换单个字符但一次调用可以执行多次替换它的参数是一个特殊的表它将单个字符映射
通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
键入的完整命令行

我想获得输入时的完整命令行 This join sys argv 在这里不起作用删除双引号另外我不想重新加入已解析和拆分的内容有任何想法吗你太迟了当键入的命令到达 Python 时您的 shell 已经发挥了它的魔力例如引
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
将 Python Pandas DataFrame 写入 Word 文档

我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告目前我正在使用DataFrame to string 方法但是这会作为字符串写入文件有没有办法让我实现这一目标同时将其保留为表格以便我可以使
Flask 失败并显示“错误：导入‘X’时，引发了 ImportError”，但不显示错误。如何找到错误的根源？

当使用以下命令启动 Flask 应用程序时 flask run 我收到错误 Error While importing wsgi an ImportError was raised Usage flask OPTIONS COMMAND A
如何在Windows中的Python 3.9下pip安装pickle？

我需要pickle https docs python org 3 9 library pickle html module pickle包安装在我的下面Python 3 9在 Windows 10 下我尝试过的当尝试与pip inst
使用pathlib获取主目录

翻看新的pathlib在 Python 3 4 中我注意到没有任何简单的方法来获取用户的主目录我能想到的获取用户主目录的唯一方法是使用旧的os path像这样的库 import pathlib from os import path p
查找与另一列 Pandas 中的唯一值关联的列中的值的交集

如果我有一个像这样的数据框非常小的例子 col1 col2 0 a 1 1 a 2 2 b 1 3 b 2 4 b 4 5 c 1 6 c 2 7 c 3 我想要所有的交集col2当价值观与其独特性相关时col1值因此在这种情况下交集
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
数据框中 .map(str) 和 .astype(str) 有什么区别

我有一个数据框其列名为 col1 和 col2 的整数类型条目我想将 col1 和 col2 的条目以及其间的点连接起来我搜索并发现添加两个列条目 df col df col1 map str df col2 map str 并添
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
无法使用 python rasterio、gdal 打开 jp2 （来自哨兵）

我试图在 python 中将 jp2 栅格产品作为栅格打开但当我们使用 raterio 和 gdal 包时没有成功我收到此错误 RasterioIOError b4 jp2 not recognized as a supported f
Django 将 JSON 数据传递给静态 getJSON/Javascript

我正在尝试从 models py 中获取数据并将其序列化为views py 中的 JSON 对象模型 py class Platform models Model platformtype models CharField max len
如何使用 enumerate 来倒数？

letters a b c 假设这是我的清单在哪里for i letter in enumerate letters 将会 0 a 1 b 2 c 我怎样才能让它向后枚举如 2 a 1 b 0 c 这是一个很好的解决方案并且工作完美 i
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
Biopython 可以执行 Seq.find() 来解释歧义代码吗

我希望能够在 Seq 对象中搜索考虑歧义代码的子序列 Seq 对象例如以下内容应该是正确的 from Bio Seq import Seq from Bio Alphabet IUPAC import IUPACAmbiguousDNA

随机推荐

OpenLayers - Vector绘制地图省市区（十）

简介本文讲解经常在开发中出现的功能绘制地图省市区主要使用Vector图层通过绘制多边行的方法绘制出省市区的多边行把该图层添加到地图图层上就实现了绘制省市区图形 Vector 矢量图层在客户端呈现的矢量数据构成一个矢量图层需要
c++中的虚特性（虚基类、虚函数、纯虚函数）

1 虚基类 1 1 虚基类作用为了解决多继承时的命名冲突和冗余数据问题使得派生类中只保留一份间接基类的成员其本质是是让某个类做出声明承诺愿意共享它的基类其中这个被共享的基类就称为虚基类 Virtual Base Class 换个
三种经典图像滤波方法介绍——双边滤波(Bilateral filter)、导向滤波(Guided Fliter)、滚动导向滤波(RollingGuidedFilter)

文章目录一前言二双边滤波 Bilateral filter 2 1 双边滤波的理论介绍及公式推导 2 2 双边滤波的matlab程序实现三导向滤波 Guided Fliter 3 1 导向滤波的理论介绍及公式推导 3 2 导向滤
linux安装mysql菜鸟教程_新手搭建linux服务器——mysql环境安装

mysql环境安装 Linux下使用yum安装MySQL 以及启动登录和远程访问MySQL数据库 1 yum y update 更新yum包 2 重启服务器 reboot 3 检查有木有安装php v 4 rpm qa gerp mysq
java90到100随机数生成器_java实现随机数生成器

本文实例为大家分享了java实现随机数生成器的具体代码供大家参考具体内容如下自己编的随机数生成器比较简陋功能也单一当作练手 application java package src public class applicatio
简单上手Raspberry Pi Pico（Ubuntu+MicroPython）

关于raspberry pi pico的信息我就不多介绍了直接给几个关键词吧售价4 微控制器 MicroPython C C 树莓派基金会自研RP2040芯片两本官方推荐的书 MicroPython版 Get started with
计算机内核态和用户态,用户态和内核态的区别是什么

用户态和内核态的区别是内核态运行操作系统程序操作硬件用户态运行用户程序当程序运行在3级特权级上时可以称之为运行在用户态当程序运行在0级特权级上时称之为运行在内核态本文操作环境 windows10系统 thinkpad t49
修复Qt程序长时间运行控件停止刷新

问题描述我的Qt程序有一个时间显示的功能由于需要保持长期运行这个时间控件就需要长期持续刷新但是当程序运行一段时间后这个控件就似乎累了一样不再继续刷新了为了解决这个问题我尝试过很多方法包括每隔一段时间获取时间sette
linux下安装mysql5.7.17及简单配置&&HIVE安装和使用

1 mysql5 7 17安装在 usr local mysql目录里面也可以安装在其他地方安装包最好与Linux系统一样 eg 32位的就是 mysql 5 7 17 linux glibc2 5 i686 tar gz 官网可下载
基于Android+OpenCV+CNN+Keras的智能手语数字实时翻译——深度学习算法应用(含Python、ipynb工程源码)+数据集（一）

目录前言总体设计系统整体结构图系统流程图运行环境 Python环境 TensorFlow环境 Keras环境 Android环境 1 安装AndroidStudio 2 导入TensorFlow的jar包和so库 3 导入Open
【cfeng work】什么是SaaS？ SaaS详细介绍

WorkProj 内容管理 SaaS SaaS的优势 SaaS的注意项 SaaS产品核心组件 cfeng结合work理解SaaS 本文introduce SaaS的相关内容昨天cfeng已经介绍过云原生了其实就是应用在设计上就要围绕Cl
来可电子CAN转232/485设备在使用时可能遇到的问题和解决方案

使用场景上位机软件通过232串口发送数据经过CAN转232设备转换成CAN数据发送到仪表中仪表接收到指定的数据后返回特定的CAN数据串口调试工具数据收发测试 CAN转232设备在使用中的接线使用过程中可能遇到的问题 1 串口按照规
JDBC概述

JDBC JDBC Java Database Connectivity java数据库连接 java语言中用于连接各种数据库的应用程序编程接口为了解决使java 编写的程序不再依赖于具体的数据库 JDBC操作不同数据库仅仅只是连接方式
逆天啦！国产自研多环境开发软件 CEC-IDE 问世，“卡脖子”问题完美解决？

来自 JavaGuide 震撼到了厉害继国产自研浏览器国产自研操作系统国产自研手机系统后的全新力作国产自研 IDE 它就是 CEC IDE 一款由数字广东公司与麒麟软件联合打造的是国内首个适配国产操作系统自主创新的一款安全专
李沐论文精读系列一： ResNet、Transformer、GAN、BERT

文章目录一 ResNet 1 0 摘要论文导读 1 1 导论 1 1 1 为什么提出残差结构 1 1 2 实验验证 1 2 相关工作 1 3 实验部分 1 3 1 不同配置的ResNet结构 1 3 2 残差结构效果对比 1 3 3 残
Discuz论坛创始人/超级管理员密码忘记解决办法！

1 首先要明白一个基础知识网站的管理员 admin 和创始人 UCenterAdministrator 不是一回事一般人都误把admin当成UCenterAdministrator 而那些懂的人在给人们讲如何找回密码比方使用tools
浅谈对梯度下降法的理解

浅谈梯度下降法如果读者对方向导数和梯度的定义不太了解请先阅读上篇文章方向导数与梯度前些时间接触了机器学习发现梯度下降法是机器学习里比较基础又比较重要的一个求最小值的算法梯度下降算法过程如下 1 随机初始值 2 迭代直至收敛表
VMware 安装 OpenWrt 旁路由并配置 PassWall

1 准备 OpenWrt 镜像包我已经转好了 vmdk 格式的更多的可以去恩山论坛下载 OpenWrtvmdk格式虚拟化文档类资源 CSDN下载也可以在这个平台在线定制 OpenWrt固件下载与在线定制编译 2 网络选择 NAT 模
Tensorflow中的GPU分配方法

Tensorflow中的GPU分配方法默认情况下 TensorFlow 会使用其所能够使用的所有 GPU 这样会出现浪费的情况列出当前设备上的GPU和CPU 首先通过 tf config experimental list phys
Python scrapy爬虫生成启动 crawlspider命令爬取示例网站的数据案例

创建一个scrapy项目 scrapy startproject myscrapy 生成一个爬虫 scrapy genspider example example com 启动爬虫 scrapy crawl example 生成crawls

Python scrapy爬虫 生成 启动 crawlspider命令 爬取示例网站的数据案例

Python scrapy爬虫 生成 启动 crawlspider命令 爬取示例网站的数据案例 的相关文章

随机推荐

热门标签

Python scrapy爬虫生成启动 crawlspider命令爬取示例网站的数据案例

Python scrapy爬虫生成启动 crawlspider命令爬取示例网站的数据案例的相关文章