scrapy中使用正确的xpath出现空列表问题

2023-11-17

今天在使用scrapy框架爬取网页时，使用正确的xpath来爬取时，爬取的缺失空列表，代码如下：

# -*- coding: utf-8 -*-
import scrapy


class HaodfSpider(scrapy.Spider):
    name = 'haodf'
    start_urls = ['http://bbs.tnbz.com/forum-6-2.html']

    def parse(self, response):
        for item in response.xpath(r'//table[@summary="forum_6"]/tbody[not(contains(@id,"separatorline"))]'):
            url_s = item.xpath('./tr/th/a[3]/@href').get()
            yield scrapy.Request(url_s, callback=self.parse_s)

    def parse_s(self, response):
        print(response.xpath('//div/table[@class="plhin"]/tbody/tr/td//div[@class="t_fsz"]//td').extract())

后来发现删除tbody就行了，原因是浏览器会规范这个html文档

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xpath

scrapy中使用正确的xpath出现空列表问题的相关文章

为什么我的 jupyter 笔记本中不需要“%matplotlib inline”？

我只是想理解为什么我的 jupyter 安装不需要我运行 matplotlib inline 根据我读过的所有内容我应该运行它才能将我的绘图内联到我的 jupyter 笔记本中但事实是无论我是否运行 matplotlib inline
Python子进程：cmd退出时的回调

我目前正在使用启动一个程序subprocess Popen cmd shell TRUE 我对 Python 相当陌生但感觉应该有一些 api 可以让我做类似的事情 subprocess Popen cmd shell TRUE po
如何创建自定义颜色图并将其用于不同范围的数据？

假设我有这样的数据 import numpy as np import matplotlib pyplot as plt import matplotlib colors for reproducibility purposes np ra
给定一个正整数 n，如何打印高度为 n-1 的数字三角形？

HackerRank 三角任务 https www hackerrank com challenges python quest 1 problem 仅使用算术运算单个for loop 和一个单一的print陈述不允许进行字符串操作约
如何在Python中拟合阶跃函数

我有一个关于使用 curve fit 等 scipy 例程拟合阶跃函数的问题我很难将其矢量化例如 import numpy as np from scipy optimize import curve fit import matplo
在 Matplotlib 中选择标记大小

我正在 matplotlib 中用方形标记绘制散点图如下所示我想实现这样的目标这意味着我必须调整标记大小和图形大小比例以使标记之间没有空白每个索引单元还应该有一个标记 x and y都是整数所以如果y从 60 到 100 应该
如何使用Python中的or-tools解决累积旅行商问题？

累积旅行商问题 CTSP 的目标是最小化到达客户的时间总和而不是总旅行时间这与最小化总旅行时间不同例如如果一个人拥有无限的车辆车辆与位置数量相同并且目标是最大限度地减少到达位置的总时间则可以为每个位置发送一辆车因为这是满足所
Python 中的参数命名约定

对于形式参数密切相关的函数例如 def add two numbers n1 n2 return n1 n2 def multiply two numbers n1 n2 return n1 n2 如上所示为两个函数中的参数指定相同的名
具有动态特性的 Python 嵌套作用域

需要帮助理解以下句子PEP 227 http www python org dev peps pep 0227 和Python 语言参考 http docs python org reference executionmodel html
Scikit-learn：如何获得 True Positive、True Negative、False Positive 和 False Negative

我的问题我有一个数据集它是一个很大的 JSON 文件我读取它并将其存储在trainList多变的接下来我对其进行预处理以便能够使用它完成后我开始分类我用kfold交叉验证方法以获得平均值准确性并训练分类器我做出预测并获
如何将返回列表的 Celery 任务链接到一个组中？

我想从 Celery 任务返回的列表创建一个组以便对于任务结果集中的每一项一个任务将添加到该组中这是一个简单的代码示例来解释用例这应该是上一个任务的结果 celery task def get list amount In rea
匹配字典集。最优雅的解决方案。 Python

给定两个字典列表新的和旧的字典在两个列表中表示相同的对象我需要找到差异并生成新的字典列表其中仅包含新字典中的对象和旧字典中的更新属性例子 list new id 1 name bob desc cool guy id 2 name
ModuleNotFoundError：没有名为“pandas.io.formats.csvs”的模块

我正在尝试创建一个简单的 csv dataframe to csv psv file name encoding utf 8 header True sep doublequote True quoting csv QUOTE ALL in
这个 Python 字符串切片语句中的两个冒号的用途是什么？

例如 str hello str 1 3 我在 Python 文档中哪里可以找到它 in 序列描述 http docs python org library stdtypes html index 510 s i j k slice of
在 Django 视图中访问其他项目中的模型导致“表不存在”错误

基地项目结构 baseproject baseapp models py class BaseModel models Model 其他项目结构 project app views py urls py 项目 app views py im
Django 模型表单中的必填字段

我有一个表格当我也不想要它们时会根据需要显示几个字段这是来自 models py 的表格 class CircuitForm ModelForm class Meta model Circuit exclude lastPaged d
标记 pandas 系列中连续的 True 元素组

我有一系列的 pandas 布尔值我想标记连续的 True 值组怎么可能做到这一点是否可以以矢量化的方式做到这一点任何帮助将不胜感激 Data A 0 False 1 True 2 True 3 True 4 False 5 Fal
Scapy TCP 校验和重新计算奇怪的行为

我正在尝试进行 TCP ACK 欺骗我从 pcap 文件中嗅探一个 ACK 数据包并在循环中发送它增加其 ACK 编号以及另一个选项字段嗅探部分预欺骗 from scapy all import from struct impor
Python Flask 不更新图像[重复]

这个问题在这里已经有答案了这里有一些关于图像的 Flask 问题但没有一个能解决我的问题我有一个应用程序可以创建图像保存它然后显示它一次它应该多次执行此操作每次更改图像时它应该加载新图像它不是它只显示与其显示的文件名关
openpyxl：为一系列 Excel 单元格分配值或应用格式而不进行迭代

我想应用特定格式或为一系列 Excel 单元格分配一个值而不需要迭代每个单元格我目前正在使用这个脚本 from openpyxl import Workbook from openpyxl styles import Font wb W

随机推荐

【脚本工具】python修改xml文件中类别的名称和删除指定的类别

功能能够删除xml中不需要的类别标签和替换制定的类别名称使用方法 1 修改origin ann dir 原始xml文件夹路径 2 修改new ann dir 保存新xml的文件夹路径 3 需要修改和删除的类别名称 usr bin en
按钮提交在url后添加字段_在输入字段上定向单击“清除”按钮（X）

按钮提交在url后添加字段 jQuery makes it easy to get your project up and running Though it s fallen out of favor in recent years it
:nth-of-child和:nth-of-type

nth of child 用法 nth of child n n可以为数字或者表达式例如2n 1 指的是奇数项介绍第n个孩子例如 div nth of child 1 等同于 div first of child div的第一个孩子
Hadoop的伪分布式运行模式

Hadoop运行模式包括本地模式伪分布式模式以及完全分布式模式 1 本地模式安装简单在一台机器上运行服务几乎不用做任何配置但仅限于调试用途没有分布式文件系统直接读写本地操作系统的文件系统 2 伪分布式模式在单节点上同时启
typescript—第七天，命名空间

没有命名空间时的问题先写一下这样代码用类的形式在index html中实现header content和Footer部分类似我们常说的模板在page ts文件里写出下面的代码 class Header constructor co
简述 RSA 加密算法实现过程

银行密码系统安全吗质数素数到底有啥用李永乐老师11分钟讲RSA加密算法 2018最新哔哩哔哩 bilibili 质数和欧拉函数公钥范围且
Python 爬虫学习笔记（十(4)）scrapy链接提取器CrawlSpider

CrawlSpider也可以这样用对每一个提取出的链接都调用某些操作创建项目 scrapy startproject 项目的名字跳转到scrapy文件夹的目录下创建爬虫文件语句和之前不同 scrapy genspider t cr
Java读取resource目录下图片插入excel导出

1 将图片放在resoure目录下 2 读取图片并插入excel private void monthContractRow1 Sheet sheet CellStyle style1 String language Workbook wo
ElementUI常用组件之布局组件

安装elementui npm i element ui S 配置ElementUI 1 main js中引入elementUI 共分三步走 a import element ui b import css文件 c use Element
jQuery中$ $()与$(document) this与$(this)三个的区别

是jquery专用的特殊符号 bai可以说所有dujquery函数的调用都是从开始的在jquery里面表示一zhi个选择器括号dao里面填写一定的表达式就可以选中你想要的元素 jquery的选择器除了能很好地遵循css的表达式外还额
Ubuntu 无法进行SSH连接，开启22端口

我们在VM中安装好Ubuntu 虚拟机后经常需要使用Xshell等工具进行远程连接但是会出现无法连接的问题原因是Ubuntu中默认关闭了SSH 服务 1 查看Ubuntu虚拟机IP地址命令 ifconfig 2 利用XShell等工
点击按钮改变颜色模型动画暂停继续功能

using System Collections using System Collections Generic using UnityEngine using UnityEngine UI using DG Tweening publi
C语言关键字必备练习题

1 作业标题 642 关于C语言关键字说法正确的是作业内容 A 关键字可以自己创建 B 关键字不能自己创建 C 关键字可以做变量名 D typedef不是关键字答案解析 C语言关键字 C语言定义的具有特定含义专门用于特殊用途的C语言
【c++】内存四区（代码区、全局区、栈区、堆区）

文章目录内存分区模型代码区全局区栈区堆区内存分区模型 c 程序在执行时将内存大方向划分为4个区域代码区存放函数体的二进制代码有操作系统进行管理全局区存放全局变量和静态变量以及常量栈区由编译器自动分配释放存放函数
C++ 产生随机数

推荐一个博客以下转载该博客部分内容主要代码 include
JSP、JSTL标签
02-JavaWeb之Servlet及相关知识点

一 Servlet 简介 Java Servlet 是运行在 Web 服务器 tomcat 或应用服务器上的程序它可以接收来自 Web 浏览器或其他 HTTP 客户端的请求并进行结果的响应使用 Servlet 可以收集来自网页表单的用
1064 Complete Binary Search Tree (30 分)

题目题目链接题解数据结构二叉排序树的中序遍历是单调递增的完全二叉树具有很好的顺序存储的性质利用中序遍历和递归先构造左子树再对根节点进行赋值再构造右子树我是fw 代码 include
【异常】 DevOps工具链SonarQube提示严重的错误，内容为Save and re-use this “Random“，需要使用SecureRandom替换Random

一报错内容二报错说明 2 1 Random和SecureRandom的区别 Random生成伪随机数这意味着这些数字并不是真正的随机数而是由算法生成的如果攻击者知道生成这些数字的算法那么Random生成的数字就可以被预测因此
scrapy中使用正确的xpath出现空列表问题

今天在使用scrapy框架爬取网页时使用正确的xpath来爬取时爬取的缺失空列表代码如下 coding utf 8 import scrapy class HaodfSpider scrapy Spider name haodf st

scrapy中使用正确的xpath出现空列表问题

scrapy中使用正确的xpath出现空列表问题 的相关文章

随机推荐

热门标签

scrapy中使用正确的xpath出现空列表问题的相关文章