Scrapy 中的嵌套选择器

2023-12-10

我无法按照 Scrapy 文档中的描述让嵌套选择器工作（http://doc.scrapy.org/en/latest/topics/selectors.html)

这是我得到的：

sel = Selector(response)
level3fields = sel.xpath('//ul/something/*')

for element in level3fields:
    site = element.xpath('/span').extract()

当我在循环中打印出“元素”时，我得到< Selector xpath='stuff seen above' data="u'< span class="something">text< /span>>

现在我遇到两个问题：

首先，在元素内，还应该有一个“a”节点（如<a href），但它不会显示在打印输出中，只有当我直接提取它时，它才会显示。这只是一个打印错误还是“元素选择器”没有保存 a 节点（不提取）
当我打印上面的“站点”时，它应该显示一个包含跨节点的列表。然而，事实并非如此，它只打印出一个空列表。

我尝试了多种更改的组合（在不同的地方有多个或没有斜杠和星号（*）），但没有一个让我更接近。

本质上，我只想获得一个嵌套选择器，它在第二步（循环）中为我提供跨节点。

有人有任何提示吗？

关于你的第一个问题，这只是一个打印“错误”。__repr__ and __str__选择器上的方法仅打印数据的前 40 个字符（表示为 HTML/XML 或文本内容的元素）。看https://github.com/scrapy/scrapy/blob/master/scrapy/selector/unified.py#L143

在你的循环中level3fields您应该使用相对 XPath 表达式。使用/span会寻找span直接在根节点下的元素，我猜这不是你想要的。

尝试这个：

sel = Selector(response)
level3fields = sel.xpath('//ul/something')

for element in level3fields:
    site = element.xpath('.//span').extract()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webcrawler

Scrapy

Scrapy 中的嵌套选择器的相关文章

min() arg 是一个空序列

我试图找到矩阵行中的最小元素但有两个条件 1 它必须 gt 0 2 并且这个点一定不能被访问 is visited k is False 我下一步正在尝试做 min x for x in matr sum i if x gt 0 if i
pydev 断点不起作用

我正在使用 python 2 7 2 sqlalchemy 0 7 unittest eclipse 3 7 2 和 pydev 2 4 开发一个项目我在 python 文件单元测试文件中设置断点但它们被完全忽略之前在某些时候
如何使用python登录页面，该页面需要服务器在第一次请求时响应会话ID？

我正在编写一个脚本来登录某个网页我使用 request 和 request session 模块来实现此目的在使用登录参数的第一个请求时服务器响应一个会话 ID 如何设置该会话 ID 以进一步登录到同一页面 url some url
Pytorch - 推断线性层 in_features

我正在构建一个玩具模型来获取一些图像并进行分类我的模型看起来像 conv2d gt pool gt conv2d gt linear gt linear 我的问题是当我们创建模型时我们必须计算第一个线性层的大小in features基
scrapy获取同一个类的第n个子文本

我附上了一张照片我面临的问题是获取同一类的第一个元素我想得到 adxHeader gt adxExtraInfo 1st one gt adxExtraInfoPart 1st one gt a text 我编写了以下代码但不起作用任
如何在 Python 2.4 CSV 阅读器中禁用引用？

我正在编写一个 Python 实用程序需要解析一个我无法控制的大型且定期更新的 CSV 文件该实用程序必须在仅提供 Python 2 4 的服务器上运行 CSV 文件根本不引用字段值但Python 2 4版本的csv库 http ww
Huggingface 变形金刚模块未被 anaconda 识别

我正在使用 Anaconda python 3 7 Windows 10 我尝试通过安装变压器https huggingface co transformers https huggingface co transformers 在我的环境
如何将 UPX 与 pyinstaller 一起使用？

如何将 UPX 与 pyinstaller 一起使用我正在关注文档我已经下载了UPX 我的文件如下所示 import csv import selenium import pandas print Hello 然后我运行 pyinsta
将数字转换为整数列表[重复]

这个问题在这里已经有答案了我该如何写magic下面的函数 gt gt gt num 123 gt gt gt lst magic num gt gt gt gt gt gt print lst type lst 1 2 3
Django“模型”对象不可迭代

我有一张表其中显示了已注册的员工我想根据他们的数据库生成一个简单的 HTML 页面其中包括他们的姓名 id 职称等为此我将一个 id 传递给视图以便它可以获取相应用户的详细信息并向我显示一切正常直到出现错误对象不可迭代下面
按字符串子字符串的列过滤 Pandas 数据框

我正在尝试使用列中的字符串值是数据框外部字符串的子字符串的条件来过滤数据框下面的例子 df a b c hello bye hello reference str hello there output a c 一种方法可能是使用正则表达式
python：UnboundLocalError：赋值前引用的局部变量“open”[重复]

这个问题在这里已经有答案了 def read lines readFileName readfile txt f open readFileName r contents f read and so on read lines 当我运行这个
从网站上抓取数字和详细信息的数据

我想从网站上抓取联系电话以及快递服务的相应详细信息我无法从所有快递服务中获取联系电话和其他详细信息例如姓名地址和评级我分析的数据位于脚本标签中请提出修复此问题的建议 import requests import pandas as
如何打印和显示子进程 stdout 和 stderr 输出而不失真？

也许有人可以帮助我解决这个问题我在 SO 上看到了许多与此类似的问题但没有一个问题同时处理标准输出和标准错误也没有处理像我这样的情况因此出现了这个新问题我有一个 python 函数它打开一个子进程等待它完成然后输出返回代码以
如何向 RetrievalQA.from_chain_type 添加内存？或者，如何向 ConversationalRetrievalChain 添加自定义提示？

如何向 RetrievalQA from chain type 添加内存或者如何向 ConversationalRetrievalChain 添加自定义提示在过去的两周里我一直在尝试制作一个可以通过文档聊天的聊天机器人因此不仅仅是
CryptoJS 和 Pycrypto 一起工作

我正在使用 CryptoJS v 2 3 加密 Web 应用程序中的字符串并且需要在服务器上使用 Python 对其进行解密因此我使用 PyCrypto 我觉得我错过了一些东西因为我无法让它工作这是JS Crypto AES enc
执行许多插入重复键更新错误：未使用所有参数

所以我一直在尝试使用 python 2 7 15 使用 mysql connector 执行此查询但由于某种原因它似乎不起作用并且总是返回错误并非所有参数都被使用表更新有一个主键即 ID 这是我尝试运行此 SQL 的查询 sql
Python 包安装：pip 与 yum，还是两者一起安装？

我刚刚开始管理 Hadoop 集群我们使用 Bright Cluster Manager 直至操作系统级别 CentOS 7 1 然后使用 Ambari 以及适用于 Hadoop 的 Hortonworks HDP 2 3 我不断收到安装
Python 对列表中的值求和（如果它存在于另一个列表中）

我有一个列表和一组 a list 1 2 2 1 1 1 b list 1 2 我正在寻找对应 b list 中的项目并将它们从 a list 中的值相加以便输出为 1 3 2 1 我尝试过的 sum 0 for i in a list
Python Pandas：向类 pandas.core.series.Series 添加方法

我想在 Python 中处理时间序列因此 Pandas 的 Series 类非常完美并且有很多有用的方法现在我想添加一些我需要但未实现的方法例如假设我有兴趣添加一个方法该方法将两次一值附加到时间序列中让我们调用该方法appen

随机推荐

Qt 对话框窗口的动态翻译

我正在创建一个 Qt 应用程序并添加了动态翻译我按照以下示例进行操作 http www qtcentre org wiki index php title Dynamic translation in Qt4 applications
SQL Server：CROSS JOIN 和 FULL OUTER JOIN 之间有什么区别？

SQL Server 中的 CROSS JOIN 和 FULL OUTER JOIN 有什么区别它们是相同还是不同请解释什么时候会使用其中任何一个 A CROSS JOIN在两个表之间生成笛卡尔积返回所有行的所有可能组合它没有ON
ASP.Net 4.5 模型绑定按导航属性排序

All 我有一个包含以下列的网格视图分页效果很好但排序不行每次我单击类别列按类别排序时我都会收到此错误未为类型 ESA Data Models Entity Project 定义实例属性 Category CategoryName
操作员删除签名意外行为[重复]

这个问题在这里已经有答案了 stroustroup 在他的 C 编程语言第 4 版一书中提到可以通过编写具有以下签名的全局函数来重载全局运算符 new delete void operator new size t use for i
使用 Deriv 包求导 wrt 向量

我正在探索 autodiff 我想使用Deriv用于计算函数对向量的导数我写的 library numDeriv library Deriv h function x c 1 2 x grad h c 1 2 ok 1 1 2 dh De
使 Console.ReadLine 始终位于最后一行

我有一个用 C 编写的应用程序它通过 while true 循环和 Console ReadLine 连续获取用户的命令我也有各种后台操作通过控制台报告查看这个简单的例子 class Program static void Main
在单独运行的 Python 脚本之间传递数据

如果我有一个正在运行的 python 脚本带有完整的 Tkinter GUI 和所有内容并且我想将它正在收集的实时数据内部存储在数组等中传递给另一个 python 脚本那么最好的方法是什么我不能简单地将脚本 A 导入脚本 B 因
TSQL 函数计算指定日期的 30 个工作日日期 (SQL Server 2005)

TSQL 函数计算指定日期的 30 个工作日日期 SQL Server 2005 输入参数为日期和工作日数输出将是计算日期这不包括周六周日节假日和休息日即如果假期适逢周末但在假期后的周五或周一举行对于假期我们有一个表格其
EF Code First - 一对一可选关系

我想使用 EF Code First 在现有数据库中映射可选的一对一关系简单架构 User Username ContactID Contact ID Name 显然 ContactID 加入到 Contact ID 中 ContactI
动态和/或递归读取并合并两个 Yaml 文件

这个问题已经得到解答用于合并两个 yaml 的顶级 map string interface 值但是是否可以合并两个yaml文件 A 没有定义结构体和 B 具有多个未知级别的嵌套我尝试解组到同一个空白界面但覆盖 yaml 完全被擦除
自定义 JUnit 报告？

我正在使用 ant 任务 junit 和 junitreport 来运行我的 JUnit 测试并在最后生成报告 gt 单元测试结果是否有一些简单的方法可以以某种方式扩展此输出以获得报告中显示的更多信息例如添加一个附加列其中包含指向测
ListView 绑定中的 SelectedItem

我是 WPF 新手在我的示例应用程序中我使用 ListView 来显示属性的内容我不知道如何将ListView中的SelectedItem绑定到属性然后绑定到TextBlock 窗口 xaml
我可以让 WatchKit 应用程序在 Apple Watch 的后台运行吗？

我想知道是否有办法让我的 WatchKit 应用程序在后台运行或者我是否可以对其进行编程以在满足特定条件后启动即从非活动状态转移到活动状态当 WK 应用程序打开并处于活动状态时我的应用程序可以完美运行甚至当 iPhone 处于睡眠
MySQL：多行作为逗号分隔的单行

我有两个表 DISH 和 DISH HAS DISHES Dish 表包含所有菜肴 Dish has dishes 表与 Dish 表具有一对多关系 IE 一个菜可以有多个菜例如 DISH dish id dish name 1 dish
获取一行sql中具有最大值的列名

我的数据库中有一个表其中存储新闻文章的类别每次用户阅读文章时都会增加相关列中的值像这样现在我想执行一个查询在其中可以获得每条记录的 4 个最高值的列名例如对于用户 9 它将返回我尝试了很多事情搜索了很多但不知道该怎么做
在具有有序因子的 data.frame 上使用 apply 与排名和顺序时出现奇怪的行为

我发现了一些奇怪的行为apply 假设我有一个任意有序变量矩阵 set seed 4 x lt ordered sample 1 10 size 4 replace T y lt ordered sample 1 10 size 4 rep
类似 Ruby 的问题：让这个函数更短（ActionScript 3）

我刚刚编写了这段极其冗长的代码将 2 这样的数字转换为 02 您能否缩短此功能保持功能 public static function format n int minimumLength int String var retVal St
迭代到大范围时出现 Python 内存错误

total 0 x 2 32 for i in range x total total i print total 我得到了MemoryError循环到某个范围时2 32 有没有办法在不耗尽内存的情况下进行迭代 This is what h
typescript 中 switch 的替代方案

我正在尝试为我的开关盒寻找任何替代方案因为它很长我有嵌套的开关盒看起来像这样 switch currentTab case pending switch status case approved case denied break c
Scrapy 中的嵌套选择器

我无法按照 Scrapy 文档中的描述让嵌套选择器工作 http doc scrapy org en latest topics selectors html 这是我得到的 sel Selector response level3field

Scrapy 中的嵌套选择器

Scrapy 中的嵌套选择器 的相关文章

随机推荐

热门标签

Scrapy 中的嵌套选择器的相关文章