如何在python中使用scrapy获取直接父节点？

2023-12-31

我是新来的scrapy。我想从网络上抓取一些数据。我得到了如下所示的html文档。

dom style1:
<div class="user-info">
    <p class="user-name">
        something in p tag
    </p>
    text data I want
</div>

dom style2:
<div class="user-info">
    <div>
        <p class="user-img">
            something in p tag
        </p>
        something in div tag
    </div>
    <div>
        <p class="user-name">
            something in p tag
        </p>
        text data I want
    </div>
</div>

我想获取数据我想要的文本数据，现在我可以使用css or xpath selector通过检查它是否存在来获取它。但我想知道一些更好的方法。例如，我可以获得 cssp.user-name首先，然后我得到它是父母，然后我明白了div/text()，并且我想要的数据始终是text() of the p.user-name的直系父级div，但问题是，我怎样才能得到直接父母p.user-name?

使用 xpath，您可以在各个方向（父级、同级、子级等）遍历 xml 树，而 css 不支持此功能。
对于您的情况，您可以使用 xpath 获取节点的父节点..父符号：

//p[@class='user-name']/../text()

解释：
//p[@class='user-name'] - find <p>具有类值的节点user-name.
/..- 选择节点的父节点。
/text()- 选择当前节点的文本。

该 xpath 应该适用于您所描述的两种情况。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在python中使用scrapy获取直接父节点？的相关文章

我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
从零开始的 numpy 形状意味着什么

好的我发现数组的形状中可以包含 0 对于将 0 作为唯一维度的情况这对我来说是有意义的它是一个空数组 np zeros 0 但如果你有这样的情况 np zeros 0 100 让我很困惑为什么这么定义呢据我所知这只是表达空数组的
如何计算numpy数组中元素的频率？

我有一个 3 D numpy 数组其中包含重复的元素 counterTraj shape 13530 1 1 例如 counterTraj 包含这样的元素我只显示了几个元素 array 136 129 130 103 102 101 我
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
Pandas 根据 diff 列形成簇

我正在尝试使用 Pandas 根据表示时间以秒为单位的列中的差异来消除数据框中的一些接近重复项例如 import pandas as pd numpy as np df pd DataFrame 1200 1201 1233 1555
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1
Scrapy Spider不存储状态（持久状态）

您好有一个基本的蜘蛛可以运行以获取给定域上的所有链接我想确保它保持其状态以便它可以从离开的位置恢复我已按照给定的网址进行操作http doc scrapy org en latest topics jobs html http d

随机推荐

在组件测试规范中模拟BehaviorSubject

我正在尝试模拟组件测试中的服务依赖项该服务有一个我正在尝试模拟的行为主题属性我的服务如下 export class DatePickerService public date moment Moment public selectedD
Elm：将包含单个元素的 JSON 数组解码为字符串

看过类似的东西但找不到确切的问题我有一个从服务器端验证返回的 JSON 如下所示 field field name messages message message 我想做的是将其解码为 elm 记录例如 field String m
从两个枚举类创建复合类型，为 STL 映射做好准备

我想创建一个由两种类型组成的复合类型enum classes enum class Color RED GREEN BLUE enum class Shape SQUARE CIRCLE TRIANGLE class Object Colo
requirejs 中的把手加载不成功

paths jquery libs jquery jquery min underscore libs underscore underscore min backbone libs backbone backbone optamd3 mi
编写泛型类来处理内置类型

也许不太实用但仍然很有趣有一些关于矩阵乘法的抽象问题我快速实现了一个整数矩阵然后测试了我的假设在这里我注意到如果我偶尔想将它与十进制或双精度一起使用那么仅 int 矩阵不好当然我could尝试将所有内容都转换为双倍但这不
pytest配置问题（从nosetests（71秒）到pytest（1536秒）的过渡）

问题 pytest 由策略决定运行相同的测试套件 585 个测试需要 1536 秒nosetest 运行时间为 71 秒 The pytest ini文件是 pytest python files tests py tests py n
C# 捕获异常

我应该在 try catch 中使用哪个异常来找出用户何时以错误的格式输入了数据 Example try string s textBox1 Text User inputs an int Input error MessageBox Sh
如何获取wiki模板的内容？

有谁知道如何访问页面内的模板主体我熟悉返回所有现有模板列表的 API 但是我如何才能访问模板的主体呢有这方面的API吗目前我只看到一种可能的方法手动解析它我错了吗您可以使用扩展模板 http www mediawiki org
Flask-restx 请求解析器返回 400 Bad Request

我在用着flask restx在我的 Flask 应用程序中但每次我使用 swagger ui 发出请求时它都会返回 400 http 127 0 0 1 5000 api user register password test ema
如何打印方法的返回值

我正在研究一种随机数方法来从数组中选择随机元素但是我不知道如何打印返回值getRandom 方法这是代码 import java util Random public class CardDeck public static void
“MonadIO m”和“MonadBaseControl IO m”之间有什么区别吗？

功能运行TCP客户端 http hackage haskell org package network conduit 1 0 0 docs Data Conduit Network html v runTCPClient from 网络管
使用“Convert.ChangeType()”将 System.String 一般转换为任何复杂类型

我尝试将用户输入一般转换为简单或复杂类型 class Program static void Main string args Console WriteLine Welcome please provide the following i
如何在 SQL 2005 上使用 FOR XML PATH 时保留与号 (&)

有什么技巧可以防止 SQL Server 将等字符实体化吗我正在尝试在 XML 文件中输出 URL 但 SQL 希望将任何替换为 amp 进行以下查询 SELECT http foosite com RTRIM li imageSto
如何将多个属性绑定到 Angular 5 组件？

我有一个组件toolbar与模板 div class toolbar item a href item label a div 我想绑定一个数组item options to an A元素如何使用 Angular 5 做到这一点 cons
从 IJulia 输出中删除科学记数法？

How do I remove scientific notation from Jupyter IJulia outputs and only get the raw floating point number 您可以使用 printf宏
上下文相关的标记化是否需要词汇语法中的多个目标符号？

根据ECMAScript 规范 https tc39 es ecma262 sec ecmascript language lexical grammar 词法输入的识别有几种情况元素对句法语法上下文敏感即消耗输入元素这需要多个目标
如何解析包含 javascript 代码的 html

如何解析大量使用 javascript 的 html 文档我知道python中有一些库可以解析静态xml html文件我基本上正在寻找一个程序或库甚至是firefox插件来读取html javascript 执行javascript
添加文本框值并使用 javascript 显示它

我正在尝试使用 javascript 添加几个文本框的输入值并在下面显示总数如何添加并保留计算后显示的总和我不是 JavaScript 专家下面是一个向您展示如何执行此操作的示例
Angular js 对本地化的支持 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我尝试在 AngularJS 中查找支持多种语言的文档但没有成功支持本地化吗看看角度翻译 htt
如何在python中使用scrapy获取直接父节点？

我是新来的scrapy 我想从网络上抓取一些数据我得到了如下所示的html文档 dom style1 div class user info p class user name something in p tag p text data

如何在python中使用scrapy获取直接父节点？

如何在python中使用scrapy获取直接父节点？ 的相关文章

随机推荐

热门标签

如何在python中使用scrapy获取直接父节点？的相关文章