XPath语法：如何根据父div获取子div信息

2024-02-27

我的 scrapy 项目的结果如下所示：

<div class="news_li">...</div>
<div class="news_li">...</div>
<div class="news_li">...</div>
...
<div class="news_li">...</div>

每个“news_li”类如下所示：

 <div class="news_li">
    <div class="a">
        <a href="aaa">
            <div class="a1"></div>
        </a>
    </div>
    <a href="xxx">
        <div class="b">
            <div class="b1"></div>
            <div class="b2"></div>
            <div class="b3"></div>
        </div>
    </a>
</div>

我试图通过以下命令在 scrapy shell 中一次提取一个信息：

response.xpath("//div[@class='news_li']")[0].xpath("//div[@class='a1']").extract()
response.xpath("//div[@class='news_li  ']/descendant::div[@class='a1']").extract()

但是这些命令返回我所有其他“news_li”类中的所有“a1”类

我有两个问题：

如何一次获取一个子 div 信息。
我如何获得<a href="aaa"> </a> and <a href="xxx"> </a>分别地？（区别在于第一个是包裹在父 div 中，第二个是单独的。）

非常非常感谢。

编辑：具体来说，如何提取取决于父/根节点的信息？我抬头看XPath 轴 https://www.w3schools.com/xml/xpath_axes.asp我尝试使用“后代”，但它不起作用。

您可以尝试以下方法

response.xpath("(//div[@class='news_li'])[0]").xpath("//div[@class='a1']").extract()

直接在 XPath 中使用 [0]。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

html

xpath

Scrapy

XPath语法：如何根据父div获取子div信息的相关文章

Bootstrap 按钮的检查状态

我想在 Bootstrap 3 0 2 中设置组复选框的选中状态 docs http getbootstrap com javascript buttons html div class btn group div
如何将webview内容划分为多个页面

我必须使用 Android 上的 PdfDocument 从 webView 创建 PDF https developer android com reference android graphics pdf PdfDocument htm
该脚本在 IE 中不起作用。我该如何修复它？

有一个脚本可以根据用户的显示器屏幕分辨率更改页面模板但是它在 IE 中不起作用请告知如何修复它 table align center tr td head td tr tr td nbsp td td nbsp td td nbsp
无法使用python和beautifulsoup抓取网页中的某些href

我目前正在使用 Python 3 4 和 bs4 爬取网页以收集塞尔维亚在里约 2016 年的比赛结果所以网址here http rio2016 fivb com en volleyball women teams srb serbia
Javascript：刷新父页面而不完全重新加载

用户通过 fancybox javascript 弹出窗口登录后我希望重新加载父页面以便他们可以访问登录的功能目前我正在这样做 a href class continue Continue a 这很好用但唯一的问题是它完全重新加载整
通过按 Enter 键提交表单而不使用提交按钮

好吧我试图通过按 Enter 键来提交表单但不显示提交按钮如果可能的话我不想涉足 JavaScript 因为我希望一切都能在所有浏览器上运行我知道的唯一 JS 方式是使用事件现在的表格看起来像这样
如何访问 javascript 文件中的查询字符串

可能的重复如何获取查询字符串值 https stackoverflow com questions 901115 how can i get query string values 可以说我们有一个
如何更改谷歌图表标题字体大小？

如何更改谷歌图表中标题的字体大小 var options title My Daily Activities backgroundColor transparent is3D true 在这样的选项中使用 titleTextStyle va
有没有办法同步ajax调用

这可能是一个微不足道的问题但我想知道是否有办法以某种方式知道最后一个 ajax 调用何时完成假设我有 3 个异步 ajax 调用 ajax type GET datatype json url
xQuery LIKE 运算符？

有没有办法以与 SQL 相同的方式使用 XQuery 执行 LIKE 操作我不想构造一些 startswith endswith 和 contains 表达式我想要实现的目标的示例 for x in user where x first
从 HTML 字符串中解析和选择

使用 ajax 调用我返回了页面的partialView HTML 但在显示它之前我希望从主 div 中提取信息如果我创建一个浮动窗口该数据只是大小信息 Code div class window details more data
如何在 Android 上的 PhoneGap 中设置音频播放速率？

有谁能够让音频播放速率在 Android 上工作吗媒体播放器似乎覆盖忽略音频标签的播放速率属性 None
将 Regex 对象分配给 html 输入模式

我需要以编程方式将正则表达式对象分配给输入元素模式属性以下是我当前的实现 var regex d 5 element attr pattern regex toString slice 1 1 有没有更好的方法来做到这一点而不需要字符串操
多行有多个提交按钮，我应该为每个按钮制作一个表单吗？

我列出了大约 20 行每行代表一个订单每行需要有 3 个按钮每个按钮单击将执行不同的操作我有 3 个操作来处理每个按钮发布请求我只是不确定如何为每个按钮设置 Html 表单 tr td td tr
在问题内显示内联块文本

我一直在尝试显示内联块如果我没有在 div 中添加任何内容一切都会很好但是当我这样做时 div 会折叠起来我不知道确切的原因任何想法 https jsfiddle net giancorzo ebqoptbd https jsfi
从选择 onChange 调用 javascript 函数 [重复]

这个问题在这里已经有答案了所以我有一个简单的 HTML 选择框和一个 javascript 警报功能我希望选择框有一个 onchange 事件来调用 javascript 警报函数这是我到目前为止所拥有的 HTML div Type
使用 jQuery inputmask 插件范围 0-100

如何创建 0 到 100 范围内的掩码 document ready function masked inputmask 您可以使用jquery inputmask regex extensions js为了那个原因你可以找到带有所有扩展
Bootstrap 响应式表格在 iOS 设备上无法垂直滚动

这就是我所拥有的 div class table responsive table class table style background transparent table div 我正在使用以下 bootstrap css 文件 ht
如何添加剧作家的等待时间

我正在将 scrapy 与 playwright 集成但发现自己在单击后添加计时器时遇到困难因此当我点击后截取页面的屏幕截图时它仍然挂在登录页面上如何集成计时器以便页面等待几秒钟直到页面加载选择器 onetrust close
将 html 文本框的值分配给 div 的标题

line 1

随机推荐

测量查询性能：“执行计划查询成本”与“所用时间”

我正在尝试确定两个不同查询的相对性能并且有两种可用的方法来衡量它 1 运行两个查询并对每个查询计时2 运行两者并从实际执行计划中获取查询成本这是我运行的用于计时查询的代码 DBCC FREEPROCCACHE GO DBCC DROP
msi 安装程序运行两次

我有一个通过 msi 安装的程序 msi 是使用 VS2008 部署项目构建的并具有在安装完成后运行该程序的自定义操作一旦 msi 运行我可以简单地更新版本号生成新的产品代码并且 msi 可以在同一台 PC 上再次运行但是我想
Fancybox 宽度不适用

使用以下 JS 宽度不会被调整我使用的时候没有调整 750 or 750px a city prompt fancybox width 750 我已经发布在fancybox http fancybox net api论坛讨论过这个问题但
Magento 扁平化产品

尝试启用并重新索引产品平面数据时从 magento 收到错误平面目录模块的可过滤和或可排序限制为 64 个属性目前有521个请减少数量可过滤可排序的属性以便使用此模块我不明白这意味着什么以及 magento 从哪里获取这个
为什么选择下拉菜单不允许我单击某个项目 IE，但在 Firefox、Chrome 等中却可以正常工作？

我正在使用jquery mega下拉菜单插件 http www designchemical com lab jquery mega drop down menu plugin examples 在其中一个菜单中我想添加一个下拉框它在
如何在flutter中分割dart类？

我做了以下测试但它不起作用 main dart class Test static const a 10 final b 20 final c a 1 part dart part of main dart class Test fina
如何在 Fortran 中将子例程名称作为参数传递？

将子例程名称作为参数传递的语法是什么示意图 call action mySubX argA argB subroutine action whichSub argA argB call subroutine whichSub argA a
嵌入式 Tomcat 不提供静态内容

我正在使用以下内容基于this https stackoverflow com questions 640022 howto embed tomcat 6 创建嵌入式 Tomcat 服务器 File catalinaHome new Fi
在 Delphi 7 中，我可以设置“调试”和“发布”模式吗？

在大多数现代 IDE 中您可以拥有调试和发布构建配置并且可以在它们之间快速切换在Delphi 7中这似乎不可能我必须进入项目设置并手动切换优化和所有调试信息如果有一个插件或类似的插件可以帮我处理这个问题那就太好了有人
自定义错误页面，当发生 Http 错误而不更改 url 时

当 Http 错误发生时如何在不更改 url 的情况下显示自定义错误页面当发生 Http 错误时如何显示客户自定义错误页面而不路由到另一个 URL 下面的方法不会使用重定向它将返回您的自定义错误正确的 httpstatus 代码作
垂直对齐：中间不起作用

CSS 属性vertical align middle在此示例中不起作用 HTML div span class twoline Two line text span span class float Float right span di
创建 NSDate Monotouch

我试图获取一个日期字符串并将其转换为特定的 NSDate 例如 1981 年 7 月 1 日但我没有看到设置日期的方法有谁知道如何做到这一点也许将 DateTime 对象转换为 NSDate 最简单的方法是从 DateTime 设置它
sim800L GPRS 发布请求

我一直在研究 LoNet 迷你 GSM 模块 SIM800L 并将其与 Arduino 连接我已插入 SIM 移动卡并且可以连接互联网通过串行监视器我可以毫无问题地与它通信但是当向网络服务器页面发出 GET 或 POST 请求时它
在AS3中创建链表

如何在actionScript 3 0 中创建链接列表我有一个项目我应该从用户那里获取一些整数并通过树算法对它们进行排序例如堆排序并在闪存中显示树我认为我应该使用链表通过树算法对数据进行排序所以有人知道如何创建一个可以插入节点
无法加载文件或程序集“Microsoft.SqlServer.Types，Version=10.0.0.0”或其依赖项之一

最近我开始使用 SSMS 2017 v17 5 在我的 MVC 应用程序中我收到以下错误 Could not load file or assembly Microsoft SqlServer Types Version 10 0 0 0
我需要一个工具来查找单个文本文件或一组文本文件中重复或相似的文本块

我想自动将重复或类似的 C 代码移动到函数中这必须在 Linux 下工作您的问题的一个子集检测重复代码 Try PMD https pmd github io 重复的代码可能很难找到尤其是在大型项目中但 PMD 的复制粘贴检测器
比较器的等价恒等运算

是否存在可能的身份表示Comparator那可能存在吗在寻找简化代码的过程中删除Java中重载的方法 https stackoverflow com questions 58782150 removing overloaded metho
根据另一个 JSON 键的值将 JSON 解码为类

我正在尝试使用返回 JSON 文档的 REST API 该文档的结构取决于名为的属性的值type 我将主类定义如下 Serializable class Interaction val type Byte val data Interact
Locust.io 负载测试出现“连接中止 BadStatusLine”错误

我正在使用 Locust io 来加载测试应用程序我会收到一个随机错误我无法查明问题 1 ConnectionError ProtocolError Connection aborted BadStatusLine 2 Connecti
XPath语法：如何根据父div获取子div信息

我的 scrapy 项目的结果如下所示 div class news li div div class news li div div class news li div div class news li div 每个 news li 类

XPath语法：如何根据父div获取子div信息

XPath语法：如何根据父div获取子div信息 的相关文章

随机推荐

热门标签

XPath语法：如何根据父div获取子div信息的相关文章