xpath：字符串操作

2023-12-10

因此，在我的 scrapy 项目中，我能够隔离一些特定字段，其中一个字段返回类似以下内容：

[Rank Info] on 2013-06-27 14:26 Read 174 Times

通过表达式选择：

(//td[@class="show_content"]/text())[4]

我通常进行后处理来提取日期时间信息，即2013-06-27 14:26现在，由于我对 xpath 子字符串操作有了更多了解，我想知道是否有可能首先提取该信息，即在 xpath 表达式本身中？

Thanks,

到目前为止，在所有其他答案中，不仅/text()没有帮助，它是潜在（甚至可能）的问题。对于档案的读者来说，他们应该意识到使用时遇到的问题/text()在函数参数的地址中。在我的专业工作中，解决问题的要求非常（非常！）text()直接地。

我正在谈论其他帖子中的这些表达方式：

substring-after(//td[@class='show_content']/text(), 'on ')

and

substring(//td[@class='show_content']/text(), 16, 10)

我们先把“//”在不该使用的时候使用的问题放在一边。在 XSLT 1.0 中只有第一个<td>将被考虑，并且在 XSLT 2.0 中，第一个参数的多个单例将触发运行时错误。

如果它是输入，请考虑此修改后的 XML：

   <td>[<emphasis>Rank Info</emphasis>] on 2013-06-27 14:26 Read 174 Times</td>

...其中“ on ”位于第二个文本节点上（第一个文本节点中有“[”）。在 XSLT 1.0 中，两个表达式都返回空字符串。在 XSLT 2.0 中，这两个表达式都会触发运行时错误。

如果它是输入，请考虑此修改后的 XML：

   <td>[Rank Info]<emphasis> on </emphasis>2013-06-27 14:26 Read 174 Times</td>

在这两种情况下text()的孩子<td>不要包含字符串“on”，因为它是后代文本节点，而不是子文本节点。

那么，在这两个表达式中，以下内容将适用于两个修改后的输入，因为此时处理的是元素的值，而不是文本节点的值。元素的值是所有后代文本节点的串联。

So:

substring-after(td[@class='show_content'], 'on ')

and

substring(td[@class='show_content'], 16, 10)

将作用于元素中找到的整个字符串值。但如果有多个，即使上面的方法也会出现基数问题<td>所以表达式无论如何都必须重写。

我的观点是，使用text()引起了我的注意，我告诉我的学生他们是否认为需要使用text()在 XPath 表达式中，他们需要重新思考，因为在大多数情况下他们不需要。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xpath

Scrapy

xpath：字符串操作的相关文章

关于使用Python启动SSH隧道的问题

我在从用 Python 编写的 HTTP RPC 服务器启动 SSH 隧道时遇到了麻烦基于Python的BaseHTTPServer 有一个用Python编写的简单的HTTP RPC服务器作为其中一项服务的一部分我想启动从 RPC 服
使用 Marshmallow 中的数据更新行 (SQLAlchemy)

我正在使用 Flask Flask SQLAlchemy Flask Marshmallow marshmallow sqlalchemy 尝试实现 REST api PUT 方法我还没有找到任何使用 SQLA 和 Marshmallow
错误只有 size-1 数组可以转换为 Python 标量

我有这个代码 for a in data X for i in a if not i isdigit x hash i data X column row x row row 1 row 0 column column 1 desired
如何将经度和纬度转换为国家或城市？

我需要将经度和纬度坐标转换为国家或城市 python中有这样的例子吗提前致谢我使用谷歌的API from urllib2 import urlopen import json def getplace lat lon url http
OpenCV Python 删除图像中的某些对象

我正在使用带有 opencv 和 numpy 的 python 来检测天文中的星星例如这个1 https i stack imgur com AKwEJ jpg图片使用模板匹配我可以用阈值检测星星单击 2 2 https i sta
按 ListProperty (NDB) 对查询进行排序

如何按 ListProperty 对查询进行排序该模型 class Chapter ndb Model title ndb StringProperty required True version ndb IntegerProperty
如何编写高效的配对算法？

我需要一种算法的帮助该算法可以有效地将人们分组并确保以前的配对不会重复例如假设我们有 10 位候选人 candidates 0 1 2 3 4 5 6 7 8 9 并假设我们有一个先前匹配的字典这样每个键值对即candidate
01 无效令牌[重复]

这个问题在这里已经有答案了嘿学习 python3有一段时间了遇到字典和dictionary name get 方法并尝试获取随机键值问题 data data get key 1 它有效并且返回 1 但如果我使用data get ke
Python 中的二进制相移键控

我目前正在编写一些代码以使用音频转换通过激光传输消息文件和其他数据我当前的代码使用 python 中 binascii 模块中的 hexlify 函数将数据转换为二进制然后为 1 发出一个音调为 0 发出不同的音调这在理论上是
用于打印 C/C++ 文件的所有函数定义的 Python 脚本

我想要一个 python 脚本来打印 C C 文件中定义的所有函数的列表 e g abc c定义两个函数为 void func1 int func2 int i printf d i return 1 我只想搜索文件 abc c 并打印其中
代理阻止网络套接字？如何绕行

我有一个用 Python 编写的正在运行的 websocket 服务器来自https github com opiate SimpleWebSocketServer https github com opiate SimpleWebSoc
Python：如何重构循环导入

我有件事可以帮你做engine setState
打印一个 Jupyter 单元中定义的所有变量

有没有一种更简单的方法来以漂亮的方式显示单个单元格中定义的所有变量的名称和值我现在做的方式是这样的但是当有30个或更多变量时我浪费了很多时间您可以使用whos http ipython readthedocs io en stable
Docker：通过 Gunicorn 运行 Flask 应用程序 - Worker 超时？表现不佳？

我正在尝试创建一个用Python Flask编写的新应用程序由gunicorn运行然后进行dockerized 我遇到的问题是 docker 容器内的性能非常差不一致我最终得到了响应但我不明白为什么性能会下降有时我会在日志中看到
如何在 Spyder IDE 中安装 Selenium 包

我刚刚在工作中安装了 Spyder IDE 仅 Spyder 不是整个 Anaconda 并且希望使用 FireFox 自动化我的工作我的问题是如何安装 Selenium 软件包 I figured it out Here is ins
Scrapy - 不会爬行

我正在尝试运行递归爬行由于我编写的爬行不能正常工作因此我从网络上提取了一个示例并进行了尝试我真的不知道问题出在哪里但是爬行没有显示任何错误谁能帮我这个另外是否有任何逐步调试工具可以帮助理解蜘蛛的爬行流程非常感谢任何与此相关的
如何在包更新之间保留数据文件？

我正在使用data files的论证setuptools setup 将配置文件安装到 etc和用户主目录但是更新包pip install
对 pandas 数据框中的每一列应用函数

我如何以更多的熊猫方式编写以下函数 def calculate df columns mean self df means for column in df columns columns tolist cleaned data self
升级后 pip 损坏

我做了 pip install U easyinstall 然后 pip install U pip 来升级我的 pip 但是当我尝试使用 pip 时我现在收到此错误 root d8fb98fc3a66 which pip usr lo
在 pip 中为 Flask 应用程序构建 docker 映像失败

from alpine latest RUN apk add no cache python3 dev pip3 install upgrade pip WORKDIR backend COPY backend RUN pip no cac

随机推荐

管理 vba 函数中的典型 Excel 公式错误

我正在写一些vba函数特别是我正在重写 VLOOKUP 在此 MY VLOOKUP 中我有两个布尔变量 1 error range 如果公式参数中传递的范围无效则为真 2 not ava 没有结果则为true VLOOKUP结果为 N
标签中的上标文本

是否可以在 Xamarin Forms 中为标签添加上标在 HTML 中我会使用
Java、谷歌集合库； AbstractIterator 的问题？

我正在使用 Google Collections 库抽象迭代器实现一个生成器我在做的过程中遇到了一个问题我已将其简化为更基本的类型并重现了该问题对于通过 Iterable 从 1 计数到 numelements 的作用来说这种减少显
如何在我的网站上添加 Google 地图？

我有一个表单我想添加一个选择位置选项我该如何做到这一点以及如何将图钉放置为所选位置您可能需要考虑使用谷歌地图 API as 戴维克已经建议了以下示例可能会帮助您入门您需要做的就是更改 JavaScript 变量userLoc
根据部分文件名批量创建文件夹并将文件移动到该文件夹中

我的一个文件夹中有 160 万个 PDF 文件这些文件的命名都类似于 LAST FIRST 7 24 1936 Diagnostic Topography 11 18 10 1 pdf LAST FIRST 7 24 1936 Glas
批处理：添加 unicode 标头或如何添加十六进制值或任何其他方法解决此问题？

我有一个批处理脚本它使用拖放操作并根据拖放的文件文件夹的文件名创建一些 html 代码和 chcp 65001 我用这个来写unicode 一切都很好至少在记事本编辑器中是这样而浏览器只显示垃圾当我在记事本中重新保存文件时该文
使用 Pandas 来 pd.read_excel() 读取同一工作簿的多个工作表

我有一个很大的电子表格文件 xlsx 我正在使用 python pandas 处理它碰巧我需要来自该大文件中两个选项卡工作表的数据其中一个选项卡包含大量数据另一个选项卡只有几个方形单元格当我使用pd read excel on
将 ssh -V 保存到变量

我正在尝试自动测试从 72 个远程服务器返回到中央服务器的无密码 ssh 我有中央服务器无密码 ssh 可以连接到 72 台服务器但需要它从它们返回到中央服务器 72 台服务器有两个 ssh 版本之一 OpenSSH 4 3p2 Open
通过单击外部关闭 div

我想通过单击其中的关闭链接来隐藏 div or单击该 div 之外的任意位置我正在尝试执行以下代码它会通过正确单击关闭链接来打开和关闭 div 但如果我无法通过单击 div 外部的任何位置来关闭它 link click function
如何将元素添加到通配符通用集合中？

为什么此 Java 代码会出现编译器错误 1 public List
Typescript 文件无法在 Visual Studio 2015 的 Angular 2 上编译

我跟着扎克的回答并创建新的 VS 2015 NET 5 项目并使用 Typescript 运行 Angular 2 看起来它正在工作但有一个小问题我的应用程序 ts import Component from angular2 core
以编程方式禁用移动网络

我正在开发一个应用程序用户可以在单击按钮时启用禁用移动网络我用谷歌搜索了这个问题但我只得到了飞行模式的解决方案在飞行模式下 WI FI 和蓝牙也被禁用我不希望他们通过使用飞行模式概念来禁用我只想禁用移动网络以编程方式实现它的
如何在 for 循环中为文本添加动画效果？

我正在尝试创建一个侧边栏动画效果 div class sidebar description sidebar personal info section A passionate span class changing keywords s
如何使用 LINQ 删除列表中的最小值和最大值

我有一个如下所示的列表 List
如何在 Windows Azure 上使用 PHP 云服务访问 ConfigurationSettings？

我希望能够从 Windows Azure 云服务 Web 角色中的 PHP 应用程序内访问 ConfigurationSettings 但我似乎无法使其工作我已在 ServiceDefinition csdef 中配置了此配置并且在
Observable.ObserveOn() 似乎没有效果

我正在尝试使用 Rx 并行处理项目看来我无法告诉 Rx 并行运行我的观察者的 OnNext 这是测试代码来演示 Test public void ObservableObserveOnNewThreadRunsInParallel Con
如何使用 Kotlin 谓词将列表拆分为子列表？

我正在尝试一种惯用且理想的功能方式来将 Kotlin 中的列表拆分为子列表想象一下输入是 aaa bbb ccc ddd eee fff 我想回来 aaa bbb ccc ddd eee fff 对于给定的谓词string isEmpty
什么是 muiName 属性？何时必须为 Material-UI 组件设置它？

在官方的material ui文档中有一个例子AppBar成分here看起来像这样 import React Component from react import AppBar from material ui AppBar impor
ggplot2 - 可以通过计算的 y (stat_summary) 值重新排序 x 吗？

是否可以通过 stat summary 使用计算出的 y 重新排序 x 值我认为这应该有效 stat summary aes x reorder XVarName y 但我收到以下错误错误 stat summary 需要以下缺失的美感
xpath：字符串操作

因此在我的 scrapy 项目中我能够隔离一些特定字段其中一个字段返回类似以下内容 Rank Info on 2013 06 27 14 26 Read 174 Times 通过表达式选择 td class show content

xpath：字符串操作

xpath：字符串操作 的相关文章

随机推荐

热门标签

xpath：字符串操作的相关文章