XPath：通过当前节点属性选择当前和下一个节点的文本

2024-01-15

如果这是一个重复的问题，我很抱歉，但我在 SO 或其他地方找不到另一个问题来处理我需要的内容。这是我的问题：

我在用着scrapy从中获取一些信息this http://www.utm.utoronto.ca/regcal/WEBLISTCOURSES1.html网页。为了清楚起见，以下是该网页的源代码块，我对此感兴趣：

<p class="titlestyle">ANT101H5 Introduction to Biological Anthropology and Archaeology 
                        <span class='distribution'>(SCI)</span></p> 

<span class='normaltext'> 
Anthropology is the global and holistic study of human biology and behaviour, and includes four subfields: biological anthropology, archaeology, sociocultural anthropology and linguistics. The material covered is  directed  to answering the question: What makes us human? This course is a survey of  biological  anthropology and  archaeology.  [<span class='Helpcourse'
            onMouseover="showtip(this,event,'24 Lectures')"
            onMouseout="hidetip()">24L</span>, <span class='Helpcourse'
            onMouseover="showtip(this,event,'12 Tutorials')"
            onMouseout="hidetip()">12T</span>]<br> 

<span class='title2'>Exclusion: </span><a href='javascript:OpenCourse("WEBCOURSENOTFOUND.html")'>ANT100Y5</a><br>

<span class='title2'>Prerequisite: </span><a href='javascript:OpenCourse("WEBCOURSEANT102H5.pl?fv=1")'>ANT102H5</a><br> 
</span><br/><br/<br/>

该页面上的几乎所有代码都类似于上面的代码块。

从这一切中，我需要抓住：

ANT101H5 生物人类学和考古学导论
排除：ANT100Y5
先决条件：ANT102H5

问题是Exclusion:是在一个里面<span class="title2"> and ANT100Y5是在下面的里面<a>.

我似乎无法从源代码中获取它们。目前，我有尝试（但失败）抓取的代码ANT100Y5看起来像：

hxs = HtmlXPathSelector(response)
    sites = hxs.select("//*[(name() = 'p' and @class = 'titlestyle') or (name() = 'a' and @href and preceding-sibling::'//span/@class=title2')]")

我很感激任何对此的帮助，即使它是“你因为没有看到另一个完美回答这个问题的问题而盲目”（在这种情况下，我自己将投票结束这个问题）。我实在是无计可施了。

提前致谢

编辑：在@Dimitre建议的更改后完成原始代码

我正在使用以下代码：

class regcalSpider(BaseSpider):
    name = "disc"
    allowed_domains = ['www.utm.utoronto.ca']
    start_urls = ['http://www.utm.utoronto.ca/regcal/WEBLISTCOURSES1.html']

    def parse(self, response):
            items = []
            hxs = HtmlXPathSelector(response)
            sites = hxs.select("/*/p/text()[1] | \
                              (//span[@class='title2'])[1]/text() | \
                              (//span[@class='title2'])[1]/following-sibling::a[1]/text() | \
                              (//span[@class='title2'])[2]/text() | \
                              (//span[@class='title2'])[2]/following-sibling::a[1]/text()")

            for site in sites:
                    item = RegcalItem()
                    item['title'] = site.select("a/text()").extract()
                    item['link'] = site.select("a/@href").extract()
                    item['desc'] = site.select("text()").extract()
                    items.append(item)
            return items

            filename = response.url.split("/")[-2]
            open(filename, 'wb').write(response.body)

这给了我这个结果：

[{"title": [], "link": [], "desc": []},
 {"title": [], "link": [], "desc": []},
 {"title": [], "link": [], "desc": []}]

这不是我需要的输出。我究竟做错了什么？请记住，我正在运行此脚本this http://www.utm.utoronto.ca/regcal/WEBLISTCOURSES1.html，如上所述。

.1. ANT101H5 生物人类学和考古学导论

p[@class='titlestyle']/text()

.2.排除：ANT100Y5

concat(
    span/span[@class='title2'][1],
    span/span[@class='title2'][1]/following-sibling::a[1]
    )

.3.先决条件：ANT102H5

concat(
    span/span[@class='title2'][2],
    span/span[@class='title2'][2]/following-sibling::a[1]
    )

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xpath

Scrapy

XPath：通过当前节点属性选择当前和下一个节点的文本的相关文章

Python中Decimal类型的澄清

每个人都知道或者至少每个程序员都应该知道 http docs oracle com cd E19957 01 806 3568 ncg goldberg html 即使用float类型可能会导致精度错误然而在某些情况下精确的解决方
Python Popen 与 psexec 挂起 - 不良结果

我对 subprocess Popen 和我认为是管道的问题有疑问我有以下代码块从 cli 运行时 100 都不会出现问题 p subprocess Popen psexec serverName get cmd c ver echo
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
如何在序列化器创建方法中获取 URL Id？

我有以下网址 url r member P
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f

随机推荐

DOSBox 上的 8086 程序集： idiv 指令有错误？

我正在帮助我的一个朋友调试他的程序我们将其范围缩小到甚至在这里出现的问题 MODEL small STACK 16 CODE start mov ax 044c0h mov bl 85 idiv bl exit mov ax 4c00h
AWK - 如何列匹配文件 A 中的多个匹配项与文件 B 中的一个匹配项

我试图在文件 A 中的第 1 列和文件 B 中的第 2 列之间找到匹配的字符串并为每个匹配打印文件 A 文件 B 的整行问题是文件 A 的第 1 列中有多个具有相同值的字符串当我使用 awk 解决方案时它只打印最后一个匹配项而不是所
C++/WinRT（Windows SDK 17134 的一部分）与 Visual Studio 15.8 Preview 3 不兼容

尝试编译以下代码 include
从另一个类访问静态变量

我在同一个包中有两个类我已经宣布了static variable在一个类中并且想要在另一个类中访问该变量这是我的代码其中声明了静态变量 public class wampusGUI extends javax swing JFram
重复使用黄瓜步骤

我想重复使用一些黄瓜步骤但似乎找不到正确的方法我想写一个这样的步骤 Given I login with credentials type do stuff with type being one of invalid or valid
了解自下而上的杆切割实施

In 算法导论 CLRS https rads stackoverflow com amzn click com 0262033844 科门等人下面谈谈解决切棒问题第369页 EXTENDED BOTTOM UP CUT ROD p n
如何用计算表达式替换捕获组（向捕获组添加整数值）

我需要用这种格式转换一些字符串 B12F34 类似的事情 12号楼 34楼但我必须向第二个捕获组添加一个值例如 10 这样新字符串将如下所示 12号楼楼44 我可以使用这个 postgres 句子来完成几乎所有事情但我不知道如何将值
如何抑制 Flash 迁移警告 (1090)

在 Flash Professional CS4 中当我使用鼠标键盘输入处理程序名称例如 onMouseDown onKeyUp 等时我会收到迁移问题警告即使我已为它们添加了事件侦听器这些名称对于函数来说是完全合法的但由
让 Ninject 管理我的交易状态，实践关注点

我让 Ninject 管理我的ISession and ITransaction使用以下注册方法在 Fluent nHibnerate 中进行状态我想知道它是否足以控制事务或者我是否需要将其放在其他地方想法是每个ISession根据
哎呀！失去与未定义的连接 - 连接建立后立即失去连接

过去几天我一直在尝试 spring 4 websocket 但有一个问题我正在使用 apache tomcat 8 这不是一个 Maven 项目这是我的片段索引 jsp
css - 如何拉伸和自动调整背景图像大小

我试图让我的背景图像延伸到整个页面但到目前为止我有这个这是我想要在浏览器窗口中拉伸的图片我的外部 CSS 包含以下代码 hr color sienna p margin left 20px body background image
从另一个线程关闭表单

我有这个运行的代码 exe string openEXE C Users marek Documents Visual Studio 2012 Projects tours tours bin Debug netpokl exe Proce
如何扩展 MongoDB？

我知道 MongoDB 可以垂直扩展如果我的磁盘空间不足怎么办我目前正在使用 EC2 和 EBS 如您所知我必须为 EBS 分配固定大小如果 MongoDB 的增长大于 EBS 的大小怎么办我是否必须创建更大的 EBS 并复制并粘
AsyncTask 中的 ProgressDialog

我试图在从 HTTP 服务器加载 RSS 提要时显示自定义进度对话框我进行了艰苦的搜索但没有任何帮助我做到这一点我唯一知道的是该解决方案应该使用AsyncTask 但我对传递给它的参数感到困惑AsyncTask 这是我的活动 publ
Python中四分位距应该如何计算？

我有一个数字列表 1 2 3 4 5 6 7 我想要一个函数来返回这个数字列表的四分位数范围四分位数间距是上四分位数和下四分位数之间的差值我尝试使用 NumPy 函数和 Wolfram Alpha 计算四分位数范围我发现所有的答案从
错误：R Shiny 图的第一个参数无效

我编写了一个 R 脚本来使用 R 来训练自己和其他人使用 Shiny 人们可以选择一个数据集并在基础图上绘制 x 和 y 变量还有一些其他用户定义的参数这一切都有效但它也会引发错误第一个参数无效这可以在绘图选项卡在闪亮的仪
Python：计算 Pandas 中两列之间的 tf-idf 余弦相似度时出现 MemoryError

我正在尝试计算 Pandas 数据框中两列之间的 tf idf 向量余弦相似度一列包含搜索查询另一列包含产品标题余弦相似度值旨在成为搜索引擎排名机器学习算法的特征我在 iPython 笔记本中执行此操作不幸的是遇到了 Memo
在 javascript 中替换多个
替换为单个
？

我想更换多个 br 带有单个的标签 br 在一段文字中我的文字就像 p fhgfhgfhgfh p br br p ghgfhfgh p br br p fghfghfgh p br br p fghfghfgh p br br p fg
Haskell 有什么大惊小怪的？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
XPath：通过当前节点属性选择当前和下一个节点的文本

如果这是一个重复的问题我很抱歉但我在 SO 或其他地方找不到另一个问题来处理我需要的内容这是我的问题我在用着scrapy从中获取一些信息this http www utm utoronto ca regcal WEBLISTCOUR

XPath：通过当前节点属性选择当前和下一个节点的文本

XPath：通过当前节点属性选择当前和下一个节点的文本 的相关文章

随机推荐

热门标签

XPath：通过当前节点属性选择当前和下一个节点的文本的相关文章