为什么从 chrome 派生的 xpath 不起作用

2023-12-11

我正在尝试从中抓取数据科学网

这是特定页面我要和.

下面是我用来提取摘要的代码：

import lxml
import requests

url = 'https://apps.webofknowledge.com/full_record.do?product=WOS&search_mode=GeneralSearch&qid=2&SID=Q1yAnqE4al4KxALF7RM&page=1&doc=3&cacheurlFromRightClick=no'
s = requests.Session()
d = s.get(url)
soup1 = etree.HTML(d.text)

这是我通过 Chrome 中的复制 xpath 获得的 xpath：

//*[@id="records_form"]/div/div/div/div[1]/div/div[4]/p/text()

所以我试图得到这样的摘要

path = '//*[@id="records_form"]/div/div/div/div[1]/div/div[4]/p/text()'   
print(soup1.xpath(path))

然而，我只是热了一个空列表！然后我尝试了另一种方法来测试xpath。

Firstly，我将特定页面保存为本地html文件。

with open('1.html','w',encoding='UTF=8') as f:
    f.write(d.text)
f.close()

Then，打开文件

s.mount('file://',FileAdapter())
d = s.get('file:///K:/single_paper.html')
soup2 = etree.HTML(d.text)
soup2.xpath('//*[@id="records_form"]/div/div/div/div[1]/div/div[4]/p/text()')

它给了我我想要的摘要！谁能告诉我为什么会发生这种情况？

Weired当我尝试以保存本地文件的方式对另一个页面执行这些步骤时，它再次返回一个空列表！

我检查了 Chrome 给出的 xpath 对于这两个页面是相同的。

那么有人能告诉我我的代码有什么问题以及如何修复它吗？

给定完整 Xpath 的浏览器通常是无益的并且您应该根据属性（例如 id、class 等）或任何识别特征（例如 contains(@href, 'image')）使用相对且聪明的特征。

您可以尝试更具体的 xpath 表达式：(//div[@class="block-record-info"])[2]/p/text()并像这样重写你的代码：

import requests
from lxml import html

url = 'https://apps.webofknowledge.com/full_record.do?product=WOS&search_mode=GeneralSearch&qid=2&SID=Q1yAnqE4al4KxALF7RM&page=1&doc=3&cacheurlFromRightClick=no'
s = requests.Session()
r = s.get(url)
tree = html.fromstring(r.content)
element = tree.xpath('(//div[@class="block-record-info"])[2]/p/text()')
print(element)

Output:

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Googlechrome

xpath

webscraping

为什么从 chrome 派生的 xpath 不起作用的相关文章

Django 的内联管理：一个“预填充”字段

我正在开发我的第一个 Django 项目我希望用户能够在管理中创建自定义表单并向其中添加字段当他或她需要它们时为此我在我的项目中添加了一个可重用的应用程序可在 github 上找到 https github com stephen
使用特定的类/函数预加载 Jupyter Notebook

我想预加载一个笔记本其中包含我在另一个文件中定义的特定类函数更具体地说我想用 python 来做到这一点比如加载一个配置文件包含所有相关的类函数目前我正在使用 python 生成笔记本并在服务器上自动启动它们因为不同的
元组有什么用？

我现在正在学习 Python 课程我们刚刚介绍了元组作为数据类型之一我阅读了它的维基百科页面但是我无法弄清楚这种数据类型在实践中会有什么用处我可以提供一些需要一组不可变数字的示例吗也许是在 Python 中这与列表有何不同每
如何用python脚本控制TP LINK路由器

我想知道是否有一个工具可以让我连接到路由器并关闭它然后从 python 脚本重新启动它我知道如果我写 import os os system ssh l root 192 168 2 1 我可以通过 python 连接到我的路由器但是
安装了 32 位的 Python，显示为 64 位

我需要运行 32 位版本的 Python 我认为这就是我在我的机器上运行的因为这是我下载的安装程序当我重新运行安装程序时它会将当前安装的 Python 版本称为 Python 3 5 32 位然而当我跑步时platform arch
将html数据解析成python列表进行操作

我正在尝试读取 html 网站并提取其数据例如我想查看公司过去 5 年的 EPS 每股收益基本上我可以读入它并且可以使用 BeautifulSoup 或 html2text 创建一个巨大的文本块然后我想搜索该文件我一直在使用
Pandas/Google BigQuery：架构不匹配导致上传失败

我的谷歌表中的架构如下所示 price datetime DATETIME symbol STRING bid open FLOAT bid high FLOAT bid low FLOAT bid close FLOAT ask open
处理 Python 行为测试框架中的异常

我一直在考虑从鼻子转向行为测试摩卡柴等已经宠坏了我到目前为止一切都很好但除了以下之外我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
Python getstatusoutput 替换不返回完整输出

我发现了这个很棒的替代品getstatusoutput Python 2 中的函数在 Unix 和 Windows 上同样有效不过我觉得这个方法有问题output被构建它只返回输出的最后一行但我不明白为什么任何帮助都是极好的 def
跟踪 pypi 依赖项 - 谁在使用我的包

无论如何是否可以通过 pip 或 PyPi 来识别哪些项目在 Pypi 上发布可能正在使用我的包也在 PyPi 上发布我想确定每个包的用户群以及可能尝试积极与他们互动预先感谢您的任何答案即使我想做的事情是不可能的这实际上是不
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
在Python中连接反斜杠

我是 python 新手所以如果这听起来很简单请原谅我我想加入一些变量来生成一条路径像这样 AAAABBBBCCCC 2 2014 04 2014 04 01 csv Id TypeOfMachine year month year
当 contains() 工作正常时，xpath 函数ends-with() 工作时出现问题

我正在尝试获取具有以特定 id 结尾的属性的标签 like span 我想获取 id 以国家地区结尾的跨度我尝试以下xpath span ends with id Country 但我得到以下异常需要命名空间管理器或 XsltCon
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
Python：XML 内所有标签名称中的字符串替换（将连字符替换为下划线）

我有一个格式不太好的 XML 标签名称内有连字符我想用下划线替换它以便能够与 lxml objectify 一起使用我想替换所有标签名称包括嵌套的子标签示例 XML
如何在 pygtk 中创建新信号

我创建了一个 python 对象但我想在它上面发送信号我让它继承自 gobject GObject 但似乎没有任何方法可以在我的对象上创建新信号您还可以在类定义中定义信号 class MyGObjectClass gobject GO
将 Python 中的日期与日期时间进行比较

所以我有一个日期列表 datetime date 2013 7 9 datetime date 2013 7 12 datetime date 2013 7 15 datetime date 2013 7 18 datetime date
使用for循环时如何获取前一个元素？ [复制]

这个问题在这里已经有答案了可能的重复 Python 循环内的上一个和下一个值 https stackoverflow com questions 1011938 python previous and next values inside
Scipy Sparse：SciPy/NumPy 更新后出现奇异矩阵警告

我的问题是由大型电阻器系统的节点分析产生的我基本上是在设置一个大的稀疏矩阵A 我的解向量b 我正在尝试求解线性方程A x b 为了做到这一点我正在使用scipy sparse linalg spsolve method 直到最近一切都

随机推荐

无法将实体框架连接到本地 SQL Server Express

我有连接字符串
MPMoviePlayerController 在 iPhone 应用程序中反向（向后）播放电影不流畅

我正在开发一个 iPhone 应用程序我需要反转视频播放我目前正在使用 XCode 4 2 我正在尝试使用 MPMoviePlayerController 反向播放电影但反向播放时就没有正向播放那么流畅它变得有点断断续续一点也不光
SQL 中日期范围内的工作日数

这比看起来更难我需要一个函数来计算日期范围内给定工作日的数字我不需要任何循环或递归 SQL 有数以百万计的例子就是这样做的我需要一个快速的计算函数函数的输入将是工作日起始日期今日 counting fridays set dat
将更接近的白色像素组合在一起，并在 OpenCV 中在它们周围绘制一个矩形

我想将这些彼此更接近的白色像素分组并使用 C 在 OpenCV 中在它们周围绘制一个矩形原图预期结果我是 OpenCV 新手任何帮助将不胜感激您可以根据给定的谓词对白色像素进行分组分割在这种情况下您的谓词可以是将给定欧氏距
如何将滚动条附加到文本小部件？

我试图将滚动条附加到我的文本字段但无法执行此操作这是代码段 self scroller Scrollbar self root self scroller place x 706 y 121 self outputArea Text s
将 pandas groupby 结果与小计转换为相对值

我遇到过一个插入小计的好解决方案进入 pandas groupby 数据框但是现在我想修改结果以显示相对于小计的相对值而不是绝对值这是显示 groupby 的代码 import pandas as pd import numpy a
Firebird 从表中选择字段，其中 Field = current_date

我有一个简单但对我来说无法解决的问题我有这样的要求 Firebird 从表中选择字段其中 Field current date 问题是该字段是一个文本字段保存以下格式的日期 25 04 2014 如果是当前日期我该如何转换这个问题有
Raphael.js attr 函数设置了错误的值

我正在使用 Raphael js 实现拖放系统为此我存储了 mousedown 上的原始 x 和 y 位置如果 mouseup 上发生碰撞我想将位置重置为原始位置这是执行重置的代码 this 指的是此处的 raphael 对象 v
如何使用 graph api 在 Facebook 粉丝页面上为帖子加注星标？

我正在我的粉丝专页上发帖但我想做重点帖子有什么建议么我得在粉丝专页上一一给他们加注星标有什么办法可以做到这一点吗我也阅读了文档但没有示例 http developers facebook com docs reference a
JMeter 预处理变量作为报告文件名的一部分

在我的测试计划中我有 JDBC 预处理器它捕获我试图保存到变量中的单个值然后我想重用这个变量作为摘要报告文件名的一部分我想知道创建该变量是否发生得太晚了因为我总是得到文字值logs session id 1 summary cvs
iOS 11 如何防止旋转？

从 iOS 11 2 开始我注意到 BOOL shouldAutorotate BOOL shouldAutorotateToInterfaceOrientation UIInterfaceOrientationMask supporte
此汇编代码需要解释

这是c代码 void test function int a int b int c int d int flag char buffer 10 flag 31337 buffer 0 A int main test function 1
如何遍历json节点的所有key

我正在尝试从该网站中删除关键值API而且 json 格式似乎不是数组我正在使用 System Text Json Nodes 处理控制台 Net core 6 0 我正在使用的代码是 Dim streamData As Stream No
为什么这么多 JavaScript 脚本要向事物附加随机数？碰撞？

我最近一直在学习 JavaScript 并且看到了许多使用 Math rand 附加到链接的示例 Facebook com 可读性书签这解决了什么问题 Readability 小书签中的示例参数 readability script sr
箱线图：按每个组的子集的平均值对组进行排序

让我们考虑一下这个数据 df data frame score round runif 15 1 10 group paste0 a rep c 1 2 3 each 5 category rep c big big big big sma
Web 浏览器中的后退按钮如何工作？

我在网上搜索了这个问题但一无所获返回按钮的逻辑是什么当我们点击网络浏览器上的后退按钮时会发生什么我真的很想了解更多您的网络浏览器会保留您在该窗口中访问过的网页的堆栈或列表如果您愿意的话假设您的主页是search exampl
我可以在 CSS 媒体查询中使用“OR”吗？

我正在尝试将以下三个媒体查询合并为一个 media only screen and max device width 480px media only screen and webkit min device pixel ratio 2 m
使用 Swift 和 Storyboard 在两个 UIViewController 之间传递数据

我使用下面的代码选择 UITableView 在 UIViewController 之间传递数据 void prepareForSegue UIStoryboardSegue segue sender id sender if segue
查找两个子字符串之间的所有字符串

我有以下字符串作为示例 string cat dog 我想提取所有锁定在和之间的字符串因此输出将是 cat dog 我只知道如何提取第一次出现的情况 import re r re compile m r search string i
为什么从 chrome 派生的 xpath 不起作用

我正在尝试从中抓取数据科学网这是特定页面我要和下面是我用来提取摘要的代码 import lxml import requests url https apps webofknowledge com full record do prod

为什么从 chrome 派生的 xpath 不起作用

为什么从 chrome 派生的 xpath 不起作用 的相关文章

随机推荐

热门标签

为什么从 chrome 派生的 xpath 不起作用的相关文章