Python Xpath：lxml.etree.XPathEvalError：谓词无效

2024-03-29

我正在尝试学习如何抓取网页，在教程中我使用下面的代码抛出此错误：

lxml.etree.XPathEvalError: Invalid predicate

我正在查询的网站是（不要评判我，它是训练视频中使用的网站：/）：https://itunes.apple.com/us/app/candy-crush-saga/id553834731 https://itunes.apple.com/us/app/candy-crush-saga/id553834731

导致错误的 xpath 字符串在这里：

links = tree.xpath('//div[@class="center-stack"//*/a[@class="name"]/@href')

我正在使用 LXML 和请求库。

如果您需要任何其他信息，我很乐意提供！

print(tree.xpath('//div[@class="center-stack"]//*/a[@class="name"]/@href'))

你错过了结束语] after "center-stack".

您也可以直接拉动a[@class="name"]标签来自div[@class="content"]

 tree.xpath('//div[@class="content"]//a[@class="name"]/@href')

两者都会给你你想要的href：

In [19]: import  requests

In [20]: from lxml.html import fromstring


In [21]: r = requests.get("https://itunes.apple.com/us/app/candy-crush-saga/id553834731")

In [22]: tree = fromstring(r.content)

In [23]: a = tree.xpath('//div[@class="content"]//a[@class="name"]/@href')

In [24]: b =  tree.xpath('//div[@class="center-stack"]//*/a[@class="name"]/@href')

In [25]: print(a == b)
True

In [26]: print(a)
['https://itunes.apple.com/us/app/word-search-puzzles/id609067187?mt=8', 'https://itunes.apple.com/us/app/cookie-jam/id727296976?mt=8', 'https://itunes.apple.com/us/app/jewel-mania/id561326449?mt=8', 'https://itunes.apple.com/us/app/jelly-splash/id645949180?mt=8', 'https://itunes.apple.com/us/app/bubble-island/id531354582?mt=8']

In [27]: print(b)
['https://itunes.apple.com/us/app/word-search-puzzles/id609067187?mt=8', 'https://itunes.apple.com/us/app/cookie-jam/id727296976?mt=8', 'https://itunes.apple.com/us/app/jewel-mania/id561326449?mt=8', 'https://itunes.apple.com/us/app/jelly-splash/id645949180?mt=8', 'https://itunes.apple.com/us/app/bubble-island/id531354582?mt=8']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xpath

webscraping

pythonrequests

lxmlhtml

Python Xpath：lxml.etree.XPathEvalError：谓词无效的相关文章

通过getattr动态获取dict元素？

我想动态查询我想要检索的类中的哪些对象 getattr似乎是我想要的并且它对于类中的顶级对象表现良好但是我还想指定子元素 class MyObj object def init self self d a 1 b 2 self c 3
当加载图标且 tk.mainloop 位于线程中时，Tkinter 会锁定 Python

这是测试用例 import Tkinter as tk import thread from time import sleep if name main t tk Tk thread start new thread t mainloop
对自定义类进行排序而不使用“key”参数？

您可以对数组进行排序myclass通过使用key论证sorted功能 sortedlist sorted myclasses key lambda obj obj myproperty 有没有办法为我们的班级定义自然顺序也许有一些神奇的方
使用 numba 计算向量和矩阵中的行之间的余弦相似度

找到了这个gist https gist github com FedericoV 0e7d6d8c8794a99a7a42使用 numba 快速计算余弦相似度 import numba numba jit target cpu nopyt
将ast节点转换为python对象

给定一个ast可以自行计算的节点但字面意义不够ast literal eval例如列表理解 src i 2 for i in range 10 a ast parse src Now a body 0 is an ast Expr and
在 ReportLab 中向画布元素添加超链接的最简单方法是什么？

我正在使用 ReportLab 使用 Python 制作 pdf 我想向画布添加一个形状并让该形状充当超链接使以下示例中的矩形链接到 google com 的最简单方法是什么 from reportlab pdfgen import c
用户在对话框中输入

python 中是否有任何库可用于图形用户输入我知道关于tk但我相信需要一些代码才能做到这一点我正在寻找最短的解决方案 a input Enter your string here 取而代之的是我想要一个对话框以便用户可以在那里输入
Python 中的类位于不同的文件中吗？

与 Java 或 php 非常相似我习惯将类与文件分开 Python 中也是同样的情况吗另外我应该如何命名该文件像classname py一样小写还是像ClassName py一样如果我想从此类创建一个对象我是否需要做一些特殊的
AMD plaidml 与 CPU Tensorflow - 意外结果

我目前正在运行一个简单的脚本来训练mnist数据集通过 Tensorflow 通过我的 CPU 运行训练给了我49us sample和使用以下代码的 3e 纪元 CPU import tensorflow as tf mnist tf k
使用 Pyodbc + UnixODBC + FreeTDS 设置连接设置

我使用 Pyodbc UnixODBC 和 FreeTDS 进行了设置但在其中的某个地方设置了一些选项但我不知道在哪里根据 SQL Server Management Studio 我的程序在打开连接时发送一些设置 set quote
读取Excel文件时的Pandas数据框和字符编码

我正在阅读一个包含多个数值和分类数据的 Excel 文件 name string 列包含外语字符当我尝试查看 name string 列的内容时我得到了我想要的结果但外来字符在 Excel 电子表格中正确显示以错误的编码显示这是
重命名 TensorFlow 中保存模型的变量范围

是否可以在张量流中重命名给定模型的变量范围例如我根据教程创建了 MNIST 数字的逻辑回归模型 with tf variable scope my first scope NUM IMAGE PIXELS 784 NUM CLASS B
如何禁用Excel自动识别数字和文本

我使用 Python 生成了 CSV 文件但是当我在Excel中打开它时如果可以转换 Excel会自动将字符串识别为数字 e g 33E105变成33 10 105 这实际上是一个ID 而不是一个数字如何在打开 CSV 文件时在 Ex
如何加载 caffe 模型并转换为 numpy 数组？

我有一个 caffemodel 文件其中包含 ethereon 的 caffe tensorflow 转换实用程序不支持的层我想生成我的咖啡模型的 numpy 表示我的问题是如何将 caffemodel 文件我还有 prototx
python中根据变量类型处理数据子集

我将以下数据存储在 csv df sample csv 中我将列名放在名为 cols list 的列表中 df 数据样本 df data sample pd DataFrame new video BASE SHIVER PREFER
Linux 中如何确定哪个进程正在使用某个端口

我目前正在其默认端口上运行 RethinkDB 因为如果我将浏览器指向localhost 8080我看到 RethinkDB Web 界面我想关闭 RethinkDB 并使用以下命令在另一个端口上重新打开它 port offset争论然
如何创建一个包含多个文件且没有子包的Python包

我正在尝试创建一个包含一些类的包 mypackage 但希望这些类包含在多个文件中例如我希望 class a py 包含一个名为 ClassA 的类等等因此我想要以下文件结构 mypackage init py class a p
如何在 Robot Framework 中将变量定义为具有列表值的字典

在我的一个测试用例中我需要定义一个字典其中键是字符串值是字符串数组我怎样才能在机器人框架中做到这一点我第一次尝试使用如下所示的构造但行不通 Variables Dictionary A StringA1 StringA2 B S
如何将目录导入为 python 模块

如果有目录 home project aaa 我知道它是一个Python包那么我如何通过知道它的路径来导入这个模块这意味着我希望代码能够正常工作 aaa load module home project aaa 我知道的唯一方法是
为什么“模型尚未加载”？

我正在尝试使用 customUser 安装 django registration redux 我已将其包含在我的 settings py 中 AUTH USER MODEL app customUser 注册表位于目录 registrat

随机推荐

使用 JAXB 获取布尔属性的 getter

我正在尝试使用 jax ws 公开服务但我得到的第一个惊喜是 Weblogic 不支持请求响应对象的内部类克服这种情况后here https stackoverflow com questions 144118 jaxb bindin
提取window的所有子窗口

如何提取一个窗口的所有子窗口示例代码 Dim hWnd As IntPtr ProcessName MainWindowHandle For Each hWndChild As IntPtr In hWnd MsgBox hWndChil
Laravel Value() 函数未返回正确的值

这可能是我在 Laravel 中遇到过的最奇怪的错误我完全不知道发生了什么基本上我正在尝试获取查询的值在此场景中有 3 个图像他们的标题是第一图像标题第二图像标题和第三图像标题这是相关代码 public functio
如何将 Metro UI 控件添加到 Visual Studio 中的工具箱？

地铁控制 https github com viperneo winforms modernui https github com viperneo winforms modernui 我正在尝试使用地铁控件并且我将从示例项目中尽我所能
如何使用 iMagick 将一个图像叠加在另一个图像之上

概述我得到了两张图片背景图像分辨率为 1920x1080p 叠加图像可以为任何小于 1920x1080p 的分辨率背景图片 1920x1080 叠加图像任何小于结果图像 1920x1080 我试图将覆盖图像精确地覆盖在背景图像的中
推荐的 Twig 文件扩展名

Twig 模板有推荐的文件扩展名吗我已经看到了以下使用情况并希望与大多数其他开发人员保持一致 myTemplate html twig myTemplate twig myTemplate html myTemplate tmpl 通常
如何使用jquery为第一个列表项应用活动类

div class accordion ul class navigation li Lorem li li Ipsum li li Donor li ul ul class navigation li Test li li Demo li
未找到“google-api-python-client”发行版，并且 pyinstaller 的应用程序需要该发行版

我目前正在尝试使用 pyinstaller 构建一个应用程序我收到了错误The google api python client distribution was not found and is required by the appl
为什么我的 git 无法通过 gitolite 使用 git-daemon 推送到我的服务器

当我使用 gitolite 时忽略git daemon 我可以这样做git clone git xxx xxx 但是当我推送项目时它显示了错误 Total 2 delta 0 reused 0 delta 0 remote Empty
在python中将进度值发送到进度条

在我的游戏中我有两个模块岛 py它将岛屿加载到我的游戏中第二个模块是gui py它在游戏开始之前处理 GUI 小部件我的问题是如何将 island py 模块中的进度值发送到中创建的进度栏gui py module 编辑还可以使用加
Google Appengine 游标

我正在使用两者ndb and search api我的 python appengine 项目中的查询我能找到的关于游标的唯一官方文档 https cloud google com appengine docs python datast
Java：CopyOnWriteArrayList 与 SynchronizedList

有什么区别CopyOnWritearraylist and Collections synchronizedList 什么时候应该优先选择其中一个 CopyOnWriteArrayList当读取次数远远超过写入次数时应使用列表这是因为您
特殊字符问题

如何更改 Android 上的字体以允许显示或等特殊字符实际上包含这些字符的字符串存储在sqlite数据库中当您将文本加载到您的TextView 这对你有用吗 textView setText new String textFrom
在字符串 Objective-c 中连接字符串

我想将一个字符串放在一个字符串中基本上是伪代码 first part of string varying string third part of string 我怎样才能在 Objective C 中做到这一点有没有办法在 obj c
Erlang：如何从体内引用匿名函数？

In Erlang http en wikipedia org wiki Erlang programming language 有没有办法引用当前正在执行的函数这对于产生无限循环很有用 spawn fun gt do something
Azure 搜索和破折号

我正在使用 Azure 搜索并尝试对文档执行搜索看起来好像是这样做的 indexes blah docs api version 2015 02 28 search abc 1003 返回与此相同的结果 indexes blah docs
在 OpenSceneGraph 中创建球体（使用 osg::Geometry）

我花了相当长的时间才使其正常工作但我的球体无法显示使用以下代码来实现我的功能使用 Visual C 在 Opengl 中创建 3D 球体 https stackoverflow com questions 5988686 creati
禁用 jQuery 移动按钮

我正在尝试禁用此按钮 a Next a 单击事件不应触发并且按钮 UI 还应反映按钮禁用状态我尝试过以下方法 next attr disabled true next attr disabled disabled next button
如何处理管道中的$null

我的 PowerShell 代码中经常遇到以下情况我有一个返回对象集合的函数或属性或者 null 如果将结果推入管道则还可以处理管道中的元素如果 null是唯一的元素例子 Project Features Foreach Obje
Python Xpath：lxml.etree.XPathEvalError：谓词无效

我正在尝试学习如何抓取网页在教程中我使用下面的代码抛出此错误 lxml etree XPathEvalError Invalid predicate 我正在查询的网站是不要评判我它是训练视频中使用的网站 https itunes ap

Python Xpath：lxml.etree.XPathEvalError：谓词无效

Python Xpath：lxml.etree.XPathEvalError：谓词无效 的相关文章

随机推荐

热门标签

Python Xpath：lxml.etree.XPathEvalError：谓词无效的相关文章