python爬虫系列5--xpath

2023-11-02

教程地址：http://www.runoob.com/xpath/xpath-tutorial.html

XPath在python的爬虫学习中，起着举足轻重的地位，对比正则表达式re两者可以完成同样的工作，实现的功能也差不多，但XPath明显比re具有优势，在网页分析上使re退居二线。

xpath全称为XML Path Language 一种小型的查询语言，所具备的优点：

1）可在XML中查找信息

2）支持HTML的查找

3）通过元素和属性进行导航

XPath属于lxml库模块，所以首先要安装库lxml。

简单示例：

from lxml import etree

selector=etree.HTML(源码) #将源码转化为能被XPath匹配的格式

selector.xpath(表达式) #返回为一列表

+ xpath与bs4比较

（1）bs4是用python写的第三方库，XPath是一门语言，lxml是用c写的，速度块；

（2）xpath要求一定清楚文档层次结构，它通过元素和属性进行导航，可以使用绝对路径或相对路径查找，而bs4不必清楚文档结构，可以直接找某些标签，简单粗暴。

+ 路径表达式

nodename 选取此节点的所有子节点。

/ 从根节点选取。

// 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。

. 选取当前节点。

.. 选取当前节点的父节点。

@ 选取属性。

/text() 获取当前路径下的文本内容

starts-with 解决标签属性值以相同字符串开头的情况

+ 谓语

谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中。

+ 通配符

* 匹配任何元素节点。

@* 匹配任何属性节点。

node() 匹配任何类型的节点。

| 选取若干路径

+ 轴

轴可定义相对于当前节点的节点集。

ancestor 选取当前节点的所有先辈（父、祖父等）。

ancestor-or-self 选取当前节点的所有先辈（父、祖父等）以及当前节点本身。

attribute 选取当前节点的所有属性。

child 选取当前节点的所有子元素。

descendant 选取当前节点的所有后代元素（子、孙等）。

descendant-or-self 选取当前节点的所有后代元素（子、孙等）以及当前节点本身。

following 选取文档中当前节点的结束标签之后的所有节点。

following-sibling 选取当前节点之后的所有兄弟节点

namespace 选取当前节点的所有命名空间节点。

parent 选取当前节点的父节点。

preceding 选取文档中当前节点的开始标签之前的所有节点。

preceding-sibling 选取当前节点之前的所有同级节点。

self 选取当前节点。

+ 运算符

算术运算符、关系运算符、逻辑运算符

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python爬虫系列5--xpath 的相关文章

将 ical 附件的邮件消息的内容类型设置为“text/calendar; method=REQUEST”

我正在尝试使用 App Engine 邮件 API 从 App Engine 发送 iCalendar 格式的 ics 文件这在 GMail 中非常有效但是 Outlook 无法识别该文件我认为问题在于内容类型设置为文本日历而不
celery任务eta已关闭，使用rabbitmq

我使用教程中的默认设置和在 ubuntu 上运行的rabbitmq 使 Celery 任务正常进行当我毫不延迟地安排任务时一切都很好但是当我给他们一个预计时间时他们会被安排在未来就好像我的时钟在某个地方关闭了一样下面是一些请求任
函数名称未定义

我有一段代码看起来像这样 if name main main def main print hello 但是当我尝试运行此代码时出现错误 NameError 名称 main 未定义我是否没有在函数 def main 的第一行定义名称
使用ideone时如何传入命令行参数？

我正在使用 ideone 在线解释器 http ideone com http ideone com 来测试一些 C 和 Python 程序如何指定命令行参数而不是使用 STDIN 输入看起来你不能但是快速破解应该做的伎俩 stati
在多核上运行 python 线程

我知道Python 2 7不允许在不同的内核上运行多个线程你需要使用multiprocessing模块以实现某种程度的并发性我正在看concurrent futuresPython 3 4 中的模块是否使用ThreadPoolExec
为什么我会收到 ValueError：系列的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()

以下代码给出了值错误 major males for row in recent grads if recent grads Men gt recent grads Women major males append recent grads
lmfit模型拟合然后预测

我正在领养lmfit进行曲线拟合并使用拟合模型进行预测然而下面的代码并没有达到我想要的效果能否请你帮忙谢谢 import numpy as np from lmfit import Model def linearModel x a0
Asyncio：从未检索到任务异常的怪异

假设我有一个简单的代码 import asyncio async def exc print 1 0 loop asyncio get event loop loop create task exc try loop run forever
matplotlib：渲染到缓冲区/访问像素数据

我想使用 matplotlib 生成的图作为 OpenGL 中的纹理到目前为止我遇到的 matplotlib 的 OpenGL 后端要么不成熟要么已经停止使用所以我想避免使用它们我当前的方法是将图形保存到临时 png 文件中并从
ImproperlyConfigured at / 不允许空静态前缀 - Django

我正在使用 Django 上传显示图像该网站部署在 Heroku 上下列的this https coderwall com p bz0sng教程我能够成功上传图像但是图像并未显示在模板中然后我了解到我的 urls py 末尾应该
机器学习的周期性数据（例如度角 -> 179 与 -179 相差 2）

我使用 Python 进行核密度估计并使用高斯混合模型对多维数据样本的可能性进行排名每一条数据都是一个角度我不确定如何处理机器学习的角度数据的周期性首先我通过添加 360 来删除所有负角因此所有负角都变成了正角 179 变成了
使用具有可变数量索引的 numpy mggrid

如何将 numpy mgrid 与可变数量的索引一起使用我在 github 上找不到任何人将其与硬编码值以外的任何内容一起使用的示例 import numpy as np np mgrid 1 10 1 10 this works fin
Python GTK3 Treeview 向上或向下移动选择

如何在树视图中向上或向下移动所选内容我的想法是我可以使用向上和向下按钮将选择向上移动一行或向下移动一行我的 Treeview 使用 ListStore 不确定这是否重要首先我将使用我熟悉的 C 代码如果您在将其翻译为 Pytho
如何将 django ModelForm 字段显示为不可编辑

接受我的初步教训django ModelForm 我想让用户能够编辑博客中的条目 BlogEntry has a date postedTime title and content 我想向用户展示一个编辑表单其中显示所有这些字段但仅包含
如何在类型提示中定义元组或列表的大小

有没有办法在参数的类型提示中定义元组或列表的大小目前我正在使用这样的东西 from typing import List Optional Tuple def function name self list1 List Class1 if
尝试 numba 时出现巨大错误

我在使用 numba 时遇到了大量错误讽刺的是正确的结果是在错误之后打印的我正在使用最新的 Anaconda python 并安装了 numba conda install numba 一次在 Ubuntu 13 64 位和 anac
如何创建简单的梯度下降算法

我正在研究简单的机器学习算法从简单的梯度下降开始但在尝试用 python 实现它时遇到了一些麻烦这是我试图重现的示例我获得了有关房屋的数据居住面积以英尺为单位和卧室数量以及最终的价格居住面积英尺2 2104 卧室 3 价
将函数按元素应用于两个 DataFrame

如何应用函数z ij f x ij y ij 来自数据框X and Y相同大小并将结果保存到 DataFrameZ 这取决于你有什么样的功能很多功能已经被矢量化为数据框例如等等所以对于这些功能你可以简单地做Z X Y or Z X
将二进制数转换为包含每个二进制数的数组

我试图将二进制值转换为每个 1 0 的列表但我得到默认的二进制值而不是列表我有一个字符串我将每个字符转换为二进制它给了我一个列表其中每个字符都有一个字符串现在我试图将每个字符串拆分为值为 0 1 的整数但我什么也得不到 if
如何在不同的目录中执行python脚本？

Solved对于可能觉得这有帮助的人请参阅下面我的答案我有两个脚本 a py 和 b py 在我当前的目录 C Users MyName Desktop MAIN 中我运行 gt python a py 第一个脚本 a py 在我当前

随机推荐

复旦nlp实验室 nlp-beginner 任务一：基于机器学习的文本分类

实现基于logistic softmax regression的文本分类参考文本分类神经网络与深度学习第2 3章数据集 Classify the sentiment of sentences from the Rotten Tom
【蓝桥杯Python】基础练习17：矩阵乘法

试题基础练习矩阵乘法目录题目资源限制问题描述输入格式输出格式样例输入样例输出解答 Python源代码题目资源限制时间限制 1 0s 内存限制 512 0MB 问题描述给定一个N阶矩阵A 输出A的M次幂 M是非负
多因素方差分析_多因素方差分析（1）

之前介绍的方差分析称之为是单因素方差分析 one way ANOVA 主要研究单个因素对因变量的影响多因素方差分析是研究多个 2个或2个以上自变量对因变量的影响可以直观表现为以下公式单因素方差分析 Yi a b Xi e 多因素
c语言变参宏和利用变参宏的一些简单的打印实现

一些函数如printf 接受数量可变的参数 stdvar h头文件提供了工具让用户自定义带可变参数的函数通过把宏参数列表中最后的参数写成省略号即3个点来实现这一功能这样预定义宏 VA ARGS 可用在替换部分中表明省略号代表
Java的运算符及开发环境的安装

一运算符 1 赋值运算符变量名表达式符合赋值运算符 2 算术运算符整除求余在后先用再加在前先加再用 3 关系运算符如 gt lt gt lt char类型是可以比较因为char类型存储的是对应的ASCII 判断一个字
哪些循环依赖问题Spring解决不了？

前言大家都知道 Spring 解决了循环依赖的问题网上也可以搜到 Spring 是使用三级缓存来解决循环依赖的但有些时候循环依赖问题还是会导致启动报错也就说明在某些情况下 Spring 是没有办法解决循环依赖问题的我们就来探究一
JIRA工作流节点状态变化前弹出窗口填写日志或者备注

一定义弹出框的页面 1 进入问题管理页面并点添加屏幕 2 自定义弹出页面的名称 3 点击添加后会进入配置页面配置页面所包含的字段二在工作流中配置页面 1 进入工作流编辑页面双击需要添加弹出页面的流程 2 在弹出框中页面栏选择刚刚配
Python爬虫必备：浏览器开发者工具的使用，非常详细

最近很多小伙伴说不会用浏览器开发者工具今天我们就一起来深入了解一下开发者工具以谷歌浏览器为例谷歌浏览器开发者工具中的Network 是我们学习经常用到的那么你都知道他们每个功能的意义吗因本人经常有360极速浏览器谷歌内核所以
vue pdf.js统计pdf的页数

参考链接作者原文展示了PDF 我只需要一部分功能
Adobe进军AI第一步——Firefly试用体验

在关于人工智能讨论度高居不下的今天各个行业的领路企业也纷纷不甘落后 Adobe作为媒体界的行业标杆就在近期推出了自己的人工智能图像应用萤火虫firefly 虽然这只萤火虫刚刚起飞它已经展现的文字生图和能力算是及格我分别在网页版和
spark-submit 碰到 Spark-submit:System memory 466092032 must be at least 471859200

在利用spark进行分布式计算时 home hadoop spark spark 2 4 0 bin hadoop2 7 bin spark submit master yarn ALS py 以上代码是在centos7 利用spark集群
vim 一段代码整体移动

方法1 可以用ctrl v 然后上下移动光标再shift i进入编辑模式然后按删除或者空格或者tab键来移动第一行然后按ESC 就能整段代码动起来了方法2 1 点击 esc 键进入命令模式使用 set nu 显示行号 2 点击 e
又是第一！GBASE南大通用蝉联中国分析型数据库管理系统市场TOP1

报告指出大数据时代用户对数据分析的需求不断提升希望从大量数据中获得新的数据价值数据分析需求不断上升分析型数据库市场保持稳定增长 GBASE南大通用作为分析型数据库市场的代表企业位居本土厂商第一名在分析型数据库市场 GBASE自
插件分享

前言要问我Goby怎么样我会坚定回答你最强实时网络空间测绘没有之一初次发现Goby还是来自于同事 hq404的推荐看完第一反应真漂亮我馋了我要xxxxxx 其Logo和UI做的相当棒当然不仅拥有华丽的外表更让我深爱又离
python爬取新发地菜价

import requests from bs4 import BeautifulSoup import csv url http www xinfadi com cn marketanalysis 0 list 1 shtml respo
【机试练习】【C++】【PAT A1053】Path of Equal Weight（玄学一样的“段错误”）

此题有较大的玄学如果将cmp函数的默认返回值更改为true 则会出现最后一个测试用例的段错误在代码中以我的天玄学标识出 include
Java阻塞队列

目录一阻塞队列的特点二生产者消费者存在问题三阻塞队列 Java实现属性方法 put方法生产者线程专门调用的方法 get方法消费者线程专门调用的方法执行顺序分析图解在我们上图的代码当中如果把while改成i
Sharding-JDBC（八）5.3 系列升级解读

目录一背景二影响范围 1 Maven 坐标调整 2 自定义算法调整 3 事务调整 4 配置文件调整三升级指导 1 新的 ShardingSphereDriver 数据库驱动 2 正在使用 Spring Boot Starter
2023华为OD机试真题【找朋友/单调栈】

题目描述在学校中 N个小朋友站成一队第i个小朋友的身高为height i 第i个小朋友可以看到的第一个比自己身高更高的小朋友j 那么j是i的好朋友要求j gt i 请重新生成一个列表对应位置的输出是每个小朋友的好朋友位置如果没有看
python爬虫系列5--xpath

教程地址 http www runoob com xpath xpath tutorial html XPath在python的爬虫学习中起着举足轻重的地位对比正则表达式re两者可以完成同样的工作实现的功能也差不多但XPath明显比

python爬虫系列5--xpath

python爬虫系列5--xpath 的相关文章

随机推荐

热门标签