xuexila作文 lxml etree xpath如何同时选择多种标签tag

2023-11-19

以学习啦为例,说明如何选择一个大范围标签下面的两个及以上种类标签tag。
例如
div
p 1 /p
h2 2 /h2
p 3 /p
/div
只有同时可以选择p, h2,内容1,2,3的顺序才不会乱。

from lxml import etree
import requests
from requests.exceptions import HTTPError
import re
import os


def get_xuexila(url):
    try:
        res = requests.get(url)
        res.raise_for_status()
        res.encoding = 'UTF-8'
        tree = etree.HTML(res.text)
        ps = tree.xpath('//*[@id="contentText"]/p|//*[@id="contentText"]/h2')
        for onep in ps:
            print(onep.text)
    except HTTPError:
        print("HTTP Error!")


if __name__ == '__main__':
    url = input('输入学习啦url')
    get_xuexila(url)
    print('Done')

这里,关键点在于 whole path a | whole path b,而不是最后的p|h2,后面xpath 2.0或者可以支持。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

xuexila作文 lxml etree xpath如何同时选择多种标签tag 的相关文章

随机推荐

  • 浅谈HTTP中Get、Post、Put与Delete请求方式的区别

    1 GET请求会向数据库发索取数据的请求 从而来获取信息 该请求就像数据库的select操作一样 只是用来查询一下数据 不会修改 增加数据 不会影响资源的内容 即该请求不会产生副作用 无论进行多少次操作 结果都是一样的 2 与GET不同的是
  • 房价预测回归模型--tensorflow2.0学习笔记--tf.keras使用实例

    import tensorflow as tf import matplotlib as mpl import matplotlib pyplot as plt matplotlib inline import numpy as np im
  • Netty框架之概述及基本组件介绍

    概述 Netty是由JBOSS提供的一个java开源框架 是一个高性能 高可扩展性的异步事件 驱动的 网络应用程序框架 它极大地简化了TCP和UDP客户端和服务器开发等网络编 程 NIO有下面的缺点 JDK 的 NIO 底层由 epoll
  • 计算机文件及文件夹管理软件,常用管家(电脑文件夹管理工具)V1.1 免费版

    常用管家 电脑文件夹管理工具 是一款很优秀好用的文件夹管理助手 如果你需要一款好用的文件夹管理工具 不妨试试小编带来的这款常用管家软件 功能强大全面 使用后可以帮助用户更轻松便捷的管理文件夹 软件能够快速收藏和打开常用的文件夹 网站 并且能
  • 决策树实战:california房价预测

    Python3 7 决策树实战 california房价预测 网上有好多2 版本的代码 但是本地安装的是python3 7版本 在学习中遇到很多问题 有很多地方和2 版本的不一样 所以记录下来方便参考 侵权必删 导入模块 import pa
  • CISCN2018-WP

    MISC 验证码 用token登录 输入好验证码就可以得到flag Picture 图片隐写 一下就想到binwalk或者winhex打开试试 binwalk打开无果 将这段数据ctrl shift c复制出来 用下面python脚本生成z
  • HTML标签及浮动

  • 7.块设备驱动的I/O请求处理(2)

    不适用请求队列 使用请求队列对于一个机械磁盘设备而言的确有助于提高系统的性能 但是对于RAMDISK ZRAM Compressed RAM Block Device 等完全可真正随机访问的设备而言 无法从高级的请求队列逻辑中获益 对于这些
  • 稳定性相关大纲

    稳定性建设的几个维度 个人渣记录仅为自己搜索用的博客 CSDN博客 道法术器 稳定性相关 代码 产品灰度能力 降级百分比能力 动态diamond doom测试 单元测试 稳定性改造 高资源占用优化 方法 架构上改造降流量 例如心跳 内部逻辑
  • 真正的阅读者,是不需要荐书的

    From http www luanxiang org blog archives 2136 html 早上一个朋友在朋友圈里跟我说 上次你推荐的 信息简史 和 知识的边界 两本书 我觉得很不错 这条消息让我比较差异 首先我并没有 推荐 过
  • 数据集分割

    步骤 1 确定训练集和测试集是否同分布 常用方法 1 留出法 实现 直接将数据集拆分为互斥的训练集 验证集和测试集 划分比例 训练集 验证集 测试集 7 1 5 1 5 注意事项 单次使用留出法会导致模型不稳定 保证三种数据集中样本比例的相
  • Linux 下使用 C++ 实现的 Web 文件服务器

    项目地址 Github https github com shangguanyongshi WebFileServer 在学习完成 TCP IP 网络编程 和 Linux高性能服务器编程 后 阅读了一些Web服务器的相关代码 自动动手使用
  • code style

    最近一直在看java convention和google c style 因为老板要提高代码质量 我们小公司一个 因为客户说我们的代码质量太烂了 于是开始搞代码质量 先从静态 代码质量开始 于是就研究起来code style 但是 我发现
  • Pthread 并发编程(三)——深入理解线程取消机制

    基本介绍 线程取消机制是 pthread 给我们提供的一种用于取消线程执行的一种机制 这种机制是在线程内部实现的 仅仅能够在共享内存的多线程程序当中使用 基本使用 include
  • 【ARM】程序快速定位segmentation fault core dumped错误

    1 应用场景 ARM开发过程中经常进程运行着出现段错误 这时候单纯靠加日志打log效率太低 使用gdb的话 由于APP进程太多 生成的core的文件特别大 而且gdb在arm板子也不好单步调试 不太友好还是pass掉 目前使用段错误捕捉SI
  • Python3爬虫——用Xpath提取网页信息

    Python3爬虫 用Xpath提取网页信息 前言 本笔记用于记录整理requests库的一些基本知识 内容会根据博主自己的认知作增添或压缩 水平有限 如有错误请不吝赐教 本文需要读者初步了解HTML有关节点的相关知识 文章目录 Pytho
  • Python技能练习!值得你看的28道常见题型汇总!(附答案解析)

    今天给大家分享30道Python练习题 建议大家先独立思考一下解题思路 再查看答案 文末有惊喜 1 已知一个字符串为 hello world yoyo 如何得到一个队列 hello world yoyo 使用 split 函数 分割字符串
  • C#多线程Lock锁定的使用例子(多线程线程同步)

    这个例子是一个模拟多个人在多台提款机上同时提取一个账户的款的情况 在存取的过程中 可能 A线程取了100 而B线程那边还看见账户上没少掉那100快 所以导致数据不统一 赋值出现问题 下面代码则可以测试出加上Lock锁定 与 不加的区别 先上
  • 学会这几个简单的bat代码,轻松在朋友面前装一波13

    这个标题是干什么用的 最近看晚上某些人耍cmd耍的十分开心 还自称为 黑客 着实比较搞笑 他们那些花里胡哨的东西在外行看来十分nb 但只要略懂一些 就会发现他们的那些十分搞笑和滑稽 今天这里分享几个类似的方法 让你在不懂行的朋友面前秀一波
  • xuexila作文 lxml etree xpath如何同时选择多种标签tag

    以学习啦为例 说明如何选择一个大范围标签下面的两个及以上种类标签tag 例如 div p 1 p h2 2 h2 p 3 p div 只有同时可以选择p h2 内容1 2 3的顺序才不会乱 from lxml import etree im