lxml cssselect 解析

2024-02-23

我有一个包含以下数据的文档：

<div class="ds-list">
    <b>1. </b> 
    A domesticated carnivorous mammal 
    <i>(Canis familiaris)</i> 
    related to the foxes and wolves and raised in a wide variety of breeds.
</div>

我想得到课堂上的一切ds-list（没有<b> and <i>标签）。目前我的代码是doc.cssselect('div.ds-list')，但所有这些都会出现在之前的换行符<b>。我怎样才能让它做我想做的事？

也许您正在寻找text_content方法？：

import lxml.html as lh
content='''\
<div class="ds-list">
    <b>1. </b> 
    A domesticated carnivorous mammal 
    <i>(Canis familiaris)</i> 
    related to the foxes and wolves and raised in a wide variety of breeds.
</div>'''
doc=lh.fromstring(content)
for div in doc.cssselect('div.ds-list'):
    print(div.text_content())

yields

1.  
A domesticated carnivorous mammal 
(Canis familiaris) 
related to the foxes and wolves and raised in a wide variety of breeds.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

Parsing

cssselectors

lxml

lxml cssselect 解析的相关文章

使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
Bootstrap 4 移动导航栏消失

我刚刚从 Bootstrap 3 转换为 Bootstrap 4 但我的移动导航栏出现问题使用切换按钮展开导航栏时导航消失我不明白为什么会发生这种情况导航栏下方有一个大屏幕但整个移动导航向上移动如下面的 gif 所示以下是导航
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
如何使用 sys.path.append 在 Python 中导入文件？

我的桌面上有两个目录 DIR1 and DIR2其中包含以下文件 DIR1 file1 py DIR2 file2 py myfile txt 这些文件包含以下内容 file1 py import sys sys path append s
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
HTML5 文件 API 和 AJAX 上传分块问题

我编写了一个带有单独进度的拖放多个文件上传等除了一件事之外它工作得非常好上传较大文件时有时浏览器会锁定直到上传完成我认为这是因为该文件存储在浏览器的内存中并占用了浏览器可用的所有资源我想知道是否可以逐段读取文件并在读取时通过
将文本注释到轴并对齐为圆

我正在尝试在轴上绘制文本并将该文本与圆对齐更准确地说有一些具有不同坐标 x y 的点位于该圆内并使用以下命令创建 ax scatter x y s 100 我想用圆圈连接并标记每个点 Cnameb 文本的坐标由 xp yp 定义因此
从字节数组设置 img src

我需要设置img src我在对象中拥有的字节数组的属性 img
禁用复选框上的输入

需要在取消选中该复选框时禁用输入并在选中该复选框时启用它我的代码是这样的 div class y div
我自己的而不是从其他网站借用的图像的正确 img src 是什么？

在我的计算机上保存 css 和 html 文件的文件夹还包含一些我想要插入到 html 中的图像如果我从其他网站借用图像我知道如何获取图像的 URL 如何获取文件夹中但尚未出现在互联网上的图像的 URL 我是否必须将图像上传到其他网站
我应该创建一个块还是一个元素 BEM CSS？

Bem官网说创建一个块如果一段代码可以被重用并且它不依赖于正在实现的其他页面组件创建一个元素如果一段代码在没有父实体块的情况下无法单独使用我有一个关于部分块它的元素依赖于父级并且不能在网站中重复使用如何根据 bem 这段代
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
为什么 smtplib.SMTP().sendmail 不发送 DKIM 签名邮件

我已经在服务器上设置了 postfix 以及 openDKIM 当我跑步时 echo Testing setup mail s Postfix test my email address 我收到电子邮件邮件标题中有一个DKIM Signa
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

Apple Mach-O 链接器警告未找到目录

我花了最后五个小时为这种奇怪的情况寻找合理的解释这是警告 ld warning directory not found for option L Users oasis weng Desktop My Life Life For Myse
Centos 上的 MSBuild 返回“未找到导入的项目“/Microsoft.Cpp.Default.props””

我正在尝试在 CentOS 中构建 VS 项目我通过安装 dotnet sdk 2 2yum install dotnet sdk 2 2 执行时dotnet msbuild myproj vcxproj I get Microsoft
将数据框名称分配给列中的所有行

我想为列表中的每个数据框将数据框名称添加到列中的所有行虚拟数据 test df lt data frame x 1 5 y c a b c d e 我想要的最终结果是这样的 x y ref 1 a test df 2 b test df
条件断点不起作用

上面的代码在其底行设置了一个黄色的条件断点后面是断点设置对话框该对话框应与以下内容一起使用 item Value 一天但是我收到以下错误我在网上搜索了此错误但找不到任何失败的原因我使用的是 VS 2015 Pro 编辑感谢
当方法签名包含 Object ... args 时，如何在 JSF 中使用动态代理

我在使用 Spring JPA 和动态代理 DAO 类时遇到一些问题这些类被初始化为 Spring Beans 这个特定的项目在持久性事务方面一直困扰着我一段时间我想一劳永逸地解决这个问题首先这是 DAO 接口的一个方法 Perf
switch 语句中如何出现 NaN 情况？

Since NaN NaN评估为false 是否可以添加一个NaN案例到一个switch陈述例如假设我想进行以下切换 switch x case 1 case 2 case 4 doSomething break case NaN do
XML 模式：maxOccurs、minOccurs

当我运行我的代码时它给了我这个错误 s4s att not allowed Attribute maxOccurs cannot appear in element element 这是我的架构
React js 中是否有 ng-show 和 ng-hide 的等效项？

是否有等效的ng show and ng hide in react js
如何在css中使用下载的字体

这里非常入门级我有一个 ttf我想用于我的博客的字体文件但我不确定如何在哪里可以获得其编码这大约是对的吗 font family providence bold src url font providence bold regula
为什么 platform.release() 在 Windows 10 中返回“8”？ [复制]

这个问题在这里已经有答案了我在我的 Windows 10 工作站上运行它 import platform print platform release gt 8 我有些困惑因为我使用的是 Windows 10 响应不应该是 10 吗我
Entity Framework 4.0 是否允许在没有设计人员的情况下工作？

我目前喜欢使用 NHibernate Fluent NHibernate 我考虑使用 Entity Framework v1 因为它有成熟的 Linq 支持但我不喜欢与点击设计师一起工作而且它也不支持 POCO 现在 EF v4 确实支
Android Studio - 平板电脑模拟器未显示正确的分辨率

刚刚创建了 Nexus 10 模拟器但当我启动它时显示错误的分辨率当它应该显示为 2560 x 1600 时它却一直显示为 800 x 1280 有谁知道到底发生了什么以及如何解决这个问题根据OP的要求在创建 AVD 的最后一步
无法打开数据库文件

private void SetConnection string a string Format Data Source 0 Version 3 New False Compress True lodeDb db sql con new
无法解析外部依赖 org.springframework.boot:spring-boot-starter: 因为没有定义存储库

我有一个多重构建项目目前正在设置它每个模块自然都有一个gradle build文件仅包含以下内容 dependencies 在主要build gradle每个模块都需要我想要的文件但是当我做一个gradle build我收到一条错误消
Oracle 10g - 将查询结果写入文件

我想运行 200 多个选择查询并将结果附加到文件中所有查询都是相同的唯一的区别在于日期时间变量我没有创建例程的权限这就是我必须创建所有查询的原因我没有权限创建视图或另一个表来存储结果我无权访问 PL SQL 现在我需要创建一个报
Nuxt，将 Vuex 存储拆分为单独的文件会出现错误：未知突变类型：登录

我试图将我的 Nuxt Vuex 存储文件拆分为单独的文件并且没有全部Vuex getters mutations and actions到一个巨大的文件中这演示项目位于 Github 上 https github com dutchw
欧芹表单验证 - 事件监听器

好的所以我已经到处寻找这个但仍然无法让它工作似乎没有人尝试过但我确信它可以做到我想在我的 Twitter 引导项目中使用 Parsley 验证插件我已经阅读了文档但仍在学习 JQuery 所以它超出了我的理解范围我正在合理化
猫鼬一对多

你能解释一下如何组织猫鼬模型来创建一对多连接吗需要单独收藏假设我有商店和物品 store js var mongoose require mongoose module exports mongoose model Store name
Python查找列表中n个连续的数字

我想知道如何查找列表中的一行中是否存在一定数量的连续数字例如例如如果我正在寻找两个 1 那么 list 1 1 1 4 6 original list list true true 1 4 6 after my function ha
lxml cssselect 解析

我有一个包含以下数据的文档 div class ds list b 1 b A domesticated carnivorous mammal i Canis familiaris i related to the foxes and wo

lxml cssselect 解析

lxml cssselect 解析 的相关文章

随机推荐

热门标签

lxml cssselect 解析的相关文章