lxml classic：获取除嵌套标签之外的文本内容？

2023-12-07

这一定是绝对的经典，但我在这里找不到答案。我正在使用 lxml cssselect 解析以下标签：

<li><a href="/stations/1"><span class="num">3</span> Detroit</a></li>

我想获取的内容<li> tag without的内容<span> tag.

目前我有：

stop_list = doc.cssselect('ol#stations li a')
start = stop_list[0].text_content().strip()

但这给了我3 Detroit。我怎样才能得到Detroit?

对于你的例子，我认为使用 XPath 比 CSS 更干净、更容易：

>>> xml = '<li><a href="/stations/1"><span class="num">3</span> Detroit</a></li>'
>>> root = etree.fromstring(xml)
>>> print( root.xpath('/li/a/text()'))
[' Detroit']

>>> xml = '<li><a href="/stations/1">I <span>FooBar!</span> love <span class="num">3</span> Detroit</a></li>'
>>> root = etree.fromstring(xml)
>>> print( root.xpath('/li/a/text()'))
['I ', ' love ', ' Detroit']

>>> ' '.join([x.strip() for x in root.xpath('/li/a/text()')])
'I love Detroit'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

lxml

lxml classic：获取除嵌套标签之外的文本内容？的相关文章

如何在 Windows 10 上使用 python 3.7 的 anaconda 包？

我使用的是 Windows 10 Pro 64 位版本我从此页面下载Anaconda3 2019 03 Windows x86 64 exe https www anaconda com distribution https www an
只使用 Django 的某些部分？

我喜欢 Django 但对于一个特定的应用程序我只想使用它的一部分但我对 Django 的内部工作原理还不够熟悉所以也许有人可以指出我必须做什么的正确方向查看具体来说我想使用模型和数据库抽象 The 缓存API http doc
如何测试使用 XCom 的 Apache Airflow 任务

我正在尝试找出一种测试 DAG 的方法其中有几个任务使用 XCom 进行通信由于控制台命令只允许我从 DAG 运行任务有没有一种方法可以测试通信而无需通过 UI 运行 DAG Thanks 这是一种对我有用的方法尽管 Airflow
Python sqlite3参数化删除表

我在 python 中删除 sqlite3 表时遇到问题我正在使用标准sqlite3模块 self conn sqlite3 connect sql drop table self conn execute sql u table nam
Python 按照层次结构按多个分隔符分割字符串

我只想根据多个分隔符例如 and 和按顺序分割字符串一次例子 121 34 adsfd gt 121 34 adsfd dsfsd and adfd gt dsfsd adfd dsfsd adfd gt dsfsd adfd dsf
蜘蛛内的Scrapyd jobid值

Scrapy 框架 Scrapyd 服务器我在获取蜘蛛内部的 jobid 值时遇到一些问题将数据发布到后http localhost 6800 schedule json http localhost 6800 schedule jso
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
Windows Defender 检测 Python EXE 为木马

我制作了一个 Python 脚本将 Windows 目录以 zip 形式邮寄给我我使用 sched 模块添加了一个调度程序每小时重复一次我试图制作一个简单的同步应用程序供个人使用在 Windows 启动时启动我使用将其转换为 e
Flask 中的 import 和 extends 有什么区别？

我正在阅读 Flask Web 开发在例4 3中 extends base html import bootstrap wtf html as wtf 我想知道 extends 和 import 有什么区别我认为它们在用法上很相似在什
读取文件特定行号的有效方法。（奖励：Python 手册印刷错误）

我有一个 100 GB 的文本文件它是来自数据库的 BCP 转储当我尝试导入它时BULK INSERT 我在第 219506324 行上收到一个神秘错误在解决此问题之前我想看看这一行但可惜的是我最喜欢的方法 import line
如何删除 pandas 数据框中的唯一行？

我遇到了一个看似简单的问题在 pandas 数据框中删除唯一的行基本上相反drop duplicates https pandas pydata org pandas docs stable generated pandas Data
如何在 Pytorch 中将一维 IntTensor 转换为 int

如何将一维 IntTensor 转换为整数这 IntTensor int 给出错误 KeyError Variable containing 423 torch IntTensor of size 1 我所知道的最简单最干净的方法 In
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
如何在 Sublime 2 REPL Mac 中运行 Python 3

我的问题如下我安装了 sublime 2 和 sublime repl 插件一切正常我唯一需要的是更改在控制台内置的 sublimerepl 上运行的 python 版本我的意思是我有 python 2 7 5 预先安装了 mav
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
Python：帮助（numpy）在退出时导致段错误

我遇到了一个奇怪的现象在 python 解释器中我执行以下操作 gt gt gt import numpy gt gt gt help numpy 帮助显示正确但一旦我按 q 返回解释器 Segmentation fault core
Python 中的十进制到二进制半精度 IEEE 754

我只能使用以下命令将十进制转换为二进制单精度 IEEE754struct pack模块或者使用相反的方法 float16 或 float32 numpy frombuffer 是否可以使用 Numpy 将十进制转换为二进制半精度浮点数我
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
如何配置 Eclipse 在使用 Pydev 插件选择“运行”或“调试”时启动浏览器

我正在使用 Eclipse Pydev 插件学习 Python 和 Django 当我按运行或调试时我希望内部或外部浏览器使用 URL http 127 0 0 1 启动或刷新我见过用 PHP 插件完成的但没有用 Pydev
在多个图表上绘制一条线

I don t know how this thing is called or even how to describe it so the title may be a little bit misleading The first a

随机推荐

void ** 和 void * 的编译警告

我有一个关于void and void 我知道这是一个老问题并且之前在 stackoverflow 中已经被问过某种程度上所以问题如下当我在 ubuntu 10 10 下使用 gcc 4 4 3 编译此代码时收到以下警告 zz c
Android：使用捆绑包在片段之间传递数据

我正在尝试使用捆绑包在不同活动的片段之间传递数据我有两个片段片段 A 附加在活动 A 上片段 B 附加到另一个活动活动 B 我需要将编辑文本字符串从片段 A 传递到片段 B 我如何使用捆绑包来实现这一点有人可以给我一个 kotli
CSS背景拉伸到窗口底部？

我正在帮助重新设计一个网站www liveatsheastadium com test 我试图找出一种方法来获得透明背景使用background rgba 属性来拉伸页面的整个高度无论分辨率如何我尝试将容器 html 和正文高度设置
在 PowerShell 中设置表格格式以导出为 CSV

我严重睡眠不足压力很大所以这可能非常简单但我仍然无法弄清楚我想要导出各种内容例如服务进程防火墙规则本地用户以及我需要的任何内容作为 CSV 但是每当我将其导出时当我打开它时 CSV 在 Excel 中只有 1 列我只希
为什么使用十六进制？

嘿我正在看这段代码http www gnu org software m68hc11 examples primes 8c source html 我注意到在某些情况下他们使用十六进制数字例如第 134 行 for j 1 val j
使用 bq 将 null 加载到 bigquery 中

当我使用https developers google com bigquery docs reference v2 tables insert try it上传一个 JSON 文件但未在所有列中插入所有字段它被接受并且我的数据中出现
如何在 Android 中使用 XML 创建多语言应用程序？

我想创建一个多语言 Android 应用程序包含三种语言英语阿拉伯语和波斯语我必须在资产文件夹中创建三个 XML 文件并解析它们然后使用一个用于该语言请帮我解决我的问题吗您需要有不同的 strings xml 来支持不同的语言
Vue SFC 样式未在 webpack 生产构建中提取

尝试将 vue 和 SFC 添加到我的 webpack 应用程序中这
stringr包中的Perl正则表达式

The perl 最新版本的 stringr 中不推荐使用该函数而是使用regex 但是我似乎无法复制早期的行为要将字符串向量的第一个字母大写可以使用以下方法 name lt c jim john bill str replace
如何在 iPhone 上将一张图像与另一张图像进行比较，看看它们是否有一定比例的相似度？

我基本上想用 iPhone 或 iPad 2 上的相机拍摄两张图像然后将它们相互比较看看它们是否几乎相同显然由于光线等原因图像永远不会完全相同因此我想检查大约 90 的兼容性我在这里看到的所有其他类似的问题要么不是针对 iOS
通过调用方法将字符串传递给属性参数

我正在尝试使用 NUnit 并将字符串参数传递给 TestCase 属性但我得到属性参数必须是属性参数类型的常量表达式 typeof 表达式或数组创建表达式这是一个简化版本但 MyStatic 是一个返回构建的 RegEx 字符串的
在 Hyperledger 结构中动态添加组织或组织中的对等方

我在用http hyperledger fabric doc readthedocs io en latest getting started html用于 Ubuntu VM 中的 Hyperledger Fabric 设置根据教程 f
在 Postgres 中将表从一个数据库复制到另一个数据库

我正在尝试将整个表从一个数据库复制到 Postgres 中的另一个数据库有什么建议么提取表并将其直接通过管道传输到目标数据库 pg dump t table to copy source db psql target db Note 如
在 CRM 2011 中禁用系统功能区

我想使用 javascript 有条件地禁用 CRM 2011 表单中的系统功能区 AddNew 这意味着如果 statusCode 是 X 或 Y 禁用功能区我该怎么做我尝试获取功能区的 ID 以便将功能区的类名更改为禁用但我得到
使用局部变量提升精神

我想根据先前解析的值定义一个规则即 e 输入字符串具有以下结构 D
使用 google picker 打开特定的 MimeType

我正在使用实时 API 并且正在使用 realtime client utils 使用现有代码我使用此方法创建实时文件 createRealtimeFile function title callback gapi client load
.apply(Math, arrayName) 在 JS 中如何工作？

有more than one关于如何在 javascript 中查找值数组的最小值或最大值的 stackoverflow 问题这不是那个问题我想知道为什么路过 apply 奇怪的事情this论证仍然有效尽管一篇好博文从 Aaron C
使用 Maven 管理 DLL 依赖项

我有一个 Java 程序使用 Maven 管理其依赖项其中一个依赖项是另一个程序的 JNI 包装器 Maven 负责对相关 JAR 文件的引用但我自己却在处理 DLL 文件有没有好的方法让 Maven 也处理 DLL 理想情况下我
如何清除所有用户的会话？

我在我的项目中使用 php 会话我更新了代码向会话添加了一些值现在我需要清除所有现有会话 ps 我的操作系统是ubuntu 9 04 默认情况下 PHP 会话信息存储在 tmp 下的文件中文件名通常以 sess 为前缀因此删除这些
lxml classic：获取除嵌套标签之外的文本内容？

这一定是绝对的经典但我在这里找不到答案我正在使用 lxml cssselect 解析以下标签 li a href stations 1 span class num 3 span Detroit a li 我想获取的内容 li tag

lxml classic：获取除嵌套标签之外的文本内容？

lxml classic：获取除嵌套标签之外的文本内容？ 的相关文章

随机推荐

热门标签

lxml classic：获取除嵌套标签之外的文本内容？的相关文章