剥离 HTML 标签以获取 python 中的字符串

2023-12-10

我尝试使用 BeautifulSoup 从 HTML 文件中获取一些字符串，每次使用它时我都会得到部分结果。

我想获取每个 li 元素/标签中的字符串。到目前为止，我已经能够像这样获得 ul 中的所有内容。

#!/usr/bin/python
from bs4 import BeautifulSoup
page = open("page.html")
soup = BeautifulSoup(page)
source = soup.select(".sidebar li")

我得到的是这样的：

[<li class="first">
        Def Leppard -  Make Love Like A Man<span>Live</span> </li>, <li>
        Inxs - Never Tear Us Apart        </li>, <li>
        Gary Moore - Over The Hills And Far Away        </li>, <li>
        Linkin Park -  Numb        </li>, <li>
        Vita De Vie -  Basul Si Cu Toba Mare        </li>, <li>
        Nazareth - Love Hurts        </li>, <li>
        U2 - I Still Haven't Found What I'm L        </li>, <li>
        Blink 182 -  All The Small Things        </li>, <li>
        Scorpions -  Wind Of Change        </li>, <li>
        Iggy Pop - The Passenger        </li>]

我只想从中获取字符串。

使用漂亮的汤 - .strings 方法。

for string in soup.stripped_strings:
print(repr(string))

来自文档：

如果标签内有多个内容，您仍然可以查看只是琴弦。使用 .strings 生成器：

这些字符串往往有很多额外的空格，您可以使用 .stripped_strings 生成器来删除：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

htmlparsing

beautifulsoup

strip

剥离 HTML 标签以获取 python 中的字符串的相关文章

FastAPI UploadFile 与 Flask 相比慢

我创建了一个端点如下所示 app post report upload def create upload files files UploadFile File try with open files filename wb as wf
保存下拉列表中的值

这是我的情况我有 2 页一页用于选择值一页用于编辑与该值关联的数据库相关内容现在我对如何将从下拉列表中选择的值保存到 PHP 的变量中一无所知并且已经进行了相当多的研究有任何想法吗 HTML
python win32com.client 调整窗口大小

我正在使用 Python 3 4 1 通过 win32com client 控制 Windows 应用程序我可以激活它我可以发送击键点击等现在我想知道是否有办法调整窗口大小并将其设置到特定位置我找不到方法这里有一些代码片段所以
如何用pygame画一条虚线？

我需要在坐标系上绘制正弦波和余弦波就像在this https i stack imgur com DGI8g png图片除了没能代表以外我所有的工作都做得很好虚线和曲线与 pygame 一致我有与我需要的类似的东西但我怎样才能让它
关于具有自定义损失的 3 输出 ANN 的加权

我正在尝试定义一个自定义损失函数它在回归模型中接收 3 个输出变量 def custom loss y true y pred y true c K cast y true float32 Shape batch size 3 y pre
如何使用 Python 在表单中选择选项？

我想知道如何以格式如下的形式选择选项 td align left td
CreateJs Canvas 形状在 Windows Phone 上丢失坐标

我正在制作一个 Createjs 和 html5 项目在其中绘制一个形状红色圆圈当我单击圆圈时它会发出警报它在所有台式机和 Android 手机上都能正常工作除非我在 Windows Phone 中打开它否则它在普通屏幕上工作正
使用 Popen 打开进程并获取 PID

我正在开发一个漂亮的小功能 def startProcess name path Starts a process in the background and writes a PID file returns integer pid Ch
构建两列 html 表单的最佳方法？

对齐以下内容的最佳方法是什么我想要 inputTitle左边和右边inputInput在右边两者之间有错误 CSS crud form width 430px margin 10px solid font family Verdana
使用张量流导出神经网络的权重

我使用张量流工具编写了神经网络一切正常现在我想导出神经网络的最终权重以制定单一的预测方法我怎样才能做到这一点您需要在训练结束时使用以下命令保存模型tf train Saver https www tensorflow org ver
Pandas 根据条件替换数据框值

我有一个主数据框 df Colour Item Price Blue Car 40 Red Car 30 Green Truck 50 Green Bike 30 然后我有一个价格修正数据框 df pc Colour Item Price
如何读取多个文件并将它们合并到一个 pandas 数据框中？

我想读取位于同一目录中的多个文件然后将它们合并到一个 pandas 数据框中如果我这样做的话它会起作用 import pandas as pd df1 pd read csv data 12015 csv df2 pd read csv
我应该在哪里对对象和字段进行 django 验证？

我正在创建一个 Django 应用程序它使用 Django Rest Framework 和普通的 django views 作为用户的入口点我想对模型的独立字段以及整个对象进行验证例如字段根据正则表达式函数输入的车牌是否正确与
从函数在 python 3 中创建全局变量

我想知道为什么在函数结束后我无法访问变量 variable for raw data 代码是这样的 def htmlfrom Website URL import urllib request response urllib request
model.predict() 返回类而不是概率

Hello 我是第一次使用 Keras 我训练并保存了一个模型作为 json 文件及其权重该模型旨在将图像分为 3 个类别我的编译方法 model compile loss categorical crossentropy optim
在画布上剪出圆形图像

我正在使用 html5 canvas 并且我正在创建一个游戏可以将您的脸部上传到游戏中并将其用作主要角色不幸的是游戏中的角色是圆形的就像笑脸一样那么这将如何完成呢是否可以拍一张照片然后将其剪成一个圆这样圆之外的任何东西都是
检测 html 选择框上的编程更改

有没有办法让 HTML 选择元素在每次以编程方式更改其选择时调用函数当使用 JavaScript 修改选择框中的当前选择时 IE 和 FF 都不会触发 onchange 此外更改选择的 js 函数是框架的一部分因此我无法更改它以在结束
如何更改数据表中标题单元格的内容？

我正在使用数据表 http datatables net plugin 在我的可排序列上我想用按钮替换列文本但是这样做 oSettings aoColumns i nTh text 我可以检索相应列的文本但是 oSettings ao
Flexbox 列的垂直间距相等

我在CSS中努力让我的Flexbox在垂直等距的列中显示项目从而使列的每行之间的空间均匀 html body flex container margin 0 height 100 width 100 body font family Dr
Python 子进程：无法转义引号

我知道以前曾问过类似的问题但它们似乎都是通过重新设计参数的传递方式即使用列表等来解决的但是我这里有一个问题因为我没有这个选项有一个特定的命令行程序我使用的是 Bash shell 我必须向其传递带引号的字符串它不能不被引用

随机推荐

Mongodb 错误：子进程失败，退出，错误号 51

mongodb 由于某种原因关闭了系统异常关闭当我尝试重新启动 mongodb 使用 mongod f usr local mongodb etc mongo conf got about to fork child process w
Java 游戏 - ClassCastException

我正在开发一个简单的 java 游戏我的滚动条引发异常滚动条应该是一个 gameslider 线程 Thread 3 中的异常 java lang ClassCastException sun java2d NullSurfaceDat
自动布局 iOS 11 工具栏 UIBarButtonItem 与 customView

最近在我们的项目中使用自定义视图的 UIBarButtonItem 出现了问题在 iOS 11 之前我们通过灵活的间距项进行布局这不再起作用所以什么也没有显示因为我在这里没有找到真正为我解决问题的答案所以我研究了它并提出了一
在 cmake 中命名可执行文件

我正在开发一个项目并决定将其移植到 CMake 在配置时我使用了占位符构建名称 build 没有遇到任何问题但当我把名字改成S W CMake 不让我构建它产生了错误消息 cmake CMake Error at CMakeLists
如何使用 System.Net.ConnectStream？

我正在尝试了解我前辈的一些代码他们使用 var 来声明所有内容这很有帮助我有一个使用声明如下 using var postStream request GetRequestStream postStream Write byteDat
了解 ImageMagick 的转换并转换为 Ruby RMagick

我未能将以下 PHP ImageMagick 代码转换为 Ruby RMagick 以使未来的用户更易于管理并了解它真正在做什么 output array returnValue 0 pngFiles myDir gt find png i
启用 Docker 远程 API - raspberry pi / raspbian

我的出发点是如何使用docker Remote api创建容器所以我编辑 etc init docker conf并更新 2 次出现的DOCKER OPTS变量为 DOCKER OPTS H tcp 0 0 0 0 4243 H uni
“无法设置 Range 类的 Width 属性”

我正在致力于自动化构建成本估算表基于假设规则政策等一切顺利直到我想自动设置列宽这里有一个简短的蒸馏 Dim NumCE As Integer Dim TotalWidth As Integer NumCE 1 Sheets Co
jqGrid 删除一行

我已经创建了网格并想使用网格的默认行为来删除一行这是我的网格设置代码 grid jqGrid navGrid grid pager add true addtitle Add Customer edit true edittitle E
isReleaseBuild() 是 Android Gradle DSL 的一部分吗？

我按照类似于以下的说明进行操作 Android Library Gradle 发布 JAR 但是我收到以下错误在项目 myProject 上找不到参数的 isReleaseBuild 方法我在 Maven 集成中看到的示例都没有定义
Pandas 数据帧太大而无法附加到 dask 数据帧？

我不确定我在这里缺少什么我认为 dask 可以解决我的内存问题我有 100 多个以 pickle 格式保存的 pandas 数据帧我希望将它们全部放在同一个数据框中但不断遇到内存问题我已经增加了 jupyter 中的内存缓冲区看
Firefox 浏览器无法识别 table.cells 吗？

我有以下 JavaScript 代码 var myCellCollection document getElementById myTbl cells 这在 IE 中效果很好它返回表格单元格的集合但同一行在 Firefox 中返回未定
在不使用配置规范的情况下从 Clearcase 复制具有特定标签的元素

如何从中复制元素或文件Clearcase具有特定的label 不应用该label in config specs 我不想更改视图的配置规范但我需要访问所选文件之一的旧版本并且我想直接从现有视图执行此操作同样不更改任何内容我知道我想
iOS 13 文本转语音（TTS - AVSpeechSynthesisVoice）更新后某些用户崩溃

更新到 iOS 13 后我们发现一小部分用户因 TTS 问题而出现奇怪的崩溃有人知道为什么会发生这种情况吗有人看到同样的崩溃吗 let voices AVSpeechSynthesisVoice speechVoices for vo
使用空手道框架执行 API 测试时观察到 DNS 错误 [重复]

这个问题在这里已经有答案了在通过 karat 对 api 执行 get 调用时当我使用的代理被注释时观察到 DNS 错误但如果我使用代理它会返回 401 错误下面是以下代码特征文件代码 Background url baseUr
使用 Dask 导入大型 CSV 文件

我正在使用 Dask 导入一个非常大的 csv 文件 680GB 但是输出不是我所期望的我的目标是仅选择一些列 6 50 并可能过滤它们我不确定因为似乎没有数据 import dask dataframe as dd file pa
SQL 截断、删除、删除建议

我在 SQL 数据库中有一个表想要从中删除数据不过我想保留这些列例如我的表有 3 列姓名年龄日期我不想删除这些我只想删除数据我应该截断删除还是删除不要删除它会删除数据和定义如果删除数据就会消失并且自动增量值将从
如何将文本放置在边框上？

我能够让它在白色背景下工作但在背景不是白色的情况下该解决方案也不起作用我做了什么应该很明显为什么它不起作用负边距背景设置为背景颜色有什么解决方案可以使它始终看起来不错吗一种方法是使用间隔跨度和包装器在本例中header 所有
Diesel：BoxableExpressions 在表及其连接上通用？

我正在尝试在运行时构造一些过滤器这些过滤器可以应用于表tunnel or to tunnel LEFT OUTER JOIN connection ON tunnel id connection tunnel id 这些表的定义如下 De
剥离 HTML 标签以获取 python 中的字符串

我尝试使用 BeautifulSoup 从 HTML 文件中获取一些字符串每次使用它时我都会得到部分结果我想获取每个 li 元素标签中的字符串到目前为止我已经能够像这样获得 ul 中的所有内容 usr bin python fro

剥离 HTML 标签以获取 python 中的字符串

剥离 HTML 标签以获取 python 中的字符串 的相关文章

随机推荐

热门标签

剥离 HTML 标签以获取 python 中的字符串的相关文章