从 python BeautifulSoup 的输出中删除新行 '\n'

2023-11-24

我正在使用 python Beautiful soup 来获取以下内容：

<div class="path">
    <a href="#"> abc</a>
    <a href="#"> def</a>
    <a href="#"> ghi</a>
</div>

我的代码如下：

html_doc="""<div class="path">
    <a href="#"> abc</a>
    <a href="#"> def</a>
    <a href="#"> ghi</a>
</div>"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)

path = soup.find('div',attrs={'class':'path'})
breadcrum = path.findAll(text=True)

print breadcrum

输出如下，

[u'\n', u'abc', u'\n', u'def', u'\n', u'ghi',u'\n']

我怎样才能得到这种形式的结果：abc,def,ghi作为单个字符串？

我也想知道由此获得的输出。

你可以这样做：

breadcrum = [item.strip() for item in breadcrum if str(item)]

The if str(item)将在删除新行字符后负责删除空列表项。

如果您想连接字符串，请执行以下操作：

','.join(breadcrum)

这会给你abc,def,ghi

EDIT

尽管上面给出了您想要的内容，正如线程中其他人指出的那样，但您使用 BS 提取锚文本的方式是不正确的。一旦你拥有了div根据您的兴趣，您应该使用它来获取它的子项，然后获取锚文本。作为：

path = soup.find('div',attrs={'class':'path'})
anchors = path.find_all('a')
data = []
for ele in anchors:
    data.append(ele.text)

然后做一个','.join(data)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

从 python BeautifulSoup 的输出中删除新行 '\n' 的相关文章

生成 Flask 中使用的签名会话 cookie 值

我正在用另一个需要将项目注入会话的 Flask 服务器代理 Flask 服务器两台服务器具有相同的密钥因此加密签名将相同当使用 Flask 和会话时 http 响应包含一个 Set Cookie 标头session text 其中 t
Pytorch - 推断线性层 in_features

我正在构建一个玩具模型来获取一些图像并进行分类我的模型看起来像 conv2d gt pool gt conv2d gt linear gt linear 我的问题是当我们创建模型时我们必须计算第一个线性层的大小in features基
如何使用playsound模块停止音频？

如何在Python代码中通过playaudio模块停止音频播放我播放过音乐但我无法停止音乐我怎样才能阻止它 playsound playsound name of file 您可以使用多处理模块将声音作为后台进程播放然后随时终止它
Keras model.summary() 结果 - 了解参数数量

我有一个简单的神经网络模型用于使用 Keras Theano 后端从用 python 编写的 28x28px 图像中检测手写数字 model0 Sequential number of epochs to train for nb ep
如何将人物传奇带到前台？

我有一系列子图其中每个子图都有一个图例我想在每个子图之外与相邻子图重叠问题在于图例位于其自己的图的顶部但位于相邻图的下方 Legend 不将 zorder 作为参数所以我不知道如何解决这个问题这是我使用过的代码 import
如何在python 2.7.8中将非英文字母的字典写入文件？

这是一个简单的例子 test location 北京 country 中国 the values are Chinese 在文件 test log 中 location 北京 country 中国在python 2 7 8中当我需要输出
Python实时读取串口数据

我正在使用 Python 中的脚本通过串行端口以 2Mbps 的速度从 PIC 微控制器收集数据 PIC 在 2Mbps 下完美定时工作 FTDI USB 串行端口在 2Mbps 下工作也很好均通过示波器验证我每秒发送消息大小约为 1
如果每个区域内至少有 5 个连续行，如何在每个标题区域的末尾使用 Title[Name]2 发布新行？

我想在每个 Title 区域的末尾使用 Title Name 2 发布新行的最简单方法是通过一个计算连续行数的变量其中至少有 5 个连续行包含 1 1 1 1在每个标题区域内我不确定我对计数变量做错了什么也许确实必须在每个 Tit
使用pip安装pylibmc时出错

您好当我尝试使用 pip 在 OSX Lion 上安装 pylibmc 时出现以下错误 pylibmcmodule h 42 10 fatal error libmemcached memcached h file not found
按字符串子字符串的列过滤 Pandas 数据框

我正在尝试使用列中的字符串值是数据框外部字符串的子字符串的条件来过滤数据框下面的例子 df a b c hello bye hello reference str hello there output a c 一种方法可能是使用正则表达式
Django Rest Framework 序列化器中的聚合（和其他带注释的）字段

我正在尝试找出添加带注释字段的最佳方法例如将任何聚合计算字段添加到 DRF 模型序列化器我的用例只是一种情况端点返回的字段未存储在数据库中而是从数据库计算得出让我们看下面的例子模型 py class IceCreamCom
如何从 Python 3.5 降级到 3.4

我想安装 kivy 链接在这里 https kivy org docs installation installation windows html install win dist 用于项目但是当尝试使用 pip 安装它所依赖的包时
自适应支付 API 错误 580001

我正在 python 中向 paypal 自适应支付 API 发出 PAY 请求并收到通用错误 id 580001 没有其他信息 headers API credentials for the API caller business ac
尝试将 cuda 与 pytorch 一起使用时出现运行时错误 999

我为我的 Geforce 2080 ti 安装了 Cuda 10 1 和最新的 Nvidia 驱动程序我尝试运行一个基本脚本来测试 pytorch 是否正常工作但出现以下错误 RuntimeError cuda runtime erro
Python itertools groupby 中令人不安的奇怪行为/错误？

我在用itertools groupby解析一个短的制表符分隔的文本文件文本文件有几列我想做的就是对具有特定值的所有条目进行分组x在特定的列中下面的代码对名为的列执行此操作name2 寻找变量中的值x 我尝试使用以下方法来做到这一点c
枚举上的 random.choice

我想用random choice on an Enum I tried class Foo Enum a 0 b 1 c 2 bar random choice Foo 但是这段代码失败了KeyError 我怎样才能随机选择一个成员Enum
返回吃异常

我至少发现了以下行为weird def errors try ErrorErrorError finally return 10 print errors prints 10 It should raise NameError name E
PyMC3 和 Theano - 导入 pymc3 后，有效的 Theano 代码停止工作

一些简单的 theano 代码可以完美运行当我导入 pymc3 时停止工作这里有一些片段可以重现错误 Initial Theano Code this works import theano tensor as tsr x tsr ds
混合两个列表的Pythonic方法[重复]

这个问题在这里已经有答案了我有两个长度为 n 和 n 1 的列表 a 1 a 2 a n b 1 b 2 b n 1 我想要一个函数作为结果给出一个列表其中包含两个中的替代元素即 b 1 a 1 b n a n b n 1 以下方法有
真实值与预测值的降维可视化

我有一个数据框如下所示 label predicted F1 F2 F3 F40 major minor 2 1 4 major major 1 0 10 minor patch 4 3 23 major patch 2 1 11 min

随机推荐

为什么 Java if 语句以分号结尾时会失败 [重复]

这个问题在这里已经有答案了我在开发应用程序时犯了一个编码错误这是对空引用的测试我花了几个小时才发现问题所在但我不明白的是为什么代码会这样 String name null String value null if name null
Scikit-learn：如何水平标准化行值？

我想水平地而不是垂直地标准化下面的值该代码读取代码后提供的 csv 文件并输出具有标准化值的新 csv 文件如何使其水平标准化给出的代码如下 Code norm code py normalization x min max min
如何更改谷歌地图默认当前位置标记颜色

我想更改默认电流位置标记颜色 from 蓝色到其他任何人都可以帮助我如何做到这一点以下是我要更改的图标颜色 EDIT 您无法更改默认值您必须拥有并隐藏默认值您可以通过将自己的标记添加到地图来使用它们 MarkerOptions ma
连接 Oracle 中 SQL 查询的结果

我的表中有这样的数据 NAME PRICE A 2 B 3 C 5 D 9 E 5 我想在一行中显示所有值例如 A 2 B 3 C 5 D 9 E 5 我该如何进行查询才能在 Oracle 中得到这样的字符串我不需要将它编程成某种东西
数据表标题未对齐

下图显示了单击文本框搜索过滤之前数据表未对齐的标题一旦后者成为焦点标题就会再次对齐我注意到当scrollY关闭时标题很好我需要它知道如何解决它在下面的代码片段中只需更改分页选项您就可以再次看到标题的重新对齐 RegSr
Kotlin - 数据类实体抛出 StackOverflowError

我尝试将 kotlin 版本 1 2 21 与 spring boot 1 5 9 RELEASE 结合起来我在使用带有 Entity 注释的数据类时遇到了问题我的有问题的实体如下所示 Entity Table name APP USE
OpenMP 递归任务

考虑以下计算斐波那契数的程序它使用 OpenMP 任务进行并行化 include
OpenJDK 适用于 Windows 操作系统 [已关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案是否有适用于 Windows 的 OpenJDK 安装程序并且免费更新的时间可能比 Oracle 提供的时间更长 OpenJDK 主页 http
为什么 Javascript `iterator.next()` 返回一个对象？

帮助在使用 C 编程相当长一段时间后我正在学习喜欢 Javascript 但我一直在学习喜欢可迭代协议为什么 Javascript 采用protocol这需要为每次迭代创建一个新对象为什么有next 返回一个带有属性的新对象done
MySQL：存储过程中的 IF / THEN 语句

我正在编写一个使用多个 IF THEN 语句的存储过程如果它们的计算结果为 true 则还需要执行多个查询问题是我似乎找不到任何适当语法的示例来自MySQL 开发手册似乎我可以在 statement list 中进行多个查询但到
Thread.sleep 等待时间超出预期

以下代码 long msBefore System currentTimeMillis Thread currentThread setPriority Thread MAX PRIORITY try Thread sleep 200 ca
查找 MySQL JSON 对象或数组的交集

问题是关于MySQL MariaDB JSON 函数如何找到多个 JSON 结构的交集在 PHP 中它是使用以下代码完成的 array intersect a b b c 如果我们想象一个名为 JSON INTERSECT 的函数代
接受来自 scanf 函数的任意数量的输入

我正在尝试使用读取未知数量的输入scanf功能 int a 100 int i 0 while scanf d a i n i Next part of the code 但是这个函数不会进入代码的下一部分似乎有一个无限的 while 循
Spring - 计划任务 - 优雅关机

我有一个 Spring Boot 应用程序其中有一个 Bean 以大约 1 分钟的间隔运行计划任务并且该 Bean 有一个 PreDestroy方法是否有解决方案允许当前正在执行的任务在生命周期到达预销毁阶段之前完成或者至少给定一些
如何管理 AngularJS 中加载指令模板的 404 错误

在 AngularJS 指令中templateUrl参数是动态定义的 templates content id html 我不想建立规则来检查是否content id值有效并将其管理为 404 错误即如果模板不存在服务器在加载模板时返回
如何区分InputBox取消和确定按钮？

快速提问我正在使用一个Microsoft VisualBasic Interaction InputBox在我的 C 代码中允许用户将网站添加到列表中但我不希望他们输入空字符串因此我会弹出错误窗口以防发生这种情况但是如果用户按
如何删除向量的每个第三个元素？

我有以下向量 myList c 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 如何删除每个第三个元素不是这样的 myList myList 3 myList myList 6 我需要以下输出 1 2 4 5 7
无法在AWS Lambda函数上使用ES6；如何在 Lambda 中导入 ES6 模块

我有一个图书馆foo这是用 ES6 编写的 import export并在打字稿中我有一个应用程序bar它使用foo bar也是用导出和 Typescript 编写的我想得到bar在 AWS Lambda 上运行据我所知我不能使用i
=+ Python 运算符语法正确

我无意中写道 total acc accuracy 代替 total acc accuracy 我在网上搜索没有找到anything 那么发生了什么为什么 Python 认为我正在输入的内容是什么意思 Computers trust us
从 python BeautifulSoup 的输出中删除新行 '\n'

我正在使用 python Beautiful soup 来获取以下内容 div class path a href abc a a href def a a href ghi a div 我的代码如下 html doc div class

从 python BeautifulSoup 的输出中删除新行 '\n'

从 python BeautifulSoup 的输出中删除新行 '\n' 的相关文章

随机推荐

热门标签