从 python BeautifulSoup 的输出中删除新行 '\n'

2023-11-24

我正在使用 python Beautiful soup 来获取以下内容:

<div class="path">
    <a href="#"> abc</a>
    <a href="#"> def</a>
    <a href="#"> ghi</a>
</div>

我的代码如下:

html_doc="""<div class="path">
    <a href="#"> abc</a>
    <a href="#"> def</a>
    <a href="#"> ghi</a>
</div>"""
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc)

path = soup.find('div',attrs={'class':'path'})
breadcrum = path.findAll(text=True)

print breadcrum

输出如下,

[u'\n', u'abc', u'\n', u'def', u'\n', u'ghi',u'\n']

我怎样才能得到这种形式的结果:abc,def,ghi作为单个字符串?

我也想知道由此获得的输出。


你可以这样做:

breadcrum = [item.strip() for item in breadcrum if str(item)]

The if str(item)将在删除新行字符后负责删除空列表项。

如果您想连接字符串,请执行以下操作:

','.join(breadcrum)

这会给你abc,def,ghi

EDIT

尽管上面给出了您想要的内容,正如线程中其他人指出的那样,但您使用 BS 提取锚文本的方式是不正确的。一旦你拥有了div根据您的兴趣,您应该使用它来获取它的子项,然后获取锚文本。作为:

path = soup.find('div',attrs={'class':'path'})
anchors = path.find_all('a')
data = []
for ele in anchors:
    data.append(ele.text)

然后做一个','.join(data)

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

从 python BeautifulSoup 的输出中删除新行 '\n' 的相关文章

  • 生成 Flask 中使用的签名会话 cookie 值

    我正在用另一个需要将项目注入会话的 Flask 服务器代理 Flask 服务器 两台服务器具有相同的密钥 因此加密签名将相同 当使用 Flask 和会话时 http 响应包含一个 Set Cookie 标头session text 其中 t
  • Pytorch - 推断线性层 in_features

    我正在构建一个玩具模型来获取一些图像并进行分类 我的模型看起来像 conv2d gt pool gt conv2d gt linear gt linear 我的问题是 当我们创建模型时 我们必须计算第一个线性层的大小in features基
  • 如何使用playsound模块停止音频?

    如何在Python代码中通过playaudio模块停止音频播放 我播放过音乐 但我无法停止音乐 我怎样才能阻止它 playsound playsound name of file 您可以使用多处理模块将声音作为后台进程播放 然后随时终止它
  • Keras model.summary() 结果 - 了解参数数量

    我有一个简单的神经网络模型 用于使用 Keras Theano 后端 从用 python 编写的 28x28px 图像中检测手写数字 model0 Sequential number of epochs to train for nb ep
  • 如何将人物传奇带到前台?

    我有一系列子图 其中每个子图都有一个图例 我想在每个子图之外与相邻子图重叠 问题在于图例位于其自己的图的 顶部 但位于相邻图的下方 Legend 不将 zorder 作为参数 所以我不知道如何解决这个问题 这是我使用过的代码 import
  • 如何在python 2.7.8中将非英文字母的字典写入文件?

    这是一个简单的例子 test location 北京 country 中国 the values are Chinese 在文件 test log 中 location 北京 country 中国 在python 2 7 8中 当我需要输出
  • Python实时读取串口数据

    我正在使用 Python 中的脚本通过串行端口以 2Mbps 的速度从 PIC 微控制器收集数据 PIC 在 2Mbps 下完美定时工作 FTDI USB 串行端口在 2Mbps 下工作也很好 均通过示波器验证 我每秒发送消息 大小约为 1
  • 如果每个区域内至少有 5 个连续行,如何在每个标题区域的末尾使用 Title[Name]2 发布新行?

    我想在每个 Title 区域的末尾使用 Title Name 2 发布新行的最简单方法是通过一个计算连续行数的变量 其中至少有 5 个连续行包含 1 1 1 1在每个 标题区域内 我不确定我对计数变量做错了什么 也许 确实必须在每个 Tit
  • 使用pip安装pylibmc时出错

    您好 当我尝试使用 pip 在 OSX Lion 上安装 pylibmc 时 出现以下错误 pylibmcmodule h 42 10 fatal error libmemcached memcached h file not found
  • 按字符串子字符串的列过滤 Pandas 数据框

    我正在尝试使用列中的字符串值是数据框外部字符串的子字符串的条件来过滤数据框 下面的例子 df a b c hello bye hello reference str hello there output a c 一种方法可能是使用正则表达式
  • Django Rest Framework 序列化器中的聚合(和其他带注释的)字段

    我正在尝试找出添加带注释字段的最佳方法 例如将任何聚合 计算 字段添加到 DRF 模型 序列化器 我的用例只是一种情况 端点返回的字段未存储在数据库中 而是从数据库计算得出 让我们看下面的例子 模型 py class IceCreamCom
  • 如何从 Python 3.5 降级到 3.4

    我想安装 kivy 链接在这里 https kivy org docs installation installation windows html install win dist 用于项目 但是 当尝试使用 pip 安装它所依赖的包时
  • 自适应支付 API 错误 580001

    我正在 python 中向 paypal 自适应支付 API 发出 PAY 请求 并收到通用错误 id 580001 没有其他信息 headers API credentials for the API caller business ac
  • 尝试将 cuda 与 pytorch 一起使用时出现运行时错误 999

    我为我的 Geforce 2080 ti 安装了 Cuda 10 1 和最新的 Nvidia 驱动程序 我尝试运行一个基本脚本来测试 pytorch 是否正常工作 但出现以下错误 RuntimeError cuda runtime erro
  • Python itertools groupby 中令人不安的奇怪行为/错误?

    我在用itertools groupby解析一个短的制表符分隔的文本文件 文本文件有几列 我想做的就是对具有特定值的所有条目进行分组x在特定的列中 下面的代码对名为的列执行此操作name2 寻找变量中的值x 我尝试使用以下方法来做到这一点c
  • 枚举上的 random.choice

    我想用random choice on an Enum I tried class Foo Enum a 0 b 1 c 2 bar random choice Foo 但是这段代码失败了KeyError 我怎样才能随机选择一个成员Enum
  • 返回吃异常

    我至少发现了以下行为weird def errors try ErrorErrorError finally return 10 print errors prints 10 It should raise NameError name E
  • PyMC3 和 Theano - 导入 pymc3 后,有效的 Theano 代码停止工作

    一些简单的 theano 代码可以完美运行 当我导入 pymc3 时停止工作 这里有一些片段可以重现错误 Initial Theano Code this works import theano tensor as tsr x tsr ds
  • 混合两个列表的Pythonic方法[重复]

    这个问题在这里已经有答案了 我有两个长度为 n 和 n 1 的列表 a 1 a 2 a n b 1 b 2 b n 1 我想要一个函数作为结果给出一个列表 其中包含两个中的替代元素 即 b 1 a 1 b n a n b n 1 以下方法有
  • 真实值与预测值的降维可视化

    我有一个数据框 如下所示 label predicted F1 F2 F3 F40 major minor 2 1 4 major major 1 0 10 minor patch 4 3 23 major patch 2 1 11 min

随机推荐

  • 为什么 Java if 语句以分号结尾时会失败 [重复]

    这个问题在这里已经有答案了 我在开发应用程序时犯了一个编码错误 这是对空引用的测试 我花了几个小时才发现问题所在 但我不明白的是为什么代码会这样 String name null String value null if name null
  • Scikit-learn:如何水平标准化行值?

    我想水平地而不是垂直地标准化下面的值 该代码读取代码后提供的 csv 文件 并输出具有标准化值的新 csv 文件 如何使其水平标准化 给出的代码如下 Code norm code py normalization x min max min
  • 如何更改谷歌地图默认当前位置标记颜色

    我想更改默认电流位置标记颜色 from 蓝色到其他 任何人都可以帮助我如何做到这一点 以下是我要更改的图标颜色 EDIT 您无法更改默认值 您必须拥有并隐藏默认值 您可以通过将自己的标记添加到地图来使用它们 MarkerOptions ma
  • 连接 Oracle 中 SQL 查询的结果

    我的表中有这样的数据 NAME PRICE A 2 B 3 C 5 D 9 E 5 我想在一行中显示所有值 例如 A 2 B 3 C 5 D 9 E 5 我该如何进行查询才能在 Oracle 中得到这样的字符串 我不需要将它编程成某种东西
  • 数据表标题未对齐

    下图显示了单击文本框 搜索 过滤 之前数据表未对齐的标题 一旦后者成为焦点 标题就会再次对齐 我注意到当scrollY关闭时标题很好 我需要它 知道如何解决它 在下面的代码片段中 只需更改分页选项 您就可以再次看到标题的重新对齐 RegSr
  • Kotlin - 数据类实体抛出 StackOverflowError

    我尝试将 kotlin 版本 1 2 21 与 spring boot 1 5 9 RELEASE 结合起来 我在使用带有 Entity 注释的数据类时遇到了问题 我的有问题的实体如下所示 Entity Table name APP USE
  • OpenMP 递归任务

    考虑以下计算斐波那契数的程序 它使用 OpenMP 任务进行并行化 include
  • OpenJDK 适用于 Windows 操作系统 [已关闭]

    Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 目前不接受答案 是否有适用于 Windows 的 OpenJDK 安装程序 并且免费更新的时间可能比 Oracle 提供的时间更长 OpenJDK 主页 http
  • 为什么 Javascript `iterator.next()` 返回一个对象?

    帮助 在使用 C 编程相当长一段时间后 我正在学习喜欢 Javascript 但我一直在学习喜欢可迭代协议 为什么 Javascript 采用protocol这需要为每次迭代创建一个新对象 为什么有next 返回一个带有属性的新对象done
  • MySQL:存储过程中的 IF / THEN 语句

    我正在编写一个使用多个 IF THEN 语句的存储过程 如果它们的计算结果为 true 则还需要执行多个查询 问题是 我似乎找不到任何适当语法的示例 来自MySQL 开发手册 似乎我可以在 statement list 中进行多个查询 但到
  • Thread.sleep 等待时间超出预期

    以下代码 long msBefore System currentTimeMillis Thread currentThread setPriority Thread MAX PRIORITY try Thread sleep 200 ca
  • 查找 MySQL JSON 对象或数组的交集

    问题是关于MySQL MariaDB JSON 函数 如何找到多个 JSON 结构的交集 在 PHP 中 它是使用以下代码完成的 array intersect a b b c 如果我们想象一个名为 JSON INTERSECT 的函数 代
  • 接受来自 scanf 函数的任意数量的输入

    我正在尝试使用读取未知数量的输入scanf功能 int a 100 int i 0 while scanf d a i n i Next part of the code 但是这个函数不会进入代码的下一部分 似乎有一个无限的 while 循
  • Spring - 计划任务 - 优雅关机

    我有一个 Spring Boot 应用程序 其中有一个 Bean 以大约 1 分钟的间隔运行计划任务 并且该 Bean 有一个 PreDestroy方法 是否有解决方案允许当前正在执行的任务在生命周期到达预销毁阶段之前完成 或者至少给定一些
  • 如何管理 AngularJS 中加载指令模板的 404 错误

    在 AngularJS 指令中templateUrl参数是动态定义的 templates content id html 我不想建立规则来检查是否content id值有效并将其管理为 404 错误 即如果模板不存在 服务器在加载模板时返回
  • 如何区分InputBox取消和确定按钮?

    快速提问 我正在使用一个Microsoft VisualBasic Interaction InputBox在我的 C 代码中允许用户将网站添加到列表中 但我不希望他们输入空字符串 因此我会弹出错误窗口 以防发生这种情况 但是 如果用户按
  • 如何删除向量的每个第三个元素?

    我有以下向量 myList c 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 如何删除每个第三个元素 不是这样的 myList myList 3 myList myList 6 我需要以下输出 1 2 4 5 7
  • 无法在AWS Lambda函数上使用ES6;如何在 Lambda 中导入 ES6 模块

    我有一个图书馆foo这是用 ES6 编写的 import export并在打字稿中 我有一个应用程序bar它使用foo bar也是用导出和 Typescript 编写的 我想得到bar在 AWS Lambda 上运行 据我所知 我不能使用i
  • =+ Python 运算符语法正确

    我无意中写道 total acc accuracy 代替 total acc accuracy 我在网上搜索没有找到anything 那么发生了什么 为什么 Python 认为我正在输入的内容是什么意思 Computers trust us
  • 从 python BeautifulSoup 的输出中删除新行 '\n'

    我正在使用 python Beautiful soup 来获取以下内容 div class path a href abc a a href def a a href ghi a div 我的代码如下 html doc div class