BeautifulSoup - 摆脱段落空白/换行符

2024-01-21

similarlist = res.find_all_next("div", class_="result-wrapper")
for item in similarlist:
    print(item)

这将返回：

<div class="result-wrapper">
<div class="row-fluid result-row">
<div class="span6 result-left">
<p>
<a class="tooltipLink warn-cs" data-original-title="Listen" href="..." rel="tooltip"><i class="..."></i></a>
<a class="muted-link" href="/dictionary/german-english/aa-machen">Aa <b>machen</b></a>
</p>
</div>   
<div class="span6 result-right row-fluid">
<span class="span9">
<a class="muted-link" href="/dictionary/english-german/do-a-poo">to do a poo</a>, <a class="muted-link" href="/dictionary/english-german/pooh">to pooh</a>
</span>
</div>
</div>
</div>

当我选择打印时item.get_text()相反，我得到

abgeneigt machen
to disincline




abhängig machen
2137

to predicate




Absenker machen
to layer

所以基本上我不需要的列表项之间有很多新行。这是因为<p>标签？我该如何摆脱它们？

是的，HTML 标签之间也包含空格（包括换行符）。

您可以使用正则表达式轻松折叠所有多行空格：

import re

re.sub(r'\n\s*\n', r'\n\n', item.get_text().strip(), flags=re.M)

这会删除两个换行符之间的任何空白（换行符、空格、制表符等）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

BeautifulSoup - 摆脱段落空白/换行符的相关文章

如何在不访问 hg 的情况下提取 BitBucket 存储库

我想知道是否可以在不访问 hg 的情况下将私人 Mercurial 存储库拉到服务器上我有 SSH 访问权限但无法安装 HG 我正在考虑某种使用 http 访问的 Python 脚本或其他东西但我不确定我还认为这可能只有通过公共回购
Pandas 用单位插值数据

大家好几年来我一直在寻找 Stackoverflow 它对我帮助很大以至于我以前不需要注册但今天我遇到了一个使用 Python 与 Pandas 和 Quantities 也可能是 unum 或 pint 的问题我尽力发表清晰的帖子
如果文件不存在，使用 python 添加一行

我有一个 xml 文件如下
如何访问命令行参数？ [复制]

这个问题在这里已经有答案了我使用 python 创建项目设置设置但我需要帮助获取命令行参数我在终端上尝试过 python myfile py var1 var2 var3 在我的 Python 文件中我想使用输入的所有变量 Pyth
将文件上传到S3的模拟测试用例

我们如何模拟文件上传到 S3 我尝试过这样的事情 file mock mock MagicMock spec File name FileMock mock patch storages backends s3boto S3BotoStor
如果我不重置 Python 的 ContextVars 会发生什么？

这是Python中的内存泄漏吗 import contextvars contextvar contextvars ContextVar example while True string hello world token context
ModuleNotFoundError：pip install后没有名为“requests”的模块[重复]

这个问题在这里已经有答案了我知道以前曾有人问过类似的问题但我找不到问题的解决方案尝试导入请求后我收到以下错误消息 C Users Jm PycharmProjects Test venv Scripts python exe C U
在Python中从字符串中删除除字母数字字符之外的所有内容

使用 Python 从字符串中去除所有非字母数字字符的最佳方法是什么中提出的解决方案这个问题的 PHP 变体 https stackoverflow com questions 840948可能会进行一些小的调整但对我来说似乎不太 Py
从 colab 中的驱动器中的 python 脚本导入 python 模块

我目前正在 Google Colab 上开展一个使用 Tensorflow API 的机器学习项目我创建了一个文件夹并将其上传到谷歌驱动器上以在谷歌Colab上运行我成功安装了谷歌驱动器并可以运行脚本但是当我尝试从同一文件夹中的脚本导
Networkx - 最短路径长度

我在用着networkx管理由 50k 个节点组成的大型网络图我想计算一组特定节点例如 N 之间的最短路径长度为此我正在使用nx shortest path length功能在 N 的某些节点中可能没有路径因此 networkx
在 Mac 上运行 Tkinter

我是一个绝对的新手我正在尝试为我的学校项目制作 Python GUI 所以我决定使用 Tkinter 当我尝试导入 Tkinter 时它会抛出以下消息 gt gt gt import tkinter Traceback most rec
像多米诺骨牌一样对 Python 中的元组进行排序/查找顶点连接

我有一个像这样的整数元组列表 L 1 2 7 6 2 3 8 5 3 8 5 7 每对定义两个顶点之间的边我想找到顶点连接性没有循环元组总是像多米诺骨牌一样唯一地链接起来因此在这种情况下排序列表应如下所示 L sorted 1 2
制作一个可以接受各种形状参数的函数

Q1 Numpy 函数可以采用不同形状的参数例如 np sum V 可以采用以下两个之一并返回具有不同形状的输出 x1 np array 1 3 1 x2 np array 1 2 3 4 5 6 7 8 2 我正在制作自己的函数如下所
基本的 Python OpenCV 裁剪和调整大小

有人可以帮我一些裁剪算法吗它的 openCV 我想弄清楚这一点我知道方法是crop image y y1 x x1 如果我有一个带有 new dimensionXxnew dimensionY 像素的图像并且我想将其裁剪为相同的宽度
Numpy 附加到一个空数组

第一种情况 gt gt gt import numpy as np gt gt gt x np array 0 gt gt gt x np append x 1 gt gt gt x array 0 1 x包含 2 个元素这是为什么第二
Jinja2 为 Google App Engine 模型返回“None”字符串

Google App Engine 模型如下所示 from google appengine ext db import Model class M Model name db StringProperty 然后在从 Django 视图调
如何使用DecisionTreeClassifier平衡分类？

我有一个数据集其中类别不平衡课程是0 1 or 2 如何计算每个类别的预测误差然后重新平衡weights相应地在 scikit learn 中如果您想完全平衡将每个类别视为同等重要您可以简单地通过class weight bala
为什么我必须在 pybson (=bson, GitHub:py-bson) 之后安装 pymongo 才能成功导入 pybson？

编辑将问题放在网上很长时间后我注意到这是一个衍生产品无法使用 pymongo 2 2 连接到 MongoDB 2 0 5 数据库 https stackoverflow com questions 10603754 cant conne
删除 numpy 中的循环以进行简单的矩阵分配

如何删除这个简单矩阵分配中的循环以提高性能 nk ncol nrow index shape for kk in range 0 nk for ii in range 0 nrow for jj in range 0 ncol idx in
以任意深度嵌套 defaultdict

我想嵌套任意数量的默认字典如下所示 from collections import defaultdict D defaultdict lambda defaultdict int 正如所描述的那样工作正常earlier https st

随机推荐

在 Vuex Store 中分页时维护状态

我正在对来自 Vuex 商店的数据进行分页我能够成功完成此操作但在将数据添加到购物车时遇到问题我只能将一项添加到购物车中添加第二项时出现无法读取未定义的属性 id 错误我已经改用 Vuex 状态映射它可以工作但我仍然收到错误
在 package.json 中增加版本后运行yarn install 时，为什么我的yarn.lock 文件会发生变化？

我已经阅读了有关yarn命令和yarn lock的文档并且我被引导相信yarn lock文件的全部要点是使用该文件中指定的版本我很好奇的是 yarn lock中指定的版本是什么时候实际使用的我手动更改了 package json 中包
将 ruby 哈希值转换为 URL 查询字符串...不带方括号

在Python中我可以这样做 gt gt gt import urlparse urllib gt gt gt q urlparse parse qsl a b a c d e gt gt gt urllib urlencode q a
EJB3 本地和远程接口

据我所知本地接口是为同一容器的 JVM 实例中的客户端设计的而远程接口是为驻留在 EJB 容器的 JVM 之外的客户端设计的不驻留在或打包在同一个 ear 中而是驻留在同一个 Java EE 服务器上的 Web 应用程序客户端怎么
Spark Streaming：长排队/活动批次

谁能指出这些活跃批次挂在那里数周且从未得到处理的原因是什么多谢我的猜测是执行者不够更多的工人执行者会解决问题吗或者 Spark 在其任务调度程序中为不同批次分配优先级但这里的情况是最近的批次 6 月底已成功处理但 5 月份
无法将数据发布到服务器，出现错误 java.io.IOException: 服务器返回 HTTP 响应代码: 415

我无法将数据发布到服务器错误为但它在curl脚本中运行良好 Error reading URL java io IOException Server returned HTTP response code 415 for URL htt
在数据库中，如何存储事件发生日期和时间范围以进行快速/优雅的查询？

假设我正在维护一个事件数据库它可以是从企业每周营业时间安排周一至周五上午 10 点至下午 7 点周六中午 12 点至下午 6 点周日休息到每月活动艺博会每个第一个星期六上午 10 点至下午 5 点到年度活动平安夜慈
在名为 test113.onmicrosoft.com 的租户中找不到名为 HTTPS://test113.onmicrosoft.com/FTP 的应用程序

我必须根据 Azure AD 对应用程序进行身份验证我已创建 Web API 并将其添加到 Azure AD 应用程序部分更改了清单文件创建了一个 Web API 并使用 Azure AD 进行了身份验证并创建了一个 Windows
Pandas 按多列排名

我正在尝试根据两列对 pandas 数据框进行排名我可以根据一列对其进行排名但是如何根据两列对其进行排名呢销售计数然后是总收入 import pandas as pd df pd DataFrame TotalRevenue 30
如何在bash脚本中使用远程命令结果分配局部变量？

我正在编写一个脚本来恢复一组服务器上的主从复制迷失在尝试分配本地变量的 bash 语法中结果是远程运行的命令替换为本地值 function doRemote ssh s1 domain com lt
如何模拟 Application.Current 进行单元测试？

我有这个
选择按票数排序的前 10 条帖子

我有两张表一张用于图像记录帖子另一个用于点赞记录因此我从一个表到另一个表进行了内部联接因为我需要选择图像以及特定图像的喜欢数量但我还需要按喜欢的数量对它们进行排序这样我就可以在网站上列出投票最多的前 10 张图像所以这是我
如何正确设计支持高 DPI（4k 就绪）的 Delphi 应用程序 UI？

这是我第一次用delphi创建复杂的UI时遇到一些问题我使用 4K 显示器进行开发和测试但遇到一些缩放问题我的应用程序使用 2 列设计想象一下源代码管理下的差异视图其中有一个左窗格和一个右窗格它们分别镜像组件但这些组件的内
Facebook 页面的最大 iframe 宽度是多少？（2011 年 7 月）

Facebook 页面的最大 iframe 宽度是多少是 520 像素与 Canvas 页面一样您的应用程序可用的空间量为受 Facebook 外部环境的限制由于您的应用程序也是加载到 Facebook 页面内部空间小于 52
MVC WebApi 在 C# 中获取传递对象

我需要获取我的 mvc webapi 的起始日期和截止日期以便检索这些日期之间的项目这是我尝试过的最喜欢的东西但没有成功我已经尝试了几件事我有一个在项目之间共享的对象 public class SchedulerDateSpan
为什么向后迭代数组比向前迭代要快

鉴于此代码 var arr for var i 0 i lt 10000 i arr push 1 Forwards for var i 0 i lt arr length i 向后 for var i arr length 1 i gt
等待任务结果时会发生什么？

我正在使用 HttpClient 将数据发布到 NET 4 0 项目中的远程服务我不关心这个操作阻塞所以我想我可以跳过ContinueWith或async await并使用Result 在调试时我遇到了远程服务器没有响应的问题当我单
通过phonegap中的url传递变量可以吗？

创建jquery mobile phonegap应用程序时可以通过url将变量从一个页面传递到另一个页面吗 page html var1 foo var2 bar 或者在编译代码时会产生问题吗将变量传递到外部页面应该没问题只要知道 U
如何避免 createStackNavigator 崩溃反应本机应用程序？

我正在尝试使用 createStackNavigator 实现基本的堆栈导航 App js import createStackNavigator from react navigation stack const Stack create
BeautifulSoup - 摆脱段落空白/换行符

similarlist res find all next div class result wrapper for item in similarlist print item 这将返回 div class result wrapper

BeautifulSoup - 摆脱段落空白/换行符

BeautifulSoup - 摆脱段落空白/换行符 的相关文章

随机推荐

热门标签

BeautifulSoup - 摆脱段落空白/换行符的相关文章