BeautifulSoup - 获取无 HTML 内容的简单方法

2023-11-25

我使用此代码来查找页面中所有有趣的链接：

soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+'))

它的工作做得很好。不幸的是里面atag 有很多嵌套标签，例如font, b和不同的东西...我想只获取文本内容，没有任何其他 html 标签。

链接示例：

<A HREF="notizia.php?idn=1134" OnMouseOver="verde();" OnMouseOut="blu();"><FONT CLASS="v12"><B>03-11-2009:&nbsp;&nbsp;<font color=green>CCS Ingegneria Elettronica-Sportello studenti ed orientamento</B></FONT></A>

当然它很丑（而且标记并不总是相同！），我想得到：

03-11-2009:  CCS Ingegneria Elettronica-Sportello studenti ed orientamento

在文档中它说使用text=True在 findAll 方法中，但它会忽略我的正则表达式。为什么？我该如何解决这个问题？

我用过这个：

def textOf(soup):
    return u''.join(soup.findAll(text=True))

So...

texts = [textOf(n) for n in soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+'))]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

htmlparsing

htmlcontentextraction

BeautifulSoup - 获取无 HTML 内容的简单方法的相关文章

查找 with: 块中定义的函数

这是一些代码理查德琼斯的博客 http www mechanicalcat net richard log Python Something I m working on 3 with gui vertical text gui labe
openpyxl 2.4.2：保存后公式生成的单元格值为空

我使用 openpyxl 打开文件编辑一些单元格并保存更改这是一个例子 import openpyxl book openpyxl load workbook sheet path sheet book active for row i
将 pandas 数据框中的列减去其第一个值

我需要将 pandas 数据帧的一列中的所有元素减去其第一个值在这段代码中 pandas 抱怨 self inferred type 我猜这是循环引用 df Time df Time df Time 0 在这段代码中 pandas 抱怨为
Matplotlib 标准化颜色条 (Python)

我正在尝试使用 matplotlib 当然还有 numpy 绘制轮廓图它有效它绘制了它应该绘制的内容但不幸的是我无法设置颜色条范围问题是我有很多图并且需要所有图都具有相同的颜色条相同的最小值和最大值相同的颜色我复制并粘贴了在
在 Python 中使用 XPath 和 LXML

我有一个 python 脚本用于解析 XML 并将某些感兴趣的元素导出到 csv 文件中我现在尝试更改脚本以允许根据条件过滤 XML 文件等效的 XPath 查询将是 DC Events Confirmation contains T
如何在 Ubuntu 上安装 Python 模块

我刚刚用Python写了一个函数然后我想将其做成模块并安装在我的 Ubuntu 11 04 上这就是我所做的创建 setup py 和 function py 文件使用 Python2 7 setup py sdist 构建分发文
Dask DataFrame 的逐行处理

我需要处理一个大文件并更改一些值我想做这样的事情 for index row in dataFrame iterrows foo doSomeStuffWith row lol doOtherStuffWith row dataFrame
在 Python 中使用 sec 函数的反函数

我正在创建一个程序用于计算从一定高度范围和设定初始速度发射射弹的最佳角度在我需要使用的最终方程中存在一个反 sec 函数它导致了一些麻烦我已经导入了数学并尝试使用 asec 无论如何但是数学似乎无法计算反秒函数我也明白 sec
Python 中 genfromtxt() 的可变列数？

我有一个 txt具有不同长度的行的文件每一行都是代表一条轨迹的一系列点由于每条轨迹都有自己的长度因此各行的长度都不同也就是说列数从一行到另一行不同据我所知 genfromtxt Python 中的模块要求列数相同 gt gt g
python ttk treeview：如何选择并设置焦点在一行上？

我有一个 ttk Treeview 小部件其中包含一些数据行如何设置焦点并选择突出显示指定项目 tree focus set 什么也没做 tree selection set 0 抱怨尽管小部件明显填充了超过零个项目但未找到项目
当x轴不连续时如何删除冗余日期时间 pandas DatetimeIndex

我想绘制一个 pandas 系列其索引是无数的 DatatimeIndex 我的代码如下 import matplotlib dates as mdates index pd DatetimeIndex 2000 01 01 00 00
唯一的图像哈希值即使 EXIF 信息更新也不会改变

我正在寻找一种方法来为 python 和 php 中的图像创建唯一的哈希值我考虑过对原始文件使用 md5 和因为它们可以快速生成但是当我更新 EXIF 信息有时时区关闭时它会更改总和并且哈希也会更改有没有其他方法可以为这些文
使用 genfromtxt 导入 numpy 中缺失值的 csv 数据

我有一个 csv 文件看起来像这样实际文件有更多的列和行 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 假设文件的名称是info csv如果我尝试使用导入它 data numpy genfromtxt i
WindowsError：[错误 5] 访问被拒绝

我一直在尝试终止一个进程但我的所有选项都给出了 Windows 访问被拒绝错误我通过以下方式打开进程一个python脚本 test subprocess Popen sys executable testsc py 我想杀死那个进程
Plotly：如何避免巨大的 html 文件大小

我有一个 3D 装箱模型它使用绘图来绘制输出图我注意到绘制了 600 个项目生成 html 文件需要很长时间文件大小为 89M 这太疯狂了我怀疑可能存在一些巨大的重复或者是由单个项目的 add trace 方法引起的阴谋为
Google App Engine 中的自定义身份验证

有谁知道或知道我可以在哪里学习如何使用 Python 和 Google App Engine 创建自定义身份验证流程我不想使用 Google 帐户进行身份验证并且希望能够创建自己的用户如果不是专门针对 Google App Engin
PyQt 中的线程和信号问题

我在 PyQt 中的线程之间进行通信时遇到一些问题我使用信号在两个线程发送者和监听者之间进行通信发送者发送消息期望被监听者接收但是没有收到任何消息谁能建议可能出了什么问题我确信这一定很简单但我已经环顾了几个小时但没有发现
如何使用 Django (Python) 登录表单？

我在 Django 中构建了一个登录表单现在我遇到了路由问题当我选择登录按钮时表单不会发送正确的遮阳篷我认为前端的表单无法从查看 py 文件所以它不会发送任何 awnser 并且登录过程无法工作该表单是一个简单的静态 html
如何识别图形线条

我有以下格式的路径的 x y 数据示例仅用于说明 seq p1 p2 0 20 2 3 1 20 2 4 2 20 4 4 3 22 5 5 4 22 5 6 5 23 6 2 6 23 6 3 7 23 6 4 每条路径都有多个点它们
使用 numpy 加速 for 循环

下一个 for 循环如何使用 numpy 获得加速我想这里可以使用一些奇特的索引技巧但我不知道是哪一个这里可以使用 einsum 吗 a 0 for i in range len b a numpy mean C d e f b i

随机推荐

数组属性、TList、TStringList 或 TCollection 等 (Delphi Win32)

我正在开发各种组件并且经常遇到需要拥有一个具有一对多关系组件到属性成员的属性这些组件通常是可视组件但并非总是如此有时需要向 IDE 注册即使用属性检查器但并非总是如此我发现自己不确定在设置这些属性时要采取哪条路线使用
最新和旧版本冲突的两个 Maven 依赖项

我正在使用 spring data dynamoDB 项目here 根据其pom xml他们用过1 6 9 1的版本aws java sdk 但我需要在我的项目中使用最新版本的 aws java sdk 以便使用它的一些功能来实现 Amaz
使用 require 和 node.js 加载远程 js 文件

我一直在使用 NodeJS 和 javascript 开发在线套接字服务器并且我一直在使用 require 在我的代码中创建游戏室 new game obj require forza4 js 现在当我在本地计算机上测试我的代码时这
根据 Base64 编码字符串长度计算实际数据大小

给定编码为 Base64 编码字符串的数据我能否以某种方式计算已编码的原始数据的实际长度only通过查看 Base64 编码字符串的长度如果没有必要我不想遍历字符串这还包括对编码字符串的尾随字符进行字符串操作以检查填充 The ex
如何在 macOS 上设置或更改默认 Java (JDK) 版本？

如何更改 Mac 上的默认 Java 版本第一次运行 usr libexec java home V这将输出类似以下内容 Matching Java Virtual Machines 3 1 8 0 05 x86 64 Java SE 8
为什么人们称 jQuery $ 别名为“工厂”？

在各个网站上 jQuery 的变量被称为别名而在其他变量上它被称为工厂我看了一下源代码我认为前者是正确的据我所知美元符号在这里定义 Expose jQuery to the global object return windo
如何在Python中检查是否存在给定pid的进程？

有没有办法检查 pid 是否对应于有效进程我从其他来源获取 pid 而不是os getpid 我需要检查机器上是否不存在具有该 pid 的进程我需要它在 Unix 和 Windows 中可用我还在检查 PID 是否未被使用如果 pi
在 jQuery 中将 $('body').on('click') 与 $(window).resize(function() 结合起来

想知道是否有一种方法可以将 2 个独立函数的相同代码合并为 1 个函数就我而言 jQuery body on click some div function e Long and fancy code jQuery window resi
Cordova 错误：拒绝执行内联脚本，因为它违反了以下内容安全策略指令

我正在学习将 Cordova 与 jquery mobile 一起使用但出现以下错误拒绝执行内联脚本因为它违反了以下内容安全策略指令 default src self data gap https ssl gstatic com un
如何存根 HttpControllerContext

我正在尝试对从 WebAPI OData 控制器调用并接受 HttpControllerContext 的一段代码进行单元测试 public string MethodToTest HttpControllerContext context
如何在 Windows 操作系统计算机上处理 signal.SIGINT？

我正在 Windows 上尝试粘贴下面的代码但它不是处理信号而是杀死进程然而相同的代码可以在 Ubuntu 中运行 import os sys import time import signal def func signum fr
ChartJS：比例的比例配置无效：xAxes

我在 ChartJS 中遇到一个奇怪的错误并且不知道如何修复它由于该错误我无法更改有关比例的任何内容我的代码 Sensor tsx import useParams from solid app router import creat
Julia：如何将符号表达式转换为函数？

我使用 SymPy 包创建了一个符号表达式 https github com jverzani SymPy jl 我现在想使用 Roots 包找到该表达式的根 https github com JuliaLang Roots jl 但是我
在不使用复杂对象的情况下将多个参数传递到 SELECT 中

我正在尝试通过startSequenceId stopSequenceId orderNumber但是我不想使用类型化对象即parameterType com abc Order 我可以这样做吗
使用 R 和 ggplot2 在一个 x 位置绘制两个箱线图

我想在彼此上方下方绘制多个箱线图而不是彼此相邻R using ggplot2 这是一个例子 library ggplot2 set seed 1 plot data lt data frame loc c rep 1 200 rep 2
Git-SVN 与 svn.pushmergeinfo：如何避免自引用 mergeinfo 行

在最新版本的 git 中配置svn pushmergeinfo被介绍配置键 svn pushmergeinfo 此选项将导致 git svn 在可能的情况下尝试自动填充 SVN 存储库中的 svn mergeinfo 属性目前这只能
布尔方法的 Junit 测试

我在向以下方法编写测试用例时遇到问题 EvenNum double public class OddEven param args public boolean evenNum double num if num 2 0 System ou
jquery完整日历：日历完全加载“之后”回调

Adam Shaw 的 jquery 完整日历中是否有在日历完全渲染后调用的回调我想在该回调中调用 clientEvents 函数来获取客户端的所有事件我尝试在 viewDisplay 中执行此操作但它是在事件呈现之前调用的并且 c
如何对 IList 进行排序？

没有Sort 函数为IList 有人可以帮我弄这个吗我想对我自己的列表进行排序假设这是我的 IList public class MyObject public int number get set public string mark
BeautifulSoup - 获取无 HTML 内容的简单方法

我使用此代码来查找页面中所有有趣的链接 soup findAll a href re compile notizia php idn d 它的工作做得很好不幸的是里面atag 有很多嵌套标签例如font b和不同的东西我想只获取文本内

BeautifulSoup - 获取无 HTML 内容的简单方法

BeautifulSoup - 获取无 HTML 内容的简单方法 的相关文章

随机推荐

热门标签

BeautifulSoup - 获取无 HTML 内容的简单方法的相关文章