美汤去掉上标

2024-02-14

如何从所有文本中删除上标？我下面的代码可以获取所有可见文本，但是脚注的上标把事情弄乱了。我该如何删除它们？

例如Active accounts (1),(2), (1),(2)是可见的上标。

from bs4 import BeautifulSoup
from bs4.element import Comment
import requests


f_url='https://www.sec.gov/Archives/edgar/data/1633917/000163391718000094/exhibit991prq12018pypl.htm'

def tag_visible(element):
    if element.parent.name in ['style', 'script', 'head', 'title', 'meta', '[document]']:
        return False
    if isinstance(element, Comment):
        return False
    return True


def text_from_html(body):
    soup = BeautifulSoup(body, 'html.parser')
    texts = soup.findAll(text=True)
    visible_texts = filter(tag_visible, texts)  
    return u" ".join(t.strip() for t in visible_texts)

html = requests.get(f_url)
text= text_from_html(html.text)

BeautifulSoup 函数find_all https://www.crummy.com/software/BeautifulSoup/bs4/doc/#find-all返回输入中所有单个离散 HTML 元素的列表 (find_all是在 BeautifulSoup 4 中使用的正确函数，并且优先于findAll）。下一个函数，filter https://docs.python.org/3/library/functions.html#filter，遍历此列表并删除其回调例程返回的项目False。回调函数测试每个片段的标签名称并返回False如果它在不想要的列表中，True否则。

如果这些上标始终由正确的 HTML 标记指示sup然后您可以将其添加到回调函数中的不需要列表中。

可能的陷阱是：

假设文字（语义正确）标签sup使用，而不是，例如，仅仅使用一个类或一个跨度指定 vertical-align: superscript;在它的 CSS 中；
It is assumed that you want to get rid of all elements that are in this superscript tag. If there are exceptions ("the 20^th century"), you can check the text contents; for example, only remove if its contents are all numerical. If there are exceptions to that ("a² = b² + c²"), you will have to check for a wider context, or build a whitelist or blacklist of inclusions/exclusions.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

美汤去掉上标的相关文章

Python Popen 与 psexec 挂起 - 不良结果

我对 subprocess Popen 和我认为是管道的问题有疑问我有以下代码块从 cli 运行时 100 都不会出现问题 p subprocess Popen psexec serverName get cmd c ver echo
django_openid_auth TypeError openid.yadis.manager.YadisServiceManager 对象不是 JSON 可序列化

I used django openid auth在我的项目上一段时间以来它运行得很好但今天我测试了该应用程序并遇到了这个异常 Environment Request Method GET Request URL http local
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
如何使用 Plotly 中的直方图将所有离群值分入一个分箱？

所以问题是我可以在 Plotly 中绘制直方图其中所有大于某个阈值的值都将被分组到一个箱中吗所需的输出但使用标准情节Histogram类我只能得到这个输出 import pandas as pd from plotly import
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
Argparse nargs="+" 正在吃位置参数

这是我的解析器配置的一小部分 parser add argument infile help The file to be imported type argparse FileType r default sys stdin parser
如何在 pytest 中将单元测试和集成测试分开

根据维基百科 https en wikipedia org wiki Unit testing Description和各种articles https techbeacon com devops 6 best practices inte
忽略 Mercurial hook 中的某些 Mercurial 命令

我有一个像这样的善变钩子 hooks pretxncommit myhook python path to file myhook 代码如下所示 def myhook ui repo kwargs do some stuff 但在我的例子中
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
奇怪的 MySQL Python mod_wsgi 无法连接到 'localhost' (49) 上的 MySQL 服务器问题

StackOverflow上也有类似的问题但我还没有发现完全相同的情况这是在使用 MySQL 的 OS X Leopard 机器上一些起始信息 MySQL Server version 5 1 30 Apache 2 2 13 Uni
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
Tkinter - 浮动窗口 - 调整大小

灵感来自this https stackoverflow com a 22424245 13629335问题我想为我的根窗口编写自己的调整大小函数但我刚刚注意到我的代码显示了一些性能问题如果你快速调整它的大小你会发现窗口没有像我希望
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x

随机推荐

iOS8“现在”更改动态单元格的高度，重新内部单元格内容

这是一个动态单元格注意在示例中文本不是数据驱动的它只是单元格本地的一些文本例如帮助文本在运行时使用单元格内实际的按钮将 UILabel 的 text 从一个单词更改为多行 iOS 完美地调整单元格和表格的大小 but 仅当单
如何将静态古腾堡块转换为使用 PHP 注册的动态块？

我正在尝试将我为 WordPress 创建的静态古腾堡块转换为动态块我已经寻找其他解决方案但没有成功这个问题将使用 wordpress create block 创建的静态 gutenberg 块转换为使用 PHP 注册的动态块的正
什么是 Java 数据挖掘，JDM？

我正在看JDM 这只是一个与其他进行实际数据挖掘的工具交互的 API 吗或者这是一组包含实际数据挖掘算法的包啊奇迹互联网 http en wikipedia org wiki Java Data Mining Java 数据挖掘 JD
在 Keycloak:18.x 中导入领域

我无法将任何领域导入 Keycloak 18 0 0 那是 Quarkus 不再是 Wildfly 发行版文档here https www keycloak org server importExport说它应该非常简单通过将我导出的r
Bigtable CSV 导入

我在多个文件存储在存储桶中中有一个大型 csv 数据集 gt 5TB 我需要将其导入到 Google Bigtable 中这些文件的格式为行键 s1 s2 s3 s4文本整数整数整数整数 hbase 有一个 importts
pgloader - 无法以用户“root”身份连接到“localhost”（端口 3306）的 mysql：发出条件 QMYND:MYSQL-UNSUPPORTED-AUTHENTICATION 信号

我正在尝试将我的 Rails 应用程序从 mysql 迁移到 postgres 因为我们已经运行了应用程序所以我使用 pgloader 将 mysql 数据移动到 postgres 数据库但当我这样做时 pgloader mysql r
如何从声纳中排除简单的 getter 和 setter？

有的是way http skitch img s3 amazonaws com 20100903 ekunteuietuq9j394prku9d37t jpg从声纳报告中排除 getter 和 setter 假设我有 2 个吸气剂 pub
Powershell 相当于 Linux true 命令

This 堆栈溢出答案 https stackoverflow com questions 2175405 what is bin true解释 Linux 真正的命令是什么我的问题是 Powershell v5 v6 是否也提供真正的命
使内联 svg 填满整个屏幕

我购买了一个 svg 图形并将其导出为 svg 文件以便可以在内联 HTML 中使用我已将其插入我的文档的标签但现在我希望它填充屏幕的全宽和全高我尝试过设置宽度和高度属性
如何在内部函数中重用参数？

我有一个函数do something接收四个参数并调用内部函数get options do something lt function name amount manufacturer abc width 4 opts lt get opt
有没有类型的逆运算？

我得到了类型但这与我正在寻找的类不同 typeof有逆运算吗 EDIT 我需要该类才能使用通用存储库 GenericRepository
plsql 输出/返回中的 CLOB 值（指定的 LOB 定位器无效：ORA-22275）

我有存储的 plsql 过程它从文件中获取大文本 create or replace procedure dbst load a file p file name in varchar2 l clob out clob as l bfil
我应该如何将对象传递给子例程？

这些方法之一是最好还是最差的方法使用范围 my cache CHI gt new driver gt File expires in gt 3600 sub one if my data cache gt get key one sub
Dojo 对话框 onEnd() 动画异常

我在动画序列期间遇到 Dojo Dijit Dialog hide 方法的问题我正在使用带有 Tundra 主题的 Dojo 1 7 我的对话框中有一个取消按钮可以关闭对话框 var global welcome new Dialog i
如何优化DataGridView的性能

我的 Windows 应用程序窗体上有一个 DataGridView 控件此 DataGridView 是基于纯文本文件由用户在运行时指定填充的因此列数和行数是动态计算的现在一切都按预期工作正常唯一的问题是我的 DataGri
如何在 Chrome/Safari 中将光标移动到 contenteditable div 中的下一个元素？

我有逻辑在 contenteditable div 中插入标签我想在插入后将光标设置到以下元素的开头我必须执行此操作的代码是 function insertNodeAtCaret node if typeof window getSel
为什么我在 OUTLOOK 2016 中通过 BizTalk 发送的电子邮件附件是“body.csv”？

我创建了一个发送电子邮件的简单界面我已经设置了文件名 msg out renamed MIME FileName FileName 这在我的 Outlook 2013 中运行良好它显示为 client inv 2016090909065
Unix 中的日期时间比较

我有两个日期时间字符串如下所示 2014 09 03T02 23 09Z和2014 09 03T03 24 57Z 现在我必须将两个日期时间分配给一些变量并比较它们如下所示 d1 2014 09 03T02 23 09Z d2 201
Ada：Windows 上的 cmake 和 PLplot 安装

这是该帖子的后续内容Ada 绘制二维图 https stackoverflow com questions 3210207 ada plotting 2d graphs 我决定创建一个新帖子因为这是一个单独的问题 Windows 版 PL
美汤去掉上标

如何从所有文本中删除上标我下面的代码可以获取所有可见文本但是脚注的上标把事情弄乱了我该如何删除它们例如Active accounts 1 2 1 2 是可见的上标 from bs4 import BeautifulSoup from

美汤去掉上标

美汤去掉上标 的相关文章

随机推荐

热门标签

美汤去掉上标的相关文章