根据特定列标题提取 HTML 表 - Python

2023-12-03

我正在尝试从以下内容中提取 html 表URL .

例如，第 44 页的 2019 年董事薪酬表。我相信该表没有特定的 id，例如“薪酬表”等。要提取该表，我只能想到匹配的列名称或关键字，例如“股票奖励”或“所有其他补偿”，然后抓取关联的表。

有没有一种简单的方法可以根据列名提取这些表？或者也许有更简单的方法？

Thanks!

我在抓取 HTML 表方面相对较新..我的代码如下

from bs4 import BeautifulSoup
import requests
url = 'https://www.sec.gov/Archives/edgar/data/66740/000120677420000907/mmm3661701-def14a.htm'
r = requests.get(url) 
soup = BeautifulSoup(r.text, 'html.parser')
rows = soup.find_all('tr')

当然你可以这样做，使用pandas read_html函数使用match and attrs根据文档.

import pandas as pd

df = pd.read_html(
    "https://www.sec.gov/Archives/edgar/data/66740/000120677420000907/mmm3661701-def14a.htm", attrs={'style': 'border-collapse: collapse; width: 100%; font: 9pt Arial, Helvetica, Sans-Serif'}, match="Non-Employee Directors")

print(df)

df[0].to_csv("data.csv", index=False, header=False)

Output: 在线查看

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

beautifulsoup

scrape

根据特定列标题提取 HTML 表 - Python 的相关文章

如何解决CDK CLI版本不匹配的问题

我收到以下错误此 CDK CLI 与您的应用程序使用的 CDK 库不兼容请将CLI升级到最新版本云程序集架构版本不匹配支持的最大架构版本为 8 0 0 但发现为 9 0 0 发出后cdk diff命令我确实跑了npm instal
检查列表是否已排序的 Pythonic 方法

有没有一种Python式的方法来检查列表是否已经排序ASC or DESC listtimestamps 1 2 3 5 6 7 就像是isttimestamps isSorted 返回True or False 我想输入一些消息的时间戳列
如何使用 numpy 从一维数组创建对角矩阵？

我正在使用 Python 和 numpy 来做线性代数我表演了numpy对矩阵进行 SVD 以获得矩阵 U i 和 V 然而 i 矩阵表示为 1 行的 1x4 矩阵 IE 12 22151125 4 92815942 2 06380839
Python 可选参数对

我正在使用argparse模块获取两个可选的命令行参数 parser add argument start date nargs metavar START DATE help start date in YYYY MM DD parser
CSS 列不会水平对齐

我正在使用列计数来允许我的文本流入两个不同的列但第一列的顶部最左边低于另一列 col moz column count 2 webkit column count 2 column count 2 div h3 Options h3
Phantomjs page.content 未检索页面内容

我使用 Phantomjs 来抓取使用 JavaScript 和 Ajax 加载动态内容的网站我有以下代码 var page require webpage create page onError function msg trace v
telethon 库：如何通过电话号码添加用户

我正在研究 Telegram 的 Telethon 库它可以使用 Telegram API 充当 Telegram 客户端重要提示这是电报客户端 API https core telegram org telegram api 而不是
在 Qt 5 中嵌入 Python

我想将 Python 解释器嵌入到 Qt 5 应用程序中我在 Qt 5 中有一个工作应用程序但是当我把 include
使用 Python 导入包含文本和数字数据的文件

I have a txt file which has text data and numerical data The first two rows of the file have essential information in te
安塞布尔 + 10.11.6

我在非常干净地安装 10 11 6 时遇到了 Ansible 的奇怪问题我已经安装了brew zsh oh my zsh Lil snitch 和1password 实际上没有安装其他任何东西我安装了ansible brew ins
如何删除 pip 安装的所有软件包？

如何从当前激活的虚拟环境中卸载 pip 安装的所有软件包我发现这个片段作为替代解决方案与重新创建 virtualenv 相比删除库更加优雅 pip freeze xargs pip uninstall y 如果您通过 VCS 安装了软
如何使用 Python 实现并行 gzip 压缩？

使用python压缩大文件 https stackoverflow com questions 9518705 big file compression with python给出了一个很好的例子来说明如何使用例如bz2 纯粹用 Pytho
Pandas 中的数据透视表小计

我有以下数据 Employee Account Currency Amount Location Test 2 Basic USD 3000 Airport Test 2 Net USD 2000 Airport Test 1 Basic
Angular 中的动态子组件

我正在构建一个具有一致的元素列表设计模式的应用程序如果我有一个 A 类型的对象我会创建AComponent它接受a作为输入然后创建另一个组件来迭代 A 列表 AListComponent 那么如果我有一个对象 B 我需要做同样的事情
Django INSTALLED_APPS 的命名约定是如何工作的？

该网站上的教程创建了一个名为 polls 的应用程序它使用 django 1 9 所以在 INSTALLED APPS 中它是 polls apps PollsConfig 我正在观看一个教程他将应用程序命名为新闻通讯并且在 INST
Django 按小时过滤

我找到了那个链接 http code djangoproject com attachment ticket 8424 time filters diff http code djangoproject com attachment tic
如何正确将 tflite_graph.pb 转换为 detector.tflite

我正在使用tensorflow对象检测API使用tensorflow中的ssdlite mobilenet v2 coco 2018 05 09来训练自定义模型模型动物园 https github com tensorflow models
“yield item”与 return iter(items) 相比有何优点？

在下面的示例中 resp results 是一个迭代器版本1 items for result in resp results item process result items append item return iter items
手动渲染 Twig 字符串时禁用 HTML 转义

我有以下代码将字符串呈现为 HTML 输出如何阻止它转义 HTML 文本 template who bar params array who gt Foo s twig new Twig Environment new Twig Load
如何通过 Selenium 内部的文本查找按钮（Python）？

我有以下三个按钮我不知道如何获取其中的文本例如异常值我试过browser find element by link text Outliers click 但出现无法找到元素错误我该怎么做 See find element by

随机推荐

常量和 Matlab Coder

在 Matlab Coder 中运行时某些函数要求输入为常量我希望找到一种方法在输入之前将输入声明为常量作为有问题的情况的示例 function foo subsubfunction x y B A butter 1 x y 这将返回错
将地图图钉添加到 Google 地图 Android 的最佳方法

我已成功添加图钉但当用户单击地图并提供新位置时需要刷新图钉我收到错误请记住我需要在后台发生此操作以便它不会影响地图交互我的问题是当用户单击地图时地图图钉列表已经更新我得到一个ConcurrentModificationEx
使用 HTML5 设置视频播放时长

我有一个使用 TimeJump js 的简单 HTML5 视频播放器 http davatron5000 github io TimeJump 以允许直接跳转到特定时间代码 IE 跳转到视频的第 25 分钟我想添加对视频播放时长的限制因
上传文件[重复]

这个问题在这里已经有答案了可能的重复如何在网页上实现文件上传进度条 Hello 我见过很多网页用户可以上传文件并且会得到某种进度作为视觉反馈水平条百分比等我的 html 表单是
通过连接传播 pandas 系列元数据

我希望能够将元数据附加到一系列数据帧特别是原始文件名以便在加入两个数据帧后我可以看到有关每个系列来自何处的元数据我看到 github 问题有关 metadata here here 包括一些与当前相关的 metadata属性 here
从 .odt 文件填充 QTextDocument

我正在使用 C 和 Qt 编写一个富文本编辑器目前我希望它支持至少 odt 格式我发现 QTextDocumentWriter 用于将 QTextDocument 的内容写入文件但我似乎找不到任何东西可以将其读回到 QTextDo
从类外部访问类属性

假设我有以下课程 class MyClass public function Talk Say Something return Say 然后我启动了该类的一个实例 Inst new MyClass 现在我如何在 MyClass 之外调用
Pandas 非常简单分组总大小的百分比

我在看似极其简单的操作中遇到了麻烦通过诸如此类的操作从组中获取总数百分比的最简洁方法是什么df groupby col1 size 分组后我的 DF 看起来像这样我只想要总数的百分比我记得过去使用过此语句的变体但现在无法使其工作 p
PHP 短标签可以使用吗？

这是信息根据官方文档有四对不同的可以是开始和结束标签在 PHP 中使用其中两个 and 随时可用另外两个是短标签和 ASP 样式标签并且可以从打开和关闭 php ini 配置文件像这样虽然有些人发现短标签并且 ASP风格
如何防止过度打字

我正在尝试用 C 制作一个简单的聊天应用程序它可以工作但是如果有人在其他人打字时输入某些内容它就像写了他们正在输入的内容我链接了图片作为下面的示例我用于客户端和服务器的代码可以在这里找到 Client Server 图片 Bef
Python：获取插入符位置[关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我正在尝试获取 Python 中的插入符号位置我尝试使用win32gui GetCaretPos 但它总是返回 0 0 您有什么想法让它发挥作用吗谢谢克里斯如果插入符号位于另
在 C# 中显示数据库中列表框中的项目

我有一个包含两个表的数据库Countries and Websites 我使用以下语句显示 listbox1 中的所有国家地区名称 try connection Open using OleDbCommand command new Ol
Php 西里尔字符串长度加倍其值

你好这是问题所在当我到达 POST 拉丁字符串 strilen 时效果很好但是当我到达西里尔字符串 strlen 时其值加倍这里是代码 word POST word echo strlen word br input abc gt
使用 Eval 在 TemplateField 中显示毫秒

我有一个提交的模板如下所列我还需要显示日期时间的毫秒部分我读过有关dateValue ToString fff 格式为http msdn microsoft com en us library bb882581 aspx How to
iPhone 版的PasswordDeriveBytes(.net 2.0)

我想在iPhone中使用 NET 2 0的PasswordDeriveBytes RSA PBKDF1 我怎样才能实现同样精确的实现有没有相关的方法或库我特别想要它使用盐 Thanks 由于 MS 实现并不完全遵循 PKCS 5 规范
android 画廊进入网格样式菜单

大家好请帮我解决有关 android 中的菜单的问题我想将此画廊作为我的应用程序的网格菜单请指导我如何将名称放在图像下方如果我单击特定图像则应打开新活动最后单击菜单按钮将我带回主屏幕 here is the image 这是代码
当服务器使用 pm2 重新启动时启动 Node JS 应用程序

我正在尝试使用该模块pm2每次服务器启动时启动我的 Node js 应用程序我已经使用了命令pm2 startup ubuntu但每次我重新启动服务器时我的应用程序都没有运行我必须再次手动启动它有什么想法导致这个问题吗确保保存您的
Windows 7 中管理员用户的 SQL Server 2008 数据库引擎登录失败 [已关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我从 sadegh 用户在 Windows 7 Ultimate 上安装了 SQL Server 2008 Enterprise Edition 该帐户以管理员角色存在几天后我从
Java - 如何将我的 ArrayList 写入文件，并将该文件读取（加载）到原始 ArrayList？

我正在用 Java 编写一个程序它显示一系列课后俱乐部例如足球曲棍球由用户输入俱乐部被添加到以下ArrayList private ArrayList
根据特定列标题提取 HTML 表 - Python

我正在尝试从以下内容中提取 html 表URL 例如第 44 页的 2019 年董事薪酬表我相信该表没有特定的 id 例如薪酬表等要提取该表我只能想到匹配的列名称或关键字例如股票奖励或所有其他补偿然后抓取关联的表有没

根据特定列标题提取 HTML 表 - Python

根据特定列标题提取 HTML 表 - Python 的相关文章

随机推荐

热门标签