使用 pd.read_html 解析 html 表，其中单元格本身包含完整表

2024-03-23

我需要从 html 解析一个表，该表在较大的表中嵌套有其他表。如下所示pd.read_html，每个嵌套表都会被解析，然后作为行“插入”/“连接”。

我希望将这些嵌套表分别解析为自己的表pd.DataFrames并将插入的对象作为相应列的值。

如果这是not可能的话，将嵌套表的原始 html 作为字符串放在相应的位置就可以了。

测试代码：

import pandas as pd
df_up = pd.read_html("up_pf00344.test.html", attrs = {'id': 'results'})

Screenshot of output:

Screenshot of table as rendered in html:

文件链接：https://gist.github.com/smsaladi/6adb30efbe70f9fed0306b226e8ad0d8#file-up_pf00344-test-html-L62 https://gist.github.com/smsaladi/6adb30efbe70f9fed0306b226e8ad0d8#file-up_pf00344-test-html-L62

你不能使用read_html https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.read_html.html读取嵌套表，但您可以使用自己的 html 阅读器并使用read_html对于表格单元格：

import pandas as pd
import bs4

with open('up_pf00344.test.html') as f:
    html = f.read()
soup = bs4.BeautifulSoup(html, 'lxml')
results = soup.find(attrs = {'id': 'results'})

# get first visible header row as dataframe headers
for row in results.thead.find_all('tr'):
    if 'display:none' not in row.get('style',''):
        df = pd.DataFrame(columns=[col.get_text() for col in row.find_all('th')])
    break

# append all table rows to dataframe
for row in results.tbody.find_all('tr', recursive=False):
    if 'display:none' in row.get('style',''):
        continue
    df_row = []
    for col in row.find_all('td', recursive=False):
        table = col.find_all('table')
        df_row.append(pd.read_html(str(col))[0] if table else col.get_text())
    df.loc[len(df)] = df_row

的结果df.iloc[0].map(type):

                                                            <class 'str'>
Entry                                                       <class 'str'>
Organism                                                    <class 'str'>
Protein names                                               <class 'str'>
Gene names                                                  <class 'str'>
Length                                                      <class 'str'>
Cross-reference (Pfam)                                      <class 'str'>
Cross-reference (InterPro)                                  <class 'str'>
Taxonomic lineage IDs                                       <class 'str'>
Subcellular location [CC]                                   <class 'str'>
Signal peptide                                              <class 'str'>
Transit peptide                                             <class 'str'>
Topological domain                  <class 'pandas.core.frame.DataFrame'>
Transmembrane                       <class 'pandas.core.frame.DataFrame'>
Intramembrane                       <class 'pandas.core.frame.DataFrame'>
Sequence caution                                            <class 'str'>
Caution                                                     <class 'str'>
Taxonomic lineage (SUPERKINGDOM)                            <class 'str'>
Taxonomic lineage (KINGDOM)                                 <class 'str'>
Taxonomic lineage (PHYLUM)                                  <class 'str'>
Cross-reference (RefSeq)                                    <class 'str'>
Cross-reference (EMBL)                                      <class 'str'>
e                                                           <class 'str'>

奖励：因为您的表行有一个id，您可以使用它作为数据框的索引df.loc[row.get('id')] = df_row代替df.loc[len(df)] = df_row.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

pandas

beautifulsoup

lxml

使用 pd.read_html 解析 html 表，其中单元格本身包含完整表的相关文章

.net MVC 将 MP4 流式传输到 iDevice 问题

我一直在编写用于提供视频服务的一段代码但遇到了一些问题代码如下 public ResumingFileStreamResult GetMP4Video string videoID if User Identity IsAuthenti
对图像使用 Pixellib 自定义训练时出现 input_image 元形状错误

我正在使用 Pixellib 来训练自定义图像实例分割我创建了一个数据集可以在下面的链接中看到数据集 https drive google com drive folders 1MjpDNZtzGRNxEtCDcTmrjUuB1ics
Pyinstaller --onefile 警告文件已存在但不应存在

跑步时Pyinstaller onefile 并开始得到结果 exe 会出现多个弹出窗口并显示以下警告 WARNING file already exists but should not C Users myuser AppData L
大小相同的表格单元格填充包含表格的整个宽度

有没有办法使用 HTML CSS 具有相对大小调整使一行单元格拉伸其所在表格的整个宽度单元格的宽度应该相等并且外表的大小也是动态的 table width 100 目前如果我不指定固定大小单元格只是自动调整大小以适应其内容您甚至不
如何在网格视图的单元格中插入换行符？

我想知道如何在网格视图的单元格中添加换行符现在我把 1 1 1 然而这呈现为 1 1 1 如何修复换行符以便每个数字显示在自己的行上 Add HtmlEncode False to asp BoundField并且在正文中应该有
jquery/javascript 处理后移至命名锚点

在进行一些 jquery 处理后如何将焦点移动到同一页面上的不同部分名为锚点函数 ABC 进行一些处理然后我需要将用户移动到同一页面上的某个部分页面下方您可以使用下面的代码将屏幕滚动到 div 只需更改选择器以匹配您要滚动到的
如何使用 python 操作系统更改驱动器？

我正在尝试更改当前目录C to Y 我试过 import os os chdir Y 但我不断收到错误消息提示无法找到驱动器本质上我正在寻找相当于 cd d cmd 中的命令你确定吗Y 确实是有效的驱动器号吗 Try os chdir
Floyd-Warshall 算法：获取最短路径

假设一个图由一个表示n x n维数邻接矩阵我知道如何获得所有对的最短路径矩阵但我想知道有没有办法追踪所有最短路径 Blow是python代码实现 v len graph for k in range 0 v for i in range
如何在matplotlib中基于x轴更改直方图颜色

我有根据 pandas 数据框计算出的直方图我想根据 x 轴值更改颜色例如 If the value is 0 the color should be green If the value is gt 0 the color shoul
使用python中的mysql连接器正确从mysql数据库获取blob

当执行以下代码时 import mysql connector connection mysql connector connect connection params here cursor connection cursor curso
为 Python 2.4 改进“with”语句的直接替换

您能否建议一种方法来编写可在 Python 2 4 中使用的 with 语句的直接替换代码这将是一个 hack 但它可以让我更好地将我的项目移植到 Python 2 4 EDIT 删除了不相关的元类草图只需使用 try finally
Flask SQLAlchemy 与 MyPy - 模型类型错误

我遇到了以下组合问题flask sqlalchemy and mypy 当我定义一个新的 ORM 对象时例如 class Foo db Model pass where db是使用创建的数据库SQL炼金术应用于flask app mypy
使用 Flask-SQLAlchemy 进行多对多多数据库连接

我正在尝试使这个多对多联接与 Flask SQLAlchemy 和两个 MySQL 数据库一起工作并且它非常接近只是它为联接表使用了错误的数据库这是基础知识我有main db and vendor db 表格设置为main db u
为什么这个 CSS nowrap 不起作用？

我试图阻止 bar top container div 包裹它的内容无论页面有多宽即两个选择应该始终出现在同一行但是当页面宽度太小而无法容纳它们时这不起作用一方面我该如何解决这个问题 Styles bar top containe
网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页来自任何主要新闻来源例如时报或彭博社我想识别该页面上的主要文章内容并丢弃其他杂项元素例如广告菜单侧边栏用户评论在大多数主要新闻网站上都可以使用的通用方法是什么有哪些好的数据挖掘工具或库最好是基于Py
如何让你的精灵在pygame中跳跃

目前我已经制作了一个平台游戏可以左右移动我的角色他从地上开始关于如何让他跳的任何想法因为我不明白目前如果我按住向上键我的玩家精灵将连续向上移动或者如果我按下它我的玩家精灵将向上移动并保持向上我想找个办法远离他让我重新跌
Safari 的 Javascript 与 document.write 的问题

我的问题只发生在 Safari 上 IE FF Chrome 和 Opera 都可以完美运行我正在向 DOM 添加一个对象与 YouTube 的方式完全相同具体取决于 ActiveX 或 NPAPI 因此在确定写入对象类型后我通过以
使 matplotlib 图形默认看起来像 R？

Is there a way to make matplotlib behave identically to R or almost like R in terms of plotting defaults For example R t
在Python中从列表中获取n个项目组的惯用方法？ [复制]

这个问题在这里已经有答案了给定一个列表 A 1 2 3 4 5 6 是否有任何惯用的 Pythonic 方式来迭代它就好像它是 B 1 2 3 4 5 6 除了索引之外这感觉像是 C 的遗留物 for a1 a2 in A i A i
在读/写二进制数据结构时访问位域

我正在为二进制格式编写一个解析器这种二进制格式涉及不同的表这些表同样采用二进制格式通常包含不同的字段大小其中 50 100 个之间大多数这些结构都有位域并且在 C 语言中表示时看起来像这样 struct myHeader uns

随机推荐

使用具有belongsTo关系的访问器变元

使用 Laravel 4 我在我的 User 模型中设置了一个 mutator public function getFullnameAttribute value return this gt first name this gt las
当处理程序已经存在并绑定时，JQuery stopPropagation on .live()

我知道文档中会出现实时通话这就是我遇到问题的原因不幸的是我正在使用绑定元素的第三方库并且希望创建一个单击事件不会冒泡到这些元素的情况将 click 与 eventStopPropogation 结合使用效果很好但是由于内容的动态
使用 PySide2 在 QTableView 中设置文本样式

我有一个 QTableView 填充了正确的模型我想根据上下文更改文本的样式文本如果括号之间有内容则这部分文本应更改为绿色包括括号并且粗体只要它不难如果您可以提供一个片段或超级简单的示例我将不胜感激您必须使用一个委托来使
CosmosDB C# SDK ProyUrl 缺失

我正在 NET Core 中开发一个针对 Azure 的容器化微服务项目 docker 因此我们使用 Azure Cosmos DB 和 CoreSql Api 的 C Cosmos DB SDK v2 4 因为 v3 仅处于预览版在开
如何从包含 XML 的字符串中删除第一行？

我有一个包含 XML 的字符串我想删除它的第一行并将其保存回 String 我怎样才能做到这一点 Thanks 假设您想要删除字符串末尾的新行您可以执行以下操作 s s substring s indexOf n 1 当没有新的线路时
如何配置 jdee `find-class-source-file` 以与 Cassandra 源树一起使用？

我正在尝试为我即将开始的 Java 项目设置 Emacs JDEE 但我无法让 JDEE 正常工作我想要解决的第一个问题是能够跳转到给定类名的源文件我正在使用卡桑德拉 http cassandra apache orgsource 作为
Jquery 点击图像时切换

我想了解 jquery 切换是如何工作的我想切换到下一个锚点plr anchor单击带有类的图像go down 数据是使用地图填充的 Jquery代码 go down on click function e plr anchor next
C# 在txt文件中搜索字符串

我想在 txt 文件中找到一个字符串如果字符串比较它应该继续读取行直到我用作参数的另一个字符串 Example CustomerEN search for this string some text which has details
使用 DirectShow 捕获帧并使用 OpenCV 进行处理

我为视频到图像捕获制作了两种不同的解决方案并且想知道是否可以将两个世界的优点结合在一起我目前正在使用 DirectShow 加载 AVI 文件并捕获图像然而 DirectShow 缺乏图像处理功能并且需要制作额外的滤镜这让我陷入了困
将数据从一个数据表复制到另一个具有不同结构的数据表的最佳方法

我正在将数据从 DataTable 复制到另一个具有结构的 DataTable 我必须在循环中对列号进行硬编码并将数据复制到对象数组中实现这一目标的最佳方法是什么 IEnumerable
重置张量流流指标的变量

我有很多流媒体指标 tf metrics accuracy and custom http vict0rsch github io 2018 06 06 tensorflow streaming multilabel f1 流媒体micro
删除嵌入的 YouTube 视频上的注释

我发现您可以通过添加参数来禁用嵌入式 YouTube 视频上的注释 iv load policy 3到嵌入代码中的 url 例子
带有 ref 对象参数的方法

嗨我必须调用具有此签名的方法 int MethodName ref object vIndexKey 如果我尝试用 String c 690 MethodName ref object c 这不起作用我能怎么做 thanks 你需要这样
Google Maps API 3 - 在屏幕上显示所有标记，但保留中心点

这非常类似于这个问题 https stackoverflow com questions 2818984 google map api v3 center zoom on displayed markers 我想确保所有标记都以当前缩放级别
展开操作视图时导航抽屉图标（汉堡包和箭头）动画

我在用着AppCompat and Toolbar 我确保当导航抽屉图标从汉堡包转变为箭头时会有动画反之亦然我使用以下技术https stackoverflow com a 26469738 72437 https stackoverf
使用boost创建线程池

是否可以使用boost的线程创建线程池我正在查看 boost 的库但找不到线程池管理器或类似的东西有办法做到吗 tnx 我知道答案已被接受如果您现在需要这个并且您懒得编写自己的线程池您可以尝试使用带有并发提示的 boost a
Phoenix 频道：向特定客户端发送推送

您好我正在尝试使用 Elixir phoenix 重新实现 Whatsapp 功能我在计算以下内容时遇到问题如果聊天室中的所有人都收到了消息我想向消息所有者发送已收到状态以便他可以显示双勾号但是如何向某一特定客户端进行广播
如何使用 .yml 文件更新现有 Conda 环境

如何使用另一个 yml 文件更新预先存在的 conda 环境当处理具有多个需求文件的项目时这非常有用即base yml local yml production yml etc 例如下面是一个base yml文件有 conda fo
Gremlin 删除所有顶点

我知道如何在 Gremlin 中通过 id 删除顶点但现在我需要清理数据库如何删除多个顶点删除1v是这样的 ver g v 1 g removeVertex ver 我的意思是类似SQL的东西TRUNCATE 如何在不删除类的情况下删
使用 pd.read_html 解析 html 表，其中单元格本身包含完整表

我需要从 html 解析一个表该表在较大的表中嵌套有其他表如下所示pd read html 每个嵌套表都会被解析然后作为行插入连接我希望将这些嵌套表分别解析为自己的表pd DataFrames并将插入的对象作为相应列的值如果这

使用 pd.read_html 解析 html 表，其中单元格本身包含完整表

使用 pd.read_html 解析 html 表，其中单元格本身包含完整表 的相关文章

随机推荐

热门标签

使用 pd.read_html 解析 html 表，其中单元格本身包含完整表的相关文章