将 pandas 数据框保存为图像或 pdf 文档中的表格，并具有良好的多索引显示

2024-01-29

我正在尝试在 pdf 报告中包含具有多索引的数据框。我想要一个漂亮的表格输出。

我找到了这两个解决方案：

pandas.df -> HTML -> pdf

    import pandas as pd
    from IPython.display import HTML
    import pdfkit

    # df generation
    df = pd.read_csv(path_to_csv, sep =',')
    groupeddf = df.groupby('Cluster')
    res = groupeddf.describe([0.05, 0.5, 0.95])
    res.index.rename(['Cluster', 'stats'], inplace=True)

    res['Cluster'] = res.index.get_level_values('Cluster')
    res['stats'] = res.index.get_level_values('stats')
    populations = (res.iloc[(res.index.get_level_values('stats') == 'count'), \
                                                            0].values).tolist()
    res['population'] = [populations[i] for i in res.index.labels[0].values()]
    total_pop = sum(populations)
    res['frequency'] =(res['population']/total_pop).round(3)
    res.set_index(['Cluster', 'population','frequency', 'stats'], inplace=True)



    res1 = res.iloc[(res.index.get_level_values('stats') == '5%') |
    (res.index.get_level_values('stats') == 'mean') |
    (res.index.get_level_values('stats') == '50%') |
    (res.index.get_level_values('stats') == '95%')]
    res1 = res1.round(2)
    # saving the df     
    h = HTML(res1.to_html())
    my_file = open('test.html', 'w')
    my_file.write(h.data)
    my_file.close()


    options = {
        'orientation': 'Landscape'
        }
    with open('test.html') as f:
        pdfkit.from_file(f, 'out.pdf', options=options)

但这有一个依赖pdfkit这让我们很困难。这就是为什么我尝试使用 pandas.df -> tex -> pdf （如中所述将 Pandas 数据框导出为表格图像 https://stackoverflow.com/questions/26678467/export-a-pandas-dataframe-as-a-table-image )

    import pandas as pd
    import os
    # df generation              
    df = pd.read_csv(path_to_csv, sep =',')
    groupeddf = df.groupby('Cluster')
    res = groupeddf.describe([0.05, 0.5, 0.95])
    res.index.rename(['Cluster', 'stats'], inplace=True)

    res['Cluster'] = res.index.get_level_values('Cluster')
    res['stats'] = res.index.get_level_values('stats')
    populations = (res.iloc[(res.index.get_level_values('stats') == 'count'), \
                                                            0].values).tolist()
    res['population'] = [populations[i] for i in res.index.labels[0].values()]
    total_pop = sum(populations)
    res['frequency'] =(res['population']/total_pop).round(3)
    res.set_index(['Cluster', 'population','frequency', 'stats'], inplace=True)



    res1 = res.iloc[(res.index.get_level_values('stats') == '5%') |
    (res.index.get_level_values('stats') == 'mean') |
    (res.index.get_level_values('stats') == '50%') |
    (res.index.get_level_values('stats') == '95%')]
    res1 = res1.round(2)
    res1.rename(columns=lambda x: x.replace('_', ' '), inplace=True)    

    #latex
    template = r'''\documentclass[preview]{{standalone}}
    \usepackage{{booktabs}}
    \begin{{document}}
    {}
    \end{{document}}
    '''

    with open("outputfile.tex", "wb") as afile: 
        afile.write(template.format(res1.to_latex()))
    os.system("pdflatex outputfile.tex")

但是，我对乳胶不熟悉，并且收到此错误：

  ! LaTeX Error: File `standalone.cls' not found.

 Type X to quit or <RETURN> to proceed,
 or enter a new name. (Default extension: cls)

关于错误或执行 pandas.df -> pdf 的标准方法有任何想法吗？

对我有用的解决方案：与熊猫 >= 0.17 我安装了pdflatex。我复制了latex包，例如booktabs.sty，geography.sty和pdflscape.sty

import pandas as pd
import os
import math

def save_summary_table_as_pdf(path_to_csv, path_to_output_folder):
    pwd = os.getcwd()
    df = pd.read_csv(path_to_csv, sep =',')

    #data preparation
    groupeddf = df.groupby('Cluster')
    res = groupeddf.describe([0.05, 0.5, 0.95])
    res.index.rename(['Cluster', 'Stats'], inplace=True)

    res['cluster'] = res.index.get_level_values('Cluster')
    res['stats'] = res.index.get_level_values('Stats')
    populations = (res.iloc[(res.index.get_level_values('Stats') == 'count'), \
                                                            0].values).tolist()
    res['population'] = [populations[i] for i in res.index.labels[0].values()]
    total_pop = sum(populations)
    res['frequency'] =(res['population']/total_pop).round(3)
    res.set_index(['cluster', 'population','frequency', 'stats'], inplace=True)
    res1 = res.iloc[(res.index.get_level_values('stats') == '5%') |
    (res.index.get_level_values('stats') == 'mean') |
    (res.index.get_level_values('stats') == '50%') |
    (res.index.get_level_values('stats') == '95%')]
    res1 = res1.round(2)
    res1.rename(columns=lambda x: x.replace('_', ' '), inplace=True)  

    #latex
    nbpages = int(math.ceil(res1.shape[0]*1.0/40))

    templatetop = r'''\documentclass[a3paper, 5pt]{article}
    \usepackage{booktabs}
    \usepackage{pdflscape}
    \usepackage[a4paper,bindingoffset=0.2in,%
            left=0.25in,right=0.25in,top=1in,bottom=1in,%
            footskip=.25in]{geometry}
    \begin{document}
    \begin{landscape}
    \pagenumbering{gobble}
    \oddsidemargin = 0pt
    \hoffset = -0.25in
    \topmargin = 1pt
    \headheight = 0pt
    \headsep = 0pt
    '''
    templatebottom = '''
    \end{landscape}
    \end{document}
    '''
    output_folder_path_abs = path_to_output_folder
    output_tex = os.path.join(output_folder_path_abs, 
    "clustering_summary_table.tex")

    with open(output_tex, "wb") as afile: 
        afile.write(templatetop +'\n')
        for i in range(0, nbpages):
            afile.write(res1.iloc[(i*40):((i+1)*40), :].to_latex() +'\n' + 
                                                """\pagenumbering{gobble}""")
        afile.write(templatebottom +'\n')
    os.chdir(output_folder_path_abs)
    os.system('pdflatex clustering_summary_table.tex')
    os.chdir(pwd)
    os.remove(output_tex)
    os.remove(os.path.join(path_to_output_folder, 
                                           'clustering_summary_table.aux'))
    os.remove(os.path.join(path_to_output_folder, 
                                           'clustering_summary_table.log'))

if __name__ == "__main__":
    print 'begin generate pdf table about clustering'
    import argparse
    parser = argparse.ArgumentParser()
    parser.add_argument("path_to_csv")
    parser.add_argument("outputfolder")
    args = vars(parser.parse_args())
    filedir = os.path.abspath(os.path.dirname(__file__))
    output_folder_path_abs = os.path.abspath(args['outputfolder'])
    input_folder_path_abs = os.path.abspath(args['path_to_csv'])
    # copy the user package latex to the folder
    os.system('scp '
    +os.path.abspath(os.path.join(filedir, 'userpackagelatex/booktabs.sty'))+
    ' ' +output_folder_path_abs)
    os.system('scp '
    +os.path.abspath(os.path.join(filedir, 'userpackagelatex/geography.sty'))+
    ' ' +output_folder_path_abs)
    os.system('scp '
    +os.path.abspath(os.path.join(filedir, 'userpackagelatex/pdflscape.sty'))+
    ' ' +output_folder_path_abs)
    save_summary_table_as_pdf(input_folder_path_abs, output_folder_path_abs)
    os.remove(os.path.join(output_folder_path_abs, 'booktabs.sty'))
    os.remove(os.path.join(output_folder_path_abs, 'geography.sty'))
    os.remove(os.path.join(output_folder_path_abs, 'pdflscape.sty'))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pdf

pandas

latex

pdflatex

将 pandas 数据框保存为图像或 pdf 文档中的表格，并具有良好的多索引显示的相关文章

如何使用 tkinter 使用网格功能显示不同的图像？

我想使用显示文件夹中的图像grid 但是当我尝试使用以下代码时我得到了迭代单个图像的输出 My code def messageWindow win Toplevel path C Users HP Desktop dataset for
如何在Python中反转列表的列表？ [复制]

这个问题在这里已经有答案了我想知道如何反转 python 中的列表列表例如原来的 list 1 2 3 4 5 6 7 8 9 输出 new list 7 8 9 4 5 6 1 2 3 现在我正在尝试这样做 new list re
让 python 脚本打印到终端而不作为标准输出的一部分返回

我正在尝试编写一个返回值的 python 脚本然后我可以将其传递给 bash 脚本问题是我想要在 bash 中返回一个单一值但我想要一些东西一路打印到终端这是一个示例脚本我们称之为 return5 py usr bin env p
如何检查给定的数字是否是2的幂？

下面的代码不适用于某些输入 a i set 1 while i lt 10000 a add i i lt lt 1 N int input if N in a print True else print False 我最初的想法是检查每个
FastAPI UploadFile 与 Flask 相比慢

我创建了一个端点如下所示 app post report upload def create upload files files UploadFile File try with open files filename wb as wf
如何用pygame画一条虚线？

我需要在坐标系上绘制正弦波和余弦波就像在this https i stack imgur com DGI8g png图片除了没能代表以外我所有的工作都做得很好虚线和曲线与 pygame 一致我有与我需要的类似的东西但我怎样才能让它
Python SQLite3 SQL注入漏洞代码

我知道下面的代码片段由于 format 的原因很容易受到 SQL 注入的攻击但我不知道为什么有谁明白为什么这段代码容易受到攻击以及我从哪里开始修复它我知道这些代码片段使输入字段保持打开状态以便通过 SQL 注入执行其他恶意命令但不
关于具有自定义损失的 3 输出 ANN 的加权

我正在尝试定义一个自定义损失函数它在回归模型中接收 3 个输出变量 def custom loss y true y pred y true c K cast y true float32 Shape batch size 3 y pre
按升序对数字字符串列表进行排序

我创建了一个SQLite https en wikipedia org wiki SQLite数据库有一个存储温度值的表第一次将温度值按升序写入数据库然后我将数据库中的温度值读入列表中然后将该列表添加到组合框中以选择温度效果很好
python 硒按名称查找元素

查找电子邮件输入的正确代码是什么https accounts google com ServiceLogin html 是
使用最新值进行采样

考虑以下系列 created at 2014 01 27 21 50 05 040961 80000 00 2014 03 12 18 46 45 517968 79900 00 2014 09 05 20 54 17 991260 636
在 Python 中引发异常的正确方法是什么？ [复制]

这个问题在这里已经有答案了这是简单的代码 import sys class EmptyArgs StandardError pass if name main The first way to raise an exception if
如何在使用 Flask for Python 3 的同时使用 Bootstrap 4？

我检查过发现默认安装时 Flask Bootstrap 原生使用 Bootstrap 3 3 7 但实际上我想通过使用 Flask Bootstrap 包在我的项目中使用 Bootstrap 4 任何有关如何更新它或类似内容的帮助将不胜感
在基本 Tensorflow 2.0 中运行简单回归

我正在学习 Tensorflow 2 0 我认为在 Tensorflow 中实现最基本的简单线性回归是一个好主意不幸的是我遇到了几个问题我想知道这里是否有人可以提供帮助考虑以下设置 import tensorflow as tf 2
配置 Django 和 Google 云存储？

I am not使用应用引擎我有一个在虚拟机上运行的普通 Django 应用程序我想使用 Google Cloud Storage 来提供静态文件以及上传提供媒体文件我有一个水桶如何将 Django 应用程序链接到我的存储桶我
model.predict() 返回类而不是概率

Hello 我是第一次使用 Keras 我训练并保存了一个模型作为 json 文件及其权重该模型旨在将图像分为 3 个类别我的编译方法 model compile loss categorical crossentropy optim
如何使用 Matplotlib 可视化标量二维数据？

所以我有一个网格网格矩阵 X 和 Y 以及标量数据矩阵 Z 我需要将其可视化最好是一些 2D 图像在各点处带有颜色显示 Z 值我做了一些研究但没有找到任何能完全满足我想要的效果的东西 pyplot imshow Z 看起来不错
如何将另一整列作为参数传递给 pandas fillna()

我想用另一列中的值填充一列中的缺失值使用fillna方法我读到循环遍历每一行将是非常糟糕的做法最好一次完成所有事情但我不知道如何使用fillna 之前的数据 Day Cat1 Cat2 1 cat mouse 2 dog eleph
混合语言源目录布局

我们正在运行一个使用多种不同语言的大型项目 Java Python PHP SQL 和 Perl 到目前为止人们一直在自己的私有存储库中工作但现在我们希望将整个项目合并到一个存储库中现在的问题是目录结构应该是什么样的我们应该为每种
从 HDF5 文件中删除信息

我意识到 SO 用户以前曾问过这个问题question https stackoverflow com questions 1124994 removing data from a hdf5 file rq 1但它是在 2009 年被问到的

随机推荐

用于并发请求的 perl Mojo 和 JSON

我通常不是 Perl 程序员但我必须完成这个任务以下代码对我有用 usr bin perl use LWP UserAgent use JSON use strict my md5 ARGV 0 md5 s A Fa f0 9 g di
连续分页

Using sequelize on my nodejsweb 应用程序我想使用分页按日期查询帖子阅读sequelize docs http docs sequelizejs com en latest docs querying
使用 Xamarin 扩充绑定库时出现 ClassNotFoundException

我已经为双向视图 https github com lucasr twoway view图书馆 DLL 生成似乎没问题我可以毫无问题地执行以下操作 var twoWayView new Org Lucasr TwoWayView Widg
WPF：显示快速变化图像的更有效方式？ [复制]

这个问题在这里已经有答案了我正在使用Image控件来显示我自己在后台线程上处理的 8 位灰度图像处理图像后我将 Image BitmapSource 属性设置为指向我通过以下方式创建的新位图BitmapSource Create 这一
在 div C# MVC 5 中单击按钮时渲染部分视图

我一直在关注这里的答案但似乎无法让它发挥作用我认为它正在触发我的函数并调用我的控制器但它没有渲染我的部分视图任何帮助都是极好的控制器 public ActionResult Detail int id if id null ret
在 UWP 中访问 DriveInfo 中的可用空闲空间/总大小时出错

我可以使用 DriveInfo GetDrives 方法列出本地磁盘另外我使用 Name 属性访问获取驱动器名称但我收到错误 System UnauthorizedAccess 异常访问路径 X 被拒绝在访问任何属性例如Ava
go中的结构体变量自增

我本来还想看3的现在怎么样了 package main import fmt type Counter struct count int func self Counter currentValue int return self cou
如果我们将同一个 div 绑定两次，一次在 js 文件中，一次作为内联脚本，会发生什么

这是 javascript 文件里面的如果我对同一个 div 定义了两次相同的绑定会发生什么 document ready function divid click function some logic here 这是内联的结果将是
使用自动布局约束动态调整表视图单元格的大小

Update 根据我的最新发现我完全修改了这个问题 Goal 我的目标是实现以下效果有一个简单的表格视图用户选择一行所选行展开显示原始标签下方的另一个标签请注意我知道这可以通过在所选单元格下方插入删除单元格来实现我已经使
Wp7如何做隔离存储？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案我想将数据存储在下拉列表中和 2 个单选按钮之间我必须使用 Window Phone 7 中的独立存储来存储一个值 Wp7如何做隔离存储
如何在单个文件中拥有多个服务器（sapper）获取、发布等路由？

我正在使用 sapper 服务器路由这适用于单个 js 文件这些文件将使用文件名作为路由和导出函数 post req res next 来处理单个 get post 等我想使用我自己的服务器路由例如 Express 并在单个文件中使
一个Excel公式来查找数组中的行/列索引

我有一个 Excel 表数组带有行索引和列索引在数组内部有一些 empyu 单元格和一些具有唯一值的单元格现在我想得到一个简化的表当在第一列中我有来自表数组和第二列中的唯一值的列表时以获取该值的精确单元格作为行和列索引之间的串联
LINQ 的 Python 等效项

在 C 中使用 LINQ 如果我有 en 枚举enumerable 我可以 a Does the enumerable contain an item that satisfies the lambda bool contains enu
JPA：如何使用 OneToMany 注释将新项目添加到列表中

我有2张桌子一个称为 Employee 另一个称为 Phones 一个员工可以拥有多个 Phone 员工类别 Entity Table name employee public class Employee Id Column name
如何查询今天日期和之前7天的数据？

我使用的是sql server 2008 如何查询今天和今天之前7天的数据试试这个方法 select from tab where DateCol between DateAdd DD 7 GETDATE and GETDATE
如何使用 javascript 将 data:image/png:base64... 解码为真实图像

我使用 HTML5 从网络摄像头捕获了图像但结果以 base64 编码如何解码并将真实图像上传到文件中这是我的代码 HTML div class fileUpload div
当“vagrant up”时，它显示“看来你的机器不支持 NFS”（Debian jessie）

Issue when vagrant up它显示您的计算机似乎不支持 NFS Setups Debian GNU Linux 8 杰西流浪者1 2 0 0 Virtualbox 5 1 30 r118389 Detail 使用apt g
如何在PowerShell中读取多行多字符串注册表项？

我试图读取 Dhttp port 值但没有成功正如您在附图中看到的 Options 是一个子键我可以使用以下代码片段读取 Options 不过这也显示了不必要的 PowerShell 项目 Get ItemProperty PATH
datetime.fromtimestamp 与 datetime.utcfromtimestamp，哪一个使用起来更安全？

我正在从传感器收集一些数据并从中获取时间戳如下所示 time seconds 40 year 115 month 5 hours 7 time 1434549820776 date 17 minutes 3 day 3 timezone
将 pandas 数据框保存为图像或 pdf 文档中的表格，并具有良好的多索引显示

我正在尝试在 pdf 报告中包含具有多索引的数据框我想要一个漂亮的表格输出我找到了这两个解决方案 pandas df gt HTML gt pdf import pandas as pd from IPython display imp

将 pandas 数据框保存为图像或 pdf 文档中的表格，并具有良好的多索引显示

将 pandas 数据框保存为图像或 pdf 文档中的表格，并具有良好的多索引显示 的相关文章

随机推荐

热门标签

将 pandas 数据框保存为图像或 pdf 文档中的表格，并具有良好的多索引显示的相关文章