将 pandas 数据框保存为图像或 pdf 文档中的表格,并具有良好的多索引显示

2024-01-29

我正在尝试在 pdf 报告中包含具有多索引的数据框。我想要一个漂亮的表格输出。

我找到了这两个解决方案:

pandas.df -> HTML -> pdf

    import pandas as pd
    from IPython.display import HTML
    import pdfkit

    # df generation
    df = pd.read_csv(path_to_csv, sep =',')
    groupeddf = df.groupby('Cluster')
    res = groupeddf.describe([0.05, 0.5, 0.95])
    res.index.rename(['Cluster', 'stats'], inplace=True)

    res['Cluster'] = res.index.get_level_values('Cluster')
    res['stats'] = res.index.get_level_values('stats')
    populations = (res.iloc[(res.index.get_level_values('stats') == 'count'), \
                                                            0].values).tolist()
    res['population'] = [populations[i] for i in res.index.labels[0].values()]
    total_pop = sum(populations)
    res['frequency'] =(res['population']/total_pop).round(3)
    res.set_index(['Cluster', 'population','frequency', 'stats'], inplace=True)



    res1 = res.iloc[(res.index.get_level_values('stats') == '5%') |
    (res.index.get_level_values('stats') == 'mean') |
    (res.index.get_level_values('stats') == '50%') |
    (res.index.get_level_values('stats') == '95%')]
    res1 = res1.round(2)
    # saving the df     
    h = HTML(res1.to_html())
    my_file = open('test.html', 'w')
    my_file.write(h.data)
    my_file.close()


    options = {
        'orientation': 'Landscape'
        }
    with open('test.html') as f:
        pdfkit.from_file(f, 'out.pdf', options=options)

但这有一个依赖pdfkit这让我们很困难。这就是为什么我尝试使用 pandas.df -> tex -> pdf (如中所述将 Pandas 数据框导出为表格图像 https://stackoverflow.com/questions/26678467/export-a-pandas-dataframe-as-a-table-image )

    import pandas as pd
    import os
    # df generation              
    df = pd.read_csv(path_to_csv, sep =',')
    groupeddf = df.groupby('Cluster')
    res = groupeddf.describe([0.05, 0.5, 0.95])
    res.index.rename(['Cluster', 'stats'], inplace=True)

    res['Cluster'] = res.index.get_level_values('Cluster')
    res['stats'] = res.index.get_level_values('stats')
    populations = (res.iloc[(res.index.get_level_values('stats') == 'count'), \
                                                            0].values).tolist()
    res['population'] = [populations[i] for i in res.index.labels[0].values()]
    total_pop = sum(populations)
    res['frequency'] =(res['population']/total_pop).round(3)
    res.set_index(['Cluster', 'population','frequency', 'stats'], inplace=True)



    res1 = res.iloc[(res.index.get_level_values('stats') == '5%') |
    (res.index.get_level_values('stats') == 'mean') |
    (res.index.get_level_values('stats') == '50%') |
    (res.index.get_level_values('stats') == '95%')]
    res1 = res1.round(2)
    res1.rename(columns=lambda x: x.replace('_', ' '), inplace=True)    

    #latex
    template = r'''\documentclass[preview]{{standalone}}
    \usepackage{{booktabs}}
    \begin{{document}}
    {}
    \end{{document}}
    '''

    with open("outputfile.tex", "wb") as afile: 
        afile.write(template.format(res1.to_latex()))
    os.system("pdflatex outputfile.tex")

但是,我对乳胶不熟悉,并且收到此错误:

  ! LaTeX Error: File `standalone.cls' not found.

 Type X to quit or <RETURN> to proceed,
 or enter a new name. (Default extension: cls)

关于错误或执行 pandas.df -> pdf 的标准方法有任何想法吗?


对我有用的解决方案: 与熊猫 >= 0.17 我安装了pdflatex。我复制了latex包,例如booktabs.sty,geography.sty和pdflscape.sty

import pandas as pd
import os
import math

def save_summary_table_as_pdf(path_to_csv, path_to_output_folder):
    pwd = os.getcwd()
    df = pd.read_csv(path_to_csv, sep =',')

    #data preparation
    groupeddf = df.groupby('Cluster')
    res = groupeddf.describe([0.05, 0.5, 0.95])
    res.index.rename(['Cluster', 'Stats'], inplace=True)

    res['cluster'] = res.index.get_level_values('Cluster')
    res['stats'] = res.index.get_level_values('Stats')
    populations = (res.iloc[(res.index.get_level_values('Stats') == 'count'), \
                                                            0].values).tolist()
    res['population'] = [populations[i] for i in res.index.labels[0].values()]
    total_pop = sum(populations)
    res['frequency'] =(res['population']/total_pop).round(3)
    res.set_index(['cluster', 'population','frequency', 'stats'], inplace=True)
    res1 = res.iloc[(res.index.get_level_values('stats') == '5%') |
    (res.index.get_level_values('stats') == 'mean') |
    (res.index.get_level_values('stats') == '50%') |
    (res.index.get_level_values('stats') == '95%')]
    res1 = res1.round(2)
    res1.rename(columns=lambda x: x.replace('_', ' '), inplace=True)  

    #latex
    nbpages = int(math.ceil(res1.shape[0]*1.0/40))

    templatetop = r'''\documentclass[a3paper, 5pt]{article}
    \usepackage{booktabs}
    \usepackage{pdflscape}
    \usepackage[a4paper,bindingoffset=0.2in,%
            left=0.25in,right=0.25in,top=1in,bottom=1in,%
            footskip=.25in]{geometry}
    \begin{document}
    \begin{landscape}
    \pagenumbering{gobble}
    \oddsidemargin = 0pt
    \hoffset = -0.25in
    \topmargin = 1pt
    \headheight = 0pt
    \headsep = 0pt
    '''
    templatebottom = '''
    \end{landscape}
    \end{document}
    '''
    output_folder_path_abs = path_to_output_folder
    output_tex = os.path.join(output_folder_path_abs, 
    "clustering_summary_table.tex")

    with open(output_tex, "wb") as afile: 
        afile.write(templatetop +'\n')
        for i in range(0, nbpages):
            afile.write(res1.iloc[(i*40):((i+1)*40), :].to_latex() +'\n' + 
                                                """\pagenumbering{gobble}""")
        afile.write(templatebottom +'\n')
    os.chdir(output_folder_path_abs)
    os.system('pdflatex clustering_summary_table.tex')
    os.chdir(pwd)
    os.remove(output_tex)
    os.remove(os.path.join(path_to_output_folder, 
                                           'clustering_summary_table.aux'))
    os.remove(os.path.join(path_to_output_folder, 
                                           'clustering_summary_table.log'))

if __name__ == "__main__":
    print 'begin generate pdf table about clustering'
    import argparse
    parser = argparse.ArgumentParser()
    parser.add_argument("path_to_csv")
    parser.add_argument("outputfolder")
    args = vars(parser.parse_args())
    filedir = os.path.abspath(os.path.dirname(__file__))
    output_folder_path_abs = os.path.abspath(args['outputfolder'])
    input_folder_path_abs = os.path.abspath(args['path_to_csv'])
    # copy the user package latex to the folder
    os.system('scp '
    +os.path.abspath(os.path.join(filedir, 'userpackagelatex/booktabs.sty'))+
    ' ' +output_folder_path_abs)
    os.system('scp '
    +os.path.abspath(os.path.join(filedir, 'userpackagelatex/geography.sty'))+
    ' ' +output_folder_path_abs)
    os.system('scp '
    +os.path.abspath(os.path.join(filedir, 'userpackagelatex/pdflscape.sty'))+
    ' ' +output_folder_path_abs)
    save_summary_table_as_pdf(input_folder_path_abs, output_folder_path_abs)
    os.remove(os.path.join(output_folder_path_abs, 'booktabs.sty'))
    os.remove(os.path.join(output_folder_path_abs, 'geography.sty'))
    os.remove(os.path.join(output_folder_path_abs, 'pdflscape.sty'))
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将 pandas 数据框保存为图像或 pdf 文档中的表格,并具有良好的多索引显示 的相关文章

  • 如何使用 tkinter 使用网格功能显示不同的图像?

    我想使用显示文件夹中的图像grid 但是当我尝试使用以下代码时 我得到了迭代单个图像的输出 My code def messageWindow win Toplevel path C Users HP Desktop dataset for
  • 如何在Python中反转列表的列表? [复制]

    这个问题在这里已经有答案了 我想知道如何反转 python 中的列表列表 例如 原来的 list 1 2 3 4 5 6 7 8 9 输出 new list 7 8 9 4 5 6 1 2 3 现在 我正在尝试这样做 new list re
  • 让 python 脚本打印到终端而不作为标准输出的一部分返回

    我正在尝试编写一个返回值的 python 脚本 然后我可以将其传递给 bash 脚本 问题是我想要在 bash 中返回一个单一值 但我想要一些东西一路打印到终端 这是一个示例脚本 我们称之为 return5 py usr bin env p
  • 如何检查给定的数字是否是2的幂?

    下面的代码不适用于某些输入 a i set 1 while i lt 10000 a add i i lt lt 1 N int input if N in a print True else print False 我最初的想法是检查每个
  • FastAPI UploadFile 与 Flask 相比慢

    我创建了一个端点 如下所示 app post report upload def create upload files files UploadFile File try with open files filename wb as wf
  • 如何用pygame画一条虚线?

    我需要在坐标系上绘制正弦波和余弦波 就像在this https i stack imgur com DGI8g png图片 除了没能代表以外 我所有的工作都做得很好虚线和曲线与 pygame 一致 我有与我需要的类似的东西 但我怎样才能让它
  • Python SQLite3 SQL注入漏洞代码

    我知道下面的代码片段由于 format 的原因很容易受到 SQL 注入的攻击 但我不知道为什么 有谁明白为什么这段代码容易受到攻击以及我从哪里开始修复它 我知道这些代码片段使输入字段保持打开状态 以便通过 SQL 注入执行其他恶意命令 但不
  • 关于具有自定义损失的 3 输出 ANN 的加权

    我正在尝试定义一个自定义损失函数 它在回归模型中接收 3 个输出变量 def custom loss y true y pred y true c K cast y true float32 Shape batch size 3 y pre
  • 按升序对数字字符串列表进行排序

    我创建了一个SQLite https en wikipedia org wiki SQLite数据库有一个存储温度值的表 第一次将温度值按升序写入数据库 然后 我将数据库中的温度值读入列表中 然后将该列表添加到组合框中以选择温度 效果很好
  • python 硒 按名称查找元素

    查找电子邮件输入的正确代码是什么https accounts google com ServiceLogin html 是
  • 使用最新值进行采样

    考虑以下系列 created at 2014 01 27 21 50 05 040961 80000 00 2014 03 12 18 46 45 517968 79900 00 2014 09 05 20 54 17 991260 636
  • 在 Python 中引发异常的正确方法是什么? [复制]

    这个问题在这里已经有答案了 这是简单的代码 import sys class EmptyArgs StandardError pass if name main The first way to raise an exception if
  • 如何在使用 Flask for Python 3 的同时使用 Bootstrap 4?

    我检查过 发现默认安装时 Flask Bootstrap 原生使用 Bootstrap 3 3 7 但实际上我想通过使用 Flask Bootstrap 包在我的项目中使用 Bootstrap 4 任何有关如何更新它或类似内容的帮助将不胜感
  • 在基本 Tensorflow 2.0 中运行简单回归

    我正在学习 Tensorflow 2 0 我认为在 Tensorflow 中实现最基本的简单线性回归是一个好主意 不幸的是 我遇到了几个问题 我想知道这里是否有人可以提供帮助 考虑以下设置 import tensorflow as tf 2
  • 配置 Django 和 Google 云存储?

    I am not使用应用引擎 我有一个在虚拟机上运行的普通 Django 应用程序 我想使用 Google Cloud Storage 来提供静态文件 以及上传 提供媒体文件 我有一个水桶 如何将 Django 应用程序链接到我的存储桶 我
  • model.predict() 返回类而不是概率

    Hello 我是第一次使用 Keras 我训练并保存了一个模型 作为 json 文件及其权重 该模型旨在将图像分为 3 个类别 我的编译方法 model compile loss categorical crossentropy optim
  • 如何使用 Matplotlib 可视化标量二维数据?

    所以我有一个网格网格 矩阵 X 和 Y 以及标量数据 矩阵 Z 我需要将其可视化 最好是一些 2D 图像 在各点处带有颜色 显示 Z 值 我做了一些研究 但没有找到任何能完全满足我想要的效果的东西 pyplot imshow Z 看起来不错
  • 如何将另一整列作为参数传递给 pandas fillna()

    我想用另一列中的值填充一列中的缺失值 使用fillna方法 我读到循环遍历每一行将是非常糟糕的做法 最好一次完成所有事情 但我不知道如何使用fillna 之前的数据 Day Cat1 Cat2 1 cat mouse 2 dog eleph
  • 混合语言源目录布局

    我们正在运行一个使用多种不同语言的大型项目 Java Python PHP SQL 和 Perl 到目前为止 人们一直在自己的私有存储库中工作 但现在我们希望将整个项目合并到一个存储库中 现在的问题是 目录结构应该是什么样的 我们应该为每种
  • 从 HDF5 文件中删除信息

    我意识到 SO 用户以前曾问过这个问题question https stackoverflow com questions 1124994 removing data from a hdf5 file rq 1但它是在 2009 年被问到的

随机推荐