如何使用cgi python脚本在浏览器中显示pdf文件内容及其全名？

2024-04-01

我希望显示 pdf 文件的完整路径及其在浏览器上显示的内容。我的脚本有一个输入 html，用户将在其中输入文件名并提交表单。该脚本将搜索该文件，如果在子目录中找到该文件，则将文件内容输出到浏览器中并显示其名称。我能够显示内容，但无法同时显示完整的精细名称，或者如果我显示文件名，我会得到内容的垃圾字符显示。请指导。

在此输入链接描述 https://stackoverflow.com/users/19068/quentin

脚本a.py：

import os
import cgi
import cgitb 
cgitb.enable()
import sys
import webbrowser

def check_file_extension(display_file):
    input_file = display_file
    nm,file_extension = os.path.splitext(display_file)
    return file_extension

form = cgi.FieldStorage()

type_of_file =''
file_nm = ''
nm =''
not_found = 3

if form.has_key("file1"):
    file_nm = form["file1"].value

type_of_file = check_file_extension(file_nm)

pdf_paths = [ '/home/nancy/Documents/',]

# Change the path while executing on the server , else it will throw error 500
image_paths = [ '/home/nancy/Documents/']


if type_of_file == '.pdf':
    search_paths = pdf_paths
else:
    # .jpg
    search_paths = image_paths
for path in search_paths:
    for root, dirnames, filenames in os.walk(path):
        for f in filenames:
            if f == str(file_nm).strip():
                absolute_path_of_file = os.path.join(root,f)
                # print 'Content-type: text/html\n\n'
                # print '<html><head></head><body>'
                # print absolute_path_of_file
                # print '</body></html>'
#                 print """Content-type: text/html\n\n
# <html><head>absolute_path_of_file</head><body>
# <img src=file_display.py />
# </body></html>"""
                not_found = 2
                if  search_paths == pdf_paths:
                    print 'Content-type: application/pdf\n'
                else:
                    print 'Content-type: image/jpg\n'
                file_read = file(absolute_path_of_file,'rb').read()
                print file_read
                print 'Content-type: text/html\n\n'
                print absolute_path_of_file
                break
        break
    break

if not_found == 3:
    print  'Content-type: text/html\n'
    print '%s not found' % absolute_path_of_file

该 html 是一个常规 html，只有 1 个文件名输入字段。

这不可能。至少没那么简单。有些网络浏览器不显示 PDF，但要求用户下载文件，有些浏览器自己显示它们，有些嵌入外部 PDF 查看器组件，有些启动外部 PDF 查看器。没有标准的跨浏览器方式将 PDF 嵌入 HTML，如果您想显示任意文本，则需要这种方式andPDF 内容。

一个适用于所有浏览器的后备解决方案是将服务器上的 PDF 页面呈现为图像并将其提供给客户端。这给服务器带来了一些压力（处理器、用于缓存的内存/磁盘、带宽）。

一些支持 HTML5 的现代浏览器可以使用以下命令呈现 PDF：Mozilla 的 pdf.js https://mozilla.github.io/pdf.js/在画布元素上。

对于其他的你可以尝试使用<embed>/<object>使用 Adobe 的插件作为Adobe 上描述的PDF 开发者迷博客 https://blogs.adobe.com/pdfdevjunkie/web_designers_guide.

在服务器上渲染页面

将 PDF 页面呈现为图像并提供服务需要服务器上的某些软件来查询页面数以及提取给定页面并将其呈现为图像。

页数可以通过以下方式确定pdfinfo节目来自Xpdf or the 库波普勒命令行实用程序。将页面从 PDF 文件转换为 JPG 图像可以使用以下命令完成convert来自 ImageMagick 工具。使用这些程序的一个非常简单的 CGI 程序：

#!/usr/bin/env python
import cgi
import cgitb; cgitb.enable()
import os
from itertools import imap
from subprocess import check_output

PDFINFO = '/usr/bin/pdfinfo'
CONVERT = '/usr/bin/convert'
DOC_ROOT = '/home/bj/Documents'

BASE_TEMPLATE = (
    'Content-type: text/html\n\n'
    '<html><head><title>{title}</title></head><body>{body}</body></html>'
)
PDF_PAGE_TEMPLATE = (
    '<h1>{filename}</h1>'
    '<p>{prev_link} {page}/{page_count} {next_link}</p>'
    '<p><img src="{image_url}" style="border: solid thin gray;"></p>'
)

SCRIPT_NAME = os.environ['SCRIPT_NAME']


def create_page_url(filename, page_number, type_):
    return '{0}?file={1}&page={2}&type={3}'.format(
        cgi.escape(SCRIPT_NAME, True),
        cgi.escape(filename, True),
        page_number,
        type_
    )


def create_page_link(text, filename, page_number):
    text = cgi.escape(text)
    if page_number is None:
        return '<span style="color: gray;">{0}</span>'.format(text)
    else:
        return '<a href="{0}">{1}</a>'.format(
            create_page_url(filename, page_number, 'html'), text
        )


def get_page_count(filename):

    def parse_line(line):
        key, _, value = line.partition(':')
        return key, value.strip()

    info = dict(
        imap(parse_line, check_output([PDFINFO, filename]).splitlines())
    )
    return int(info['Pages'])


def get_page(filename, page_index):
    return check_output(
        [
            CONVERT,
            '-density', '96',
            '{0}[{1}]'.format(filename, page_index),
            'jpg:-'
        ]
    )


def send_error(message):
    print BASE_TEMPLATE.format(
        title='Error', body='<h1>Error</h1>{0}'.format(message)
    )


def send_page_html(_pdf_path, filename, page_number, page_count):
    body = PDF_PAGE_TEMPLATE.format(
        filename=cgi.escape(filename),
        page=page_number,
        page_count=page_count,
        image_url=create_page_url(filename, page_number, 'jpg'),
        prev_link=create_page_link(
            '<<', filename, page_number - 1 if page_number > 1 else None
        ),
        next_link=create_page_link(
            '>>',
            filename,
            page_number + 1 if page_number < page_count else None
        )
    )
    print BASE_TEMPLATE.format(title='PDF', body=body)


def send_page_image(pdf_path, _filename, page_number, _page_count):
    image_data = get_page(pdf_path, page_number - 1)
    print 'Content-type: image/jpg'
    print 'Content-Length:', len(image_data)
    print
    print image_data


TYPE2SEND_FUNCTION = {
    'html': send_page_html,
    'jpg': send_page_image,
}


def main():
    form = cgi.FieldStorage()
    filename = form.getfirst('file')
    page_number = int(form.getfirst('page', 1))
    type_ = form.getfirst('type', 'html')

    pdf_path = os.path.abspath(os.path.join(DOC_ROOT, filename))
    if os.path.exists(pdf_path) and pdf_path.startswith(DOC_ROOT):
        page_count = get_page_count(pdf_path)
        page_number = min(max(1, page_number), page_count)
        TYPE2SEND_FUNCTION[type_](pdf_path, filename, page_number, page_count)
    else:
        send_error(
            '<p>PDF file <em>{0!r}</em> not found.</p>'.format(
                cgi.escape(filename)
            )
        )


main()

有 Python 绑定库波普勒，所以调用外部pdfinfo程序可以很容易地用该模块替换。它还可用于提取页面的更多信息，例如 PDF 页面上的链接，以便为它们创建 HTML 图像映射。随着libcairo安装了 Python 绑定后，甚至可以在没有外部进程的情况下渲染页面。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用cgi python脚本在浏览器中显示pdf文件内容及其全名？的相关文章

工作日重新订购 Pandas 系列

使用 Pandas 我提取了一个 CSV 文件然后创建了一系列数据来找出一周中哪几天崩溃最多 crashes by day bc DAY OF WEEK value counts 然后我将其绘制出来但当然它按照与该系列相同的排名顺序绘制
如何使用文本相似性删除 pandas 数据框中相似（不重复）的行？

我有数千个数据这些数据可能相似也可能不相似使用 python 的默认函数 drop duplicates 并没有真正的帮助因为它们只检测相似的数据例如如果我的数据包含类似以下内容怎么办嗨早上好嗨早上好 Python 不会将
Django 的 request.FILES 出现 UnicodeDecodeError

我在视图调用中有以下代码 def view request body u for filename f in request FILES items body body Filename filename n f read n 在某些情况下
.pyx 文件出现未知文件类型错误

我正在尝试构建一个包含 pyx 文件的 Python 包 pyregion 但在构建过程中出现错误检查以下输出 python setup py build running build running build py creating b
使用 python 绘制正值小提琴图

我发现小提琴图信息丰富且有用我使用 python 库 seaborn 然而当应用于正值时它们几乎总是在低端显示负值我发现这确实具有误导性尤其是在处理现实数据集时在seaborn的官方文档中https seaborn pydata
Tensorflow 与 Keras 的兼容性

我正在使用 Python 3 6 和 Tensorflow 2 0 并且有一些 Keras 代码 import keras from keras models import Sequential from keras layers impo
SMTP_SSL SSLError: [SSL: UNKNOWN_PROTOCOL] 未知协议 (_ssl.c:590)

此问题与 smtplib 的 SMTP SSL 连接有关当与 SMTP 无 ssl 连接时它正在工作在 SMTP SSL 中尝试相同的主机和端口时出现错误该错误仅基于主机 gmail 设置也工作正常请检查下面的示例如果 Out
如何清除WebGL中的矩形区域？

WebGL 有一个clear清除整个表面的方法清除表面的特定矩形的最佳方法是什么例如我想将一个从 50 50 开始的 100x100 像素框设置为全零 ARGB 0 0 0 0 我现在能想到的就是用一个写入零的片段着色器绘制一个四边形
如何滚动到div内的元素？

我有一个滚动的div我想在点击它时发生一个事件它会强制执行此操作div滚动以查看内部元素我写的JavasCript是这样的 document getElementById chr scrollIntoView true 但这会在滚动时滚
如何在 pandas 中使用 read_fwf 跳过空行？

I use pandas read fwf http pandas pydata org pandas docs stable generated pandas read fwf htmlPython pandas 0 19 2 中的函数读
用 python 编写的数学语法检查器

我需要的只是使用 python 检查字符串是否是有效的数学表达式为了简单起见假设我只需要运算符也作为一元带有数字和嵌套括号为了完整性我还添加了简单的变量名称所以我可以这样测试 test 3 2 1 valid test 3
使用 html5 分块上传文件

我正在尝试使用 html5 的文件 API 分块上传文件然后在服务器端用 php 重新组装它我正在上传视频但是当我在服务器端合并文件时大小增加了并且它变成了无效文件请注意以下 html5 代码仅适用于 chrome 浏览器在
在 keras 中保存和加载权重

我试图从我训练过的模型中保存和加载权重我用来保存模型的代码是 TensorBoard log dir output model fit generator image a b gen batch size steps per epoch
Mac OSX 10.6 上的 Python mysqldb 不工作

我正在使用 Python 2 7 并尝试让 Django 项目在 MySQL 后端运行我已经下载了 mysqldb 并按照此处的指南进行操作 http cd34 com blog programming python mysql pyth
Jquery，清除/清空 tbody 元素的所有内容？

我认为这会相当简单但似乎空方法无法清除我拥有的 tbody 如果有人知道执行此操作的正确方法我将不胜感激我只想删除 tbody 中包含的所有内容到目前为止我正在尝试 tbodyid empty HTML table tbody tr
SocketIO + Flask 检测断开连接

我在这里有一个不同的问题但意识到它可以简化为如何检测客户端何时从页面断开连接关闭其页面或单击链接换句话说套接字连接关闭我想制作一个带有更新用户列表的聊天应用程序并且我在 Python 上使用 Flask 当用户连接时浏览器发
从 NumPy 数组到 Mat 的 C++ 转换 (OpenCV)

我正在围绕 ArUco 增强现实库基于 OpenCV 编写一个薄包装器我试图构建的界面非常简单 Python 将图像传递给 C 代码 C 代码检测标记并将其位置和其他信息作为字典元组返回给 Python 但是我不知道如何在 Pytho
当数据库不是 Django 模型时，是否可以使用数据库中的表？

是否可以从应用程序数据库中的表获取查询集该表不是应用程序中的模型如果我有一个不是名为 cartable 的模型的表从概念上讲我想这样做 myqueryset cartable objects all 有没有相对简单的方法来做到这一点
混淆矩阵不支持多标签指示符

multilabel indicator is not supported是我在尝试运行时收到的错误消息 confusion matrix y test predictions y test is a DataFrame其形状为 Horse
Django 与谷歌图表

我试图让谷歌图表显示在我的页面上但我不知道如何将值从 django 视图传递到 javascript 以便我可以绘制图表姜戈代码 array Year Sales Expenses 2004 1000 400 2005 1170 460

随机推荐

为什么 JavaScript 压缩器用双引号替换单引号？

制作一些 Bookmarklet 我尝试使用 JavaScript minifier 例如谷歌闭包编译器 http closure compiler appspot com home or YUI压缩器 http www refresh s
使用 dropboxjs 通过 oauth 对客户端进行身份验证 2. 服务器端呢？

我对 Oauth 和服务器端的东西还很陌生所以请耐心等待我有一个网络应用程序可以通过以下方式对用户进行身份验证dropbox js https github com dropbox dropbox js 一切都非常简单该应用程序使用
Gitpython 初始化并推送新的存储库

所以我尝试使用 gitpython https gitpython readthedocs io en stable intro html https gitpython readthedocs io en stable intro htm
如何让html忽略文本中的代码？

我需要在我的 html 文档中包含一些代码我试过了 pre 标签但这没有帮助如何将此代码放入文本文档中 Thanks 简短的回答使用在线编码您的代码HTML编码器 http www opinionatedgeek com dotne
从 Pandas Timedelta 获取总小时数？

如何获取 Pandas timedelta 中的总小时数例如 gt gt gt td pd Timedelta 1 days 2 hours gt gt gt td get total hours 26 注意根据文档 hours属性将返
使用 Spring Batch 的 Json 数组读取器文件

我有一个文件作为输入其中包含 json 数组我想在不破坏 Spring Batch 原则的情况下阅读它与 FlatFileReader 或 XmlReader 相同的方式我没有找到任何方法来做到这一点读者已经在 spring ba
Chrome 在发送 8 个字节之前不会显示文件正在下载（Firefox 会显示）

我想要一个将文件发送给用户的http方法但它需要一些时间例如4秒来生成文件内容我想要的是浏览器立即显示正在下载的文件但 Chrome 仅在发送 8 个字节后才显示文件正在下载我预先不知道文件的前 8 个字节然而 Firefox
Android LikeView 错误

我在我的 Android 应用程序中使用 facebook android sdk v3 19 1 我尝试使用LikeView https developers facebook com docs android like button 但
在斯坦福 NER 中标记全名

我试图将全名标记为完整标签一个人而不是单个标签这是一个例子 http nlp stanford edu 8080 ner process http nlp stanford edu 8080 ner process 斯坦福NER在线
async/await 的调用链...等待可等待的内容还是返回可等待的内容？

给定一个异步方法 public async Task
C++ 使用模板来避免编译器检查布尔值

假设我有一个函数 template
在 Gradle 中正确显示 UTF-8 文本

我有一个任务 task info lt lt println Gradle Apache Ant Apache Maven DSL Groovy XML 当我使用命令时 gradle info Dfile encoding UTF 8 文本
何时在表达式中计算/返回/获取 Java 变量中的值？

根据http introcs cs princeton edu java 11precedence http introcs cs princeton edu java 11precedence 后自增运算符的优先级高于加法运算符因此对
如何“选择”字符串数组

当我使用Select Object NameCmdLet 似乎用单个创建了一个新对象Name其上的财产我经常想将此选择通过管道传递给其他 CmdLet 但它们通常只需要一个字符串我如何轻松获取一堆对象并说仅选择属性 x 和属性值到数组
跨 3 个平台的 Xamarin 移动应用版本号方案

这里可能有多个相关的问题我正在尝试为我们从单个 xamarin 解决方案构建的 3 个移动应用程序提出一个简单的版本号更新方案我正在寻找一种简单的方法来保持所有这些值彼此同步而不必四处走动并单独更新它们 Windows Phone 版
将 Spring Security 3 与 Jersey Rest API 结合起来

我有一个场景我试图将 spring security 与 jersey 结合起来用于我的 REST API 我的需求相当复杂我认为如下 Spring security 用于拦截 url 并强制进行基本身份验证以便访问 REST 资源
如何在 Flask 中制作 RadioField？

我有一个带有 TextField FileField 的表单并且我想添加 RadioField 我想要一个有两个选项的单选字段用户只能选择一个我正在遵循前面两种有效形式的示例我的 forms py 看起来像这样 from flask
自定义 QPrintPreviewDialog

是否可以自定义PrintPreviewDialog 我想界定放大和缩小功能我知道这个问题已经有几个月了但我花了相当长的时间才弄清楚所以这里是 QPrintPreviewDialog preview printer this QList
如何在 django 中指定索引类型？（btree 和 hash 对比等）

就像标题所说如何在 django 模型中的字段上指定我想要的索引类型 class Person age models IntegerField db index True 现在怎么办我如何确保它是一个btree index而不是一个ha
如何使用cgi python脚本在浏览器中显示pdf文件内容及其全名？

我希望显示 pdf 文件的完整路径及其在浏览器上显示的内容我的脚本有一个输入 html 用户将在其中输入文件名并提交表单该脚本将搜索该文件如果在子目录中找到该文件则将文件内容输出到浏览器中并显示其名称我能够显示内容但无法同时显示

如何使用cgi python脚本在浏览器中显示pdf文件内容及其全名？

在服务器上渲染页面

如何使用cgi python脚本在浏览器中显示pdf文件内容及其全名？ 的相关文章

随机推荐

热门标签

如何使用cgi python脚本在浏览器中显示pdf文件内容及其全名？的相关文章