使用 itextsharp 根据大小将 pdf 拆分为更小的 pdf

2023-12-25

因此，我们有一些非常低效的代码，可以根据允许的最大大小将 pdf 分成更小的块。又名。如果最大大小为 10megs，则将跳过 8 meg 文件，而将根据页数拆分 16 meg 文件。

这是我继承的代码，我觉得必须有一种更有效的方法来做到这一点，只需要一个方法和更少的对象实例化。

我们使用以下代码来调用方法：

        List<int> splitPoints = null;
        List<byte[]> documents = null;

        splitPoints = this.GetPDFSplitPoints(currentDocument, maxSize);
        documents = this.SplitPDF(currentDocument, maxSize, splitPoints);

方法：

    private List<int> GetPDFSplitPoints(IClaimDocument currentDocument, int maxSize)
    {
        List<int> splitPoints = new List<int>();
        PdfReader reader = null;
        Document document = null;
        int pagesRemaining = currentDocument.Pages;

        while (pagesRemaining > 0)
        {
            reader = new PdfReader(currentDocument.Data);
            document = new Document(reader.GetPageSizeWithRotation(1));

            using (MemoryStream ms = new MemoryStream())
            {
                PdfCopy copy = new PdfCopy(document, ms);
                PdfImportedPage page = null;

                document.Open();

                //Add pages until we run out from the original
                for (int i = 0; i < currentDocument.Pages; i++)
                {
                    int currentPage = currentDocument.Pages - (pagesRemaining - 1);

                    if (pagesRemaining == 0)
                    {
                        //The whole document has bee traversed
                        break;
                    }

                    page = copy.GetImportedPage(reader, currentPage);
                    copy.AddPage(page);

                    //If the current collection of pages exceeds the maximum size, we save off the index and start again
                    if (copy.CurrentDocumentSize > maxSize)
                    {
                        if (i == 0)
                        {
                            //One page is greater than the maximum size
                            throw new Exception("one page is greater than the maximum size and cannot be processed");
                        }

                        //We have gone one page too far, save this split index   
                        splitPoints.Add(currentDocument.Pages - (pagesRemaining - 1));
                        break;
                    }
                    else
                    {
                        pagesRemaining--;
                    }
                }

                page = null;

                document.Close();
                document.Dispose();
                copy.Close();
                copy.Dispose();
                copy = null;
            }
        }

        if (reader != null)
        {
            reader.Close();
            reader = null;
        }

        document = null;

        return splitPoints;
    }

    private List<byte[]> SplitPDF(IClaimDocument currentDocument, int maxSize, List<int> splitPoints)
    {
        var documents = new List<byte[]>();
        PdfReader reader = null;
        Document document = null;
        MemoryStream fs = null;
        int pagesRemaining = currentDocument.Pages;

        while (pagesRemaining > 0)
        {
            reader = new PdfReader(currentDocument.Data);
            document = new Document(reader.GetPageSizeWithRotation(1));

            fs = new MemoryStream();
            PdfCopy copy = new PdfCopy(document, fs);
            PdfImportedPage page = null;

            document.Open();

            //Add pages until we run out from the original
            for (int i = 0; i <= currentDocument.Pages; i++)
            {
                int currentPage = currentDocument.Pages - (pagesRemaining - 1);
                if (pagesRemaining == 0)
                {
                    //We have traversed all pages
                    //The call to copy.Close() MUST come before using fs.ToArray() because copy.Close() finalizes the document
                    fs.Flush();
                    copy.Close();
                    documents.Add(fs.ToArray());
                    document.Close();
                    fs.Dispose();
                    break;
                }

                page = copy.GetImportedPage(reader, currentPage);
                copy.AddPage(page);
                pagesRemaining--;

                if (splitPoints.Contains(currentPage + 1) == true)
                {
                    //Need to start a new document
                    //The call to copy.Close() MUST come before using fs.ToArray() because copy.Close() finalizes the document
                    fs.Flush();
                    copy.Close();
                    documents.Add(fs.ToArray());
                    document.Close();
                    fs.Dispose();
                    break;
                }
            }

            copy = null;
            page = null;

            fs.Dispose();
        }

        if (reader != null)
        {
            reader.Close();
            reader = null;
        }

        if (document != null)
        {
            document.Close();
            document.Dispose();
            document = null;
        }

        if (fs != null)
        {
            fs.Close();
            fs.Dispose();
            fs = null;
        }

        return documents;
    }

据我所知，我能看到的唯一在线代码是 VB，并且不一定解决大小问题。

UPDATE:

我们遇到了内存不足异常，我认为这是大对象堆的问题。因此，一种想法是减少代码占用空间，这可能会减少堆上大型对象的数量。

基本上，这是循环的一部分，该循环遍历任意数量的 PDF，然后分割它们并将它们存储在数据库中。现在，我们必须更改方法，从一次执行所有这些操作（上次运行的是 97 个不同大小的 pdf），改为每 5 分钟通过系统运行 5 个 pdf。这并不理想，当我们向更多客户提供该工具时，也无法很好地扩展。

（我们正在处理 50 -100 meg pdf，但它们可能更大）。

我也继承了这个确切的代码，其中似乎存在一个重大缺陷。在里面GetPDFSplitPoints方法，它根据 maxsize 检查复制页面的总大小，以确定在哪个页面分割文件。
In the SplitPDF方法，当它到达发生分割的页面时，毫无疑问，该点的 MemoryStream 低于允许的最大大小，再多一页就会超过限制。但是之后document.Close();被执行，更多的东西被添加到MemoryStream（在我使用的一个 PDF 示例中，Length of the MemoryStream前后从 9 MB 变为 19 MBdocument.Close）。我的理解是复制页面的所有必要资源都添加在Close.
我猜我必须完全重写这段代码，以确保不超过最大大小，同时保留原始页面的完整性。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 itextsharp 根据大小将 pdf 拆分为更小的 pdf 的相关文章

转换 const void*

我有一个函数返回一个const void 我想用它的信息作为char 我可以将它投射为 C 风格的罚款 char variable但是当我尝试使用reinterpret cast like reinterpret cast
现代 C++ 编译器是否能够在某些情况下避免调用 const 函数两次？

例如如果我有以下代码 class SomeDataProcessor public bool calc const SomeData d1 const SomeData d2 const private Some non mutable
未找到 Boost 库，但编译正常

我正在尝试在 C 中使用 boost 的文件系统使用时看起来编译没问题 c c Analyse c o Analyse o g W Wall L usr local lib lboost filesystem lboost system
从复选框列表中选择循环生成的复选框中的一个复选框

抱歉我的英语不好在我的 ASP NET 网站上我从 SQL 表导入软件列表看起来像这样但实际上要长得多 Microsoft Application Error Reporting br br Microsoft Applicatio
传递 constexpr 对象

我决定给予新的C 14的定义constexpr旋转并充分利用它我决定编写一个小的编译时字符串解析器然而我正在努力保持我的对象constexpr将其传递给函数时考虑以下代码 include
ASP.NET 5 中的全局异常处理

如何将自己的日志记录逻辑附加到 ASP NET 5 应用程序以处理业务逻辑和较低层中引发的每个异常我尝试用自己的ILoggerProvider实施和loggerfactory AddProvider new LoggerProvider
有些有助于理解“产量”

在我不断追求少吸的过程中我试图理解产量的说法但我不断遇到同样的错误 someMethod 的主体不能是迭代器块因为 System Collections Generic List 不是迭代器接口类型这是我被卡住的代码 forea
如何将 .txt 文件中的数据转换为 xml？ C＃

我在一个文本文件中有数千行数据我想通过将其转换为更容易搜索的内容来轻松搜索我希望 XML 或其他类型的大型数据结构尽管我不确定它是否是最好的对于我的想法每行的数据如下所示第 31 册托马斯乔治 32 34 154 每本书都不是
处理右值时的 insert 与 emplace

std string myString std unordered set
什么是空终止字符串？

它与什么不同标准字符串 http www cplusplus com reference string string 字符串实际上只是一个数组chars 空终止字符串是指其中包含空字符的字符串 0 标记字符串的结尾不一定是数组的结尾
获取没有显式特征的整数模板参数的有符号/无符号变体

我希望定义一个模板类其模板参数始终是整数类型该类将包含两个成员其中之一是类型T 另一个作为类型的无符号变体T 即如果T int then T Unsigned unsigned int 我的第一直觉是这样做 template
是否使用 C# 数据集？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我对 C 中的数据集概念有点困惑编码 ASP NET 站点但这并不重要在我的阅读中我了解到它们本质上用作我的应用程序和我的
如果输入被重定向则执行操作

我想知道如果我的输入被重定向我应该如何在 C 程序中执行操作例如假设我有已编译的程序 prog 并且我将输入 input txt 重定向到它我这样做 prog lt input txt 我如何在代码中检测到这一点一般来说您无法判
C++ - 多维数组

处理多维数组时是否可以为数组分配两种不同的变量类型例如你有数组int example i j 有可能吗i and j是两种完全不同的变量类型例如 int 和 string 听起来您正在寻找 std vector
将二变量 std::function 转换为单变量 std::function

我有一个函数它获取两个值 x 和 y 并返回结果 std function lt double double double gt mult double x double y return x y 现在我想得到一个常量 y 的单变量函数
模板类的模板构造函数的 C++ 显式模板特化

我有一个像这样的课程 template
Visual Studio 2015：v120 与 v140？

仅供参考 Win10 x64 我今天开始尝试 Visual Studio 2015 在弄清楚如何运行 C C 部分后我尝试加载一个大型个人项目该项目使用非官方的glsdk http glsdk sourceforge net docs
WPF DataGrid / ListView 绑定到数组 mvvm

我们假设你有 N 个整数的数组表示行数的整数值在模型中该整数绑定到视图中的 ComboBox Q1 如何将数组或数组的各个项目绑定到 DataGrid 或 ListView 控件以便当您更改 ComboBox 值时只有那么多
C++：二叉树所有节点值的总和

我正在准备面试我被一个二叉树问题困住了我们如何计算二叉树所有节点中存在的值的总和优雅的递归解决方案伪代码 def sum node if node NULL return 0 return node gt value sum nod
了解 Lambda 表达式和委托 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我已经尝试解决这个问题很长一段时间了阅读在线博客和文章但到目前为止还没有成功什么是代表什么是 Lambda 表达式两者的优点

随机推荐

如何在 Pentaho BI 服务器 v6 CE 上部署计划的 Kettle 作业

我有一台运行 Pentaho BI 服务器 v6 社区版的服务器我们开发了一项 Kettle 作业用于从一个数据库提取到另一个数据库并导出为 KJB 文件我想每 12 个小时左右运行一次这项工作我注意到BI服务器已经包含了Kett
如何在没有互联网连接的情况下本地安装 NodeJS 项目？

我有一个项目必须将其部署到无法连接到互联网的客户端 Windows 系统我目前在 D NODE 中有一个文件夹其中包含 node exe 和 npm cmd 以及一个 node modules 文件夹为了能够从命令行运行节点我已将
.htaccess 文件的位置

var www html My project folder 是我的项目的路径我没有找到 htaccess 文件我想粘贴我编辑的 htaccess 文件但我不确定我需要放在哪个位置我的 htaccess 文件代码是
Bash 脚本中的 SSH 搞乱了文件读取 [重复]

这个问题在这里已经有答案了我有一个脚本可以逐行读取文件并根据读取的内容执行操作它所做的事情之一是通过 ssh 连接到远程服务器并获取一些信息由于某种完全超出我能力范围的原因这会停止从文件中读取行该脚本本质上是我已经删除了很多
寻找Python字典中最大的键

General 我需要帮助在 python 中找到一种方法来获得最大值N多维Python字典中的项目例如 things car weight 100 apple weight 1 spanner weight 10 在这种情况下我想找到
JavaFX WebView 进度始终从 0.0 到 1.0。（无中间值）

我目前正在使用 GluonHQ JavaFXPorts 开发一个应用程序其中我使用 WebView 加载一些 Internet 页面我注意到当我在桌面上使用以下代码时 webEngine getLoadWorker progressPr
undefined 不是一个对象（评估 'ImagePickerManager.showImagePicker'）

我正在尝试使用react native image picker 但卡在这里它总是显示错误如下图所示 undefined 不是一个对象评估 ImagePickerManager showImagePicker 有人遇到过这个问题吗我
使用 Python 的函数返回值为 shell 变量赋值

我有一个 Python 函数 fooPy 它返回一些值整数双精度或字符串我想使用这个值并在 shell 脚本中分配它例如以下是 python 函数 def fooPy return some string return 10 alt
使用 API 通过 Nodejs 使用 Drive.files.copy 将 Word 文档转换为 Google 文档在 Google Drive API v3 中进行转换

我正在尝试通过 Node js 使用 API 将 Word 文档转换为 Google 文档单词文档已经在一个文件夹中我只想将它们转换为谷歌文档我正在使用v3 The v3 docs https developers google co
PHP EOF 仅显示循环的一个结果

我在 PHP 中使用 EOF 问题是它只显示来自 mySQL 循环的一项它仅显示最后的结果这在EOF中有必要吗或者我可以避免这个问题吗 Thanks function getYiBAdminBanner global site glo
R try catch 块

我正在尝试在循环中评估树的多个输出参数但有时树功能会中止这些行如何被 try catch 块包围我很抱歉没有真正的代码但我没有非工作树的示例这是pseddo代码来说明当前的实现 for icol in seq 1 ncol c
如何从纬度和经度找出地图瓦片坐标？

我正在使用 Mapbox 矢量切片从后端进程收集特定数据在示例中他们提供了曼哈顿图块的链接 http a tiles mapbox com v3 examples map zr0njcqy 14 4823 6160 png http a
如何在管道中使用导管下降功能？

我有一个简单的任务从文件中读取一堆行并对每一行执行一些操作除了第一个这是一些需要忽略的标题所以我想我应该尝试一下管道 printFile src runResourceT CB sourceFile src CT decode CT
有没有办法获得 dask 中每组最大的项目？

我有以下数据集 location category percent A 5 100 0 B 3 100 0 C 2 50 0 4 13 0 D 2 75 0 3 59 0 4 13 0 5 4 0 我正在尝试获取数据框中按位置分组的最大类别
使用别名覆盖内置命令

我正在尝试创建一个覆盖的别名cd命令这将在真实之前和之后执行一个脚本cd 这是我到目前为止所拥有的 alias cd echo before cd 1 echo after 这将执行echo before and echo after
识别通过蓝牙与 PixelSense 配对的移动设备

我希望能够通过蓝牙将 Microsoft PixelSense 硬件与多个移动设备配对并且我希望 PixelSense 知道哪个设备是哪个因此如果我将两部手机放在桌子上 PixelSense 应该能够通过设备名称来标记它们我最初的想
html 模板保存在哪里？

我有一个单页应用程序目前我的模板存储在index html中例如以这种方式存储它们是最佳实践吗我发现了jQuery 模板我应该把它们放在哪里 https stackoverflow com questions 4719828 jq
Redis 作为独特的原子 ID 生成器 - Web 应用程序避免竞争条件的线程安全方式

我计划使用 Redis 作为唯一的原子 id 生成器但是我担心多个浏览器可能会同时发出 Web 请求我想知道使以下操作原子化的常见做法是什么 get id from redis if id is not found insert i
如何从环境变量将动态主题名称传递给@KafkaListener(topics)

我正在写一个卡夫卡消费者我需要将环境变量主题名称传递给 KafkaListener topics 这是我到目前为止所尝试过的 import org springframework beans factory annotation Auto
使用 itextsharp 根据大小将 pdf 拆分为更小的 pdf

因此我们有一些非常低效的代码可以根据允许的最大大小将 pdf 分成更小的块又名如果最大大小为 10megs 则将跳过 8 meg 文件而将根据页数拆分 16 meg 文件这是我继承的代码我觉得必须有一种更有效的方法来做到这一点

使用 itextsharp 根据大小将 pdf 拆分为更小的 pdf

使用 itextsharp 根据大小将 pdf 拆分为更小的 pdf 的相关文章

随机推荐

热门标签