我想在 perl 中解析 pdf 文件中的文本,而不将 pdf 转换为任何其他格式。是否可以 ?
是的你可以。
看看CAM::PDF http://search.cpan.org/dist/CAM-PDF/包裹。
您可以使用此模块来提取文本。
my $pdf = CAM::PDF->new($filename);
my $pageone_tree = $pdf->getPageContentTree(1);
print CAM::PDF::PageText->render($pageone_tree);
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)