怎样把pdf转换成word-多语言ocr支持

2023-11-16

http://jingyan.baidu.com/article/86fae34699bb4e3c49121a23.html

 

PDF格式良好的视觉阅读性和通用性使得PDF文件的使用越来越广泛了,网络上的PDF资料也越来越多,但是我们往往想要提出某些资料里面的部分文字内容进行二次编辑,那么我们这里就是讲比较通用的PDF转为WORD格式的方法。
▲下面的六款软件中,前三个适用于普通的PDF文件(里面内容可以用鼠标选中的),后三个适用于图片类或者是扫描件做成的PDF文件(通常网络上下载的书本都是这个形式的)。你要有针对性的选择合适的软件转换出来才有最好的效果~~~
▲▲如何判断PDF文件是否加密:用adobe reader或者adobe acrobat 软件打开你的PDF文件,如果提示要输入密码,那么这种文件肯定是加密文件,是无法转换的。还有一种是能够打开的,打开以后在软件的标题栏文件名的后面有“(已加密)”字样的(如下图所示),也是加密的PDF文件,加的不是打开密码,是文件修改的权限密码,这种也是无法转换的,只有去除掉了权限以后才可以转换。
★★重要: 转换前请务必确认你的PDF文件没有加密加权限限制,否则转换会失败的,具体看本文最下面注意事项。
 

工具/原料

  • AnyBizSoft PDF Converter V2.5
  • Solid Converter PDF V6 / V7
  • e-Pdf pdf 2 word converter 2.5
  • CAJviewer 7.0
  • ABBYY finereader v9
  • Readiris Corporate 12

步骤/方法

  1.  
    AnyBizSoft PDF Converter V2.5 本人推荐使用等级 ★★★★ 
    AnyBizSoft PDF Converter 是一款PDF 转多种格式的软件,select部分是你要转换输出的格式,你要什么格式就选择什么格式,前提是你一定要安装微软的OFFICE办公软件。
    add files按键就是添加你要转换的文件用的,可以批量的。
    output setting部分就是输出设置部分,是设置文件输出保存位置的,可以是源pdf文件位置或你也可以自定义。最后那个大大的convert按键就是转换开始键了。这个软件对于中文字体的支持还是不错的,就是有时候版面会有点错乱。不过胜在支持多格式转换。而且转换速度比较快。 
  2.  
    Solid Converter PDF V6/ V7 本人推荐使用等级 ★★★★☆ 
    solid converter PDF v6是一个PDF转word的神器,支持PDF转换成word、excel、图片、html等等,当然这个软件还带有PDF的加水印、修改等功能。
    转换速度虽然比较慢,但是转换出来的效果是非常好的,版面维持的几乎不变,还有一项最好的功能就是能够转换部分直接复制是乱码的PDF。 
  3.  
    e-Pdf pdf 2 word converter 2.5 本人推荐使用等级 ★★★ 
    e-Pdf pdf 2 word converter 是一款功能比较单一的软件,只能是PDF转word。但那是这个软件的转换速度和版面的还原能力都是比较好的,而且有中文汉化版的便于操作。只需转换word格式的朋友推荐使用。 
  4.  
    CAJviewer 7.0 本人推荐使用等级 ★★★☆ 
    CAJviewer 7是中国知网的专用浏览器,也支持PDF格式的阅读,完整版本是带有OCR组件的(约37M左右)。打开PDF文件以后在工具栏上有一个放大镜下面打一个勾的上面还有一个字和A的那个图标工具就是OCR工具。选择这个工具 然后拉框选择识别区域,稍等一会儿就会有文字识别结果对话框出来,那里面的文字就是识别提取出来的人,如果你要整个PDF转换,你可以在菜单栏 文件---另存为文本就可以了。
  5.  
    ABBYY finereader v9 本人推荐使用等级 ★★★★★ 
    ABBYY finereader v9是我见过的最强大的PDF(图片格式或者是扫描件)转word的软件。它是一款OCR软件,界面比较简洁明,9.0和以上版本有简体中文版的,支持100语言的识别,特别是混合多种语言识别效果也非常好。
    国内的OCR软件仅仅是对中文的识别比较好而已。而且,这款软件只要你设置好识别文件所用的语言然后打开PDF文件(支持直接打开的)然后其他的工作就交给软件了,识别完后 文件------另存为word格式就可以了。 而且版面的保持能力是我见过的OCR软件里面最好的一个识别率也是最高的一个,就是转换识别的速度比较慢。只要PDF文件比较清晰, 准确率基本可以达到95%以上(除了数学公式、计算式、化学式、分子式、三角函数等专业的内容之外),强力推荐大家使用如果你要识别韩语PDF文件的话请使用10.0版本,9.0不支持韩语的识别的。 
  6.  
    Readiris Corporate 12 本人推荐使用等级 ★★★★ 
    Readiris Corporate 12也是一款OCR软件,同样支持100多种语言的识别,但是要识别亚洲语言还要额外安装亚洲语言词典才行。识别能力也是非常高的,就是版面的保持能力比ABBYY 的略差一筹,而且转换速度比较慢,对PDF文件的兼容性略差一点。识别等等都要比国内的OCR软件高出不少,也是一款不可多得的软件。

    总结:当然PDF转word的软件还有很多种,上面介绍的几个软件只是本人转换了上千个PDF文件在无数个转换软件中挑选出来的比较好的软件,特地总结一些经验大家共勉,免得大家走太多弯路。

    END

注意事项

  • 因为PDF是可以加密加权限的,所以如果遇到已加密的PDF文件要先解密以后才可以转换的。
  • 对于可以打开阅读,但是限制了复制打印等功能的PDF文件,一般可以用PDF password remover 3或者PDF unlocker 去掉加密权限,然后再转换。(如果PDF password remover 3没有注册 只支持解密3页内容)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

怎样把pdf转换成word-多语言ocr支持 的相关文章

随机推荐

  • 数据分析理论

    文章目录 一 数据分析的概念 二 数据分析的过程 1 问题定义 2 数据采集 3 数据预处理 4 数据探索和数据可视化 5 预测模型的创建和选择 6 模型评估 7 部署 三 数据分析的作用 一 数据分析的概念 数据分析是指用适当的统计分析方
  • Uniapp 截图或者生成海报的方法

    需求 uniapp移动端需要生成一张当前界面的海报 方案一 类似于手机按钮截图效果 实现代码如下 doSaveScreen let this this uni showLoading 加载框 title 保存中 mask true var
  • STM32F103C8T6详细引脚表

    今天准备画一个STM32F103C8T6的最小系统板 就去STM32F103C8的数据手册查看了一下相应的引脚 因为数据手册里面的引脚表有中容量的多种封装描述 看上去比较麻烦 我就单独做了一个LQFP48脚的引脚表 方便后期自己画封装 就图
  • Spring+Mybatis 查询所有数据时发生异常:org.apache.ibatis.reflection.ReflectionException: There is no getter for

    Spring Mybatis框架整合时 根据条件查询数据 发生异常 Caused by org apache ibatis reflection ReflectionException There is no getter for prop
  • JavaScript分支语句总结

    注 js变量算术运算符和逻辑运算符知识点的补充 1 的区别 表示值相等 表示值相等 数据类型也必须相等 案例 的区别 表示值相等 表示值相等 数据类型也必须相等 var x 10 var y 10 console log x y true
  • 图像降质

    1 逆滤波和维纳滤波 附Matlab完整代码 https blog csdn net weixin 41730407 article details 80455612 2 python 运动模糊 退化模型 点扩散函数 逆滤波与维纳滤波 ht
  • GG-CNN代码学习

    文章目录 1 源码网址 https github com dougsm ggcnn 2 数据集格式转化 下载后的康奈尔数据集 解压完之后里面的格式 里面的 tiff图像通过 txt文件转化得到 python m utils dataset
  • layui 数据表格 sort排序,filter过滤——soulTable

    1 效果图 2 页面代码 div class fp table style margin left 0 5 width 86 table style margin bottom 0px table div 3 js代码 引入扩展组件 lay
  • 【学vue跟玩一样】快速搞懂vue渲染

    Vue的渲染分为条件渲染和列表渲染 那究竟什么式渲染呢 1 条件渲染 1 v if写法 1 v if 表达式 2 v else if 表达式 3 v else 表达式 和我们曾经学过的JavaScript里面的if语句几乎一样 适用于 切换
  • Quartz misfire详解

    一 前言 最近在学习Quartz 看到misfire这一部分 发现官方文档上讲解的很简单 没有看明白 然后去搜索了一下网上的讲解 发现讲的也都大同小异 也没有看明白 最后只能自己动手做测试 总结了一下 这篇文章把自己总结的记录下来 方便自己
  • 使用 HEX 参数在 Python 中实现六边形图像的显示数据关系

    使用 HEX 参数在 Python 中实现六边形图像的显示数据关系 在数据可视化中 六边形图被广泛应用于显示多元数据之间的关系 本文将介绍如何使用 Python 中的 hex 参数来设置六边形图像 并展示如何使用这种方法来显示数据的关系 首
  • Spring Boot —— Security 控制按钮权限

    文章目录 Spring Boot Security 控制按钮权限 前言 实现 引入对应的依赖 配置标签 Spring Boot Security 控制按钮权限 前言 在freemarker中 通过Security根据用户角色控制页面按钮或菜
  • win8.1仅允许运行使用网络级别身份认证的远程桌面计算机连接,使用Win10通过Mstsc远程连接 Server 2012 R2 时出现 身份验证错误,要求的函数不受支持,这可能是由于CredSSP...

    使用Win10通过Mstsc远程连接 Server 2012 R2 时出现 身份验证错误 要求的函数不受支持 这可能是由于CredSSP加密Oracle修正 最终解决方法 原因 因为CVE 2018 0886 的 CredSSP 2018
  • unity shader 之基础四 数学

    4 2 笛卡尔坐标系 笛卡尔坐标系分为二维和三维坐标系 4 2 1二位坐标系 OpenGL 和 DirectX 二位坐标系是不同的 OpenGL 和 DirectX 是不同的图形访问接口 用来和硬件交互的 二维坐标系 是可以相互转换的 既
  • 【经典】centos 安装 mysql

    CentOS第一次安装MySQL的完整步骤 目录 1 官方安装文档 2 下载 Mysql yum包 3 安转软件源 4 安装mysql服务端 5 首先启动mysql 6 接着检查mysql 的运行状态 7 修改临时密码 7 1 获取MySQ
  • [转] 英文写作中分号和冒号的使用

    我们先来了解下分号和冒号的作用 分号的主要作用是来连接两个在语法上平等的成分 冒号的主要作用是引起读者对冒号后面内容的注意力 下面总结下规则 用分号的情况 1 用分号连接两个独立的句子 两个独立的句子不能够用逗号隔开 如果用逗号 必须逗号后
  • idea忽略.iml文件

    1 点击file文件下的设置中 2 点下file types 文件类型 进入到file types窗口 如图 然后点击忽略文件那添加需要忽略的类型
  • 自用HTML+CSS学习笔记

    HTML CSS学习笔记 1 Web标准 Web标准也称为网页标准 由一系列的标准组成 大部分由W3C World Wide Web Consortium 万维网联盟 负责制定 由三个组成部分 HTML 负责网页的结构 页面元素和内容 CS
  • IT的教育

    IT的教育 李颜芯 CSDN的网友大家好 欢迎大家收看这一起的CSDN视频访谈节目 今天我们请到了两位嘉宾 一位是 金旭亮 老师 一位是 金戈 老师 两位老师作一下自我介绍怎么样 金旭亮 我先介绍一下吧 我叫金旭亮是北京理工大学的讲师 我在
  • 怎样把pdf转换成word-多语言ocr支持

    http jingyan baidu com article 86fae34699bb4e3c49121a23 html PDF格式良好的视觉阅读性和通用性使得PDF文件的使用越来越广泛了 网络上的PDF资料也越来越多 但是我们往往想要提出