使用pytesseract识别中文字符
环境的安装可以参考:https://editor.csdn.net/md/?articleId=109255325
首先,需要下载相应的数据集,可以自行搜索官网,下载chi_sim.traineddata
链接:
百度网盘:
链接:https://pan.baidu.com/s/1Z79jcrMwumlDHEXRyk82eg
提取码:pxwh
将这个数据集放入安装的Tesseract-OCR\tessdata中
我使用的是anaconda安装。
然后就是几行代码实现中文字符的识别:
from PIL import Image
import pytesseract
img = Image.open('1.jpg')
content = pytesseract.image_to_string(img, lang = 'chi_sim')
print(content)
这里附上这个所有识别字体的数据包
链接:https://pan.baidu.com/s/1FdAwdIVUGhBk0jA_V4i62g
提取码:lfel
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)