本篇文章将会手把手介绍sdk和api、OCR文字识别,以及如何通过不用手敲代码实现调取OCR的免费sdk服务,让大家深入了解深度学习以及sdk和api的调取实例。
- 首先,什么是OCR文字识别?
- “OCR 是英文Optical Character Recognition的缩写,意思是光学字符识别,简单来说就是识别图片里的文字信息。”其应用方式有,身份证OCR、行驶证OCR、驾驶证OCR、营业执照OCR、银行卡OCR、手写体OCR、车牌OCR等。
其次,令大家困惑已久并傻傻分不清楚的sdk和api到底是什么?在《产品经理必懂的后端技术》中已经讲过:
还昏吗?用一个贴近生活的例子来解释:
- 有一杯密封饮料,它的名字叫做“SDK”。
- 饮料上插着吸管,吸管的名字叫“API”。
- 如果你想喝到SDK里的饮料(让系统拥有SDK中的功能),你必须通过API这根吸管来实现(通过API连接你的系统和SDK工具包),否则你就喝不到饮料。
因此本篇文章的内容就是,如果你不想通过写代码来实现图片里的文字识别(OCR),那么你就可以通过调用大牛们已经训练好的超高精度的深度学习模型的软件开发包(sdk)的应用程序接口(api)来达到你的目的。
如果想看实践的完整教学视频可以登录腾讯云大学的OCR 文字识别接入指引,若想直接上手操作可阅读全文。
OCR 文字识别接入指引 - 腾讯云大学cloud.tencent.com
本文将通过在线调用sdk和python调用sdk两种方式实现OCR图像识别和提取以下周董的歌词《爱在西元前》图片文字。
1. 使用在线sdk调用
步骤一 登录腾讯云官网,点击产品→人工智能产品→通用文字识别。
步骤二 点击右上方“接口文档”,查看api示例(ps产品经理必须一定要学会读api哦)。
文字识别产品界面
接口的参数有很多,其中最重要的是“Region(产品支持的地域)”和“ImageUrl*(图片url地址)”。
接口参数介绍
步骤三 刚刚那个界面一直拉到下面,点击API 3.0 Explorer,进入sdk调用界面。
接口文档
步骤四 点击个人密钥→查看文档,获取个人密钥(接口调用必须使用个人密钥)。
点击“查看文档”
步骤五 点击“新建密钥”,查看和复制“SecretId”和“SecretKey”到sdk调用界面的对应位置。
步骤六 接着填写输入参数,只需填写“Region(产品支持的地域,选择离你所在地最近的地址)”和“ImageUrl*(图片url地址)”,然后点击“在线调用”的“发送请求”,即可获取OCR模型的文字提取结果。
ps. 图片的url地址可以右键任意一个网络上的图片获取。
识别结果以json格式返回:
看到了“《爱在西元前》”,及其x轴y轴坐标位置。
2. 使用python调用
不会码代码不要紧,通过刚刚的调用过程已经自动根据填写的“个人密钥”和“输入参数”生成了对应的Java、python、Node.js、PHP等语言的代码,下面以python为例。
步骤一 在刚刚那个界面点击“代码生成”,选择“python”,点击右上角的“python SDK使用说明”。
步骤二 根据教程在python中pip安装sdk。
关于更多的pip技巧查看:
小西小子:万能python pip install大法zhuanlan.zhihu.com
步骤三 复制刚刚的代码,然后到python的IDE界面进行运行调用sdk,即可完成OCR图像识别!
成功!
自此手把手教会了如何介绍了sdk和api的概念,并用OCR深度学习算法模型进行了实践,大家紧赶动手实操,之后就可以举一反三实现更多AI黑科技啦。
笔芯
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)