OCR加持白描App,让AI成为视障者的眼睛

2023-11-17

现实中,你可以轻松无障碍地阅读各类平面印刷文字以及身边的一切,或许你未曾想过,视障人群该怎么办呢?

统计数据显示,中国大约有1700万的视障群体,相当于每100个人中就有超过1位是视障人士。但我们在日常生活中却很少见到他们,那是因为视障群体在日常生活中会有诸多不便,出门对他们而言危机四伏。AI 有可能成为他们的“眼睛”吗?

成为他们的眼睛 白描 App 与视障群体的故事

如果手机上只能有一款 App,你会选择哪一款?视障人士安之坚定地给出了答案——白描。因为白描 App 让视力不佳的他用另一种方式“看”清世界,文字不再遥不可及。他用白描“看”过优美的诗篇,“听”过动人的乐章,甚至在独自上楼看不清所在楼层时,白描也准确地将答案告诉了他,将他从窘境中解救出来。一个 App 让曾经望“字”兴叹的他更加勇敢地走出家门,参与丰富多彩的生活。

“白描是我的眼。”同为视障人士的小杰从不吝啬对白描的夸赞,甚至直言白描是视障伙伴赖以生存的工具。白描帮助他解决了生活的难题,从各类电器、数码产品、药品说明书到各种洗漱用品包装都可以识别,他还可以给可爱的小侄女讲绘本故事。如果没有白描,这种事情是他难以想象的。

白描是如何做到被视障群体视若珍宝的呢?

白描 App 是一款简洁高效的 OCR 文字识别软件,不仅简单好用,而且设计美观,可以轻松实现“拍照-识别文字-朗读结果”一系列流程。同时,白描适配了手机无障碍辅助功能,视障者可以在手机上非常轻松地操作。

“白描”这个词本意是一种文学写作手法,鲁迅先生曾把这种手法概括成十二个字,即“有真意,去粉饰,少做作,勿卖弄”。白描 App 的开发者陶新乐正是这样的一个人,他观察到了不同人群的实际需求,用虚拟世界的代码满足了现实世界有需求的人,让他们的生活变得更加美好、便捷。

白描 App 开发者的心路历程 切入不同场景、优化产品细节

你或许很难想象,作为一名个人开发者的陶新乐,他最早开发白描 App 是为了女朋友。陶新乐的女友热爱阅读,经常做读书笔记。为了减轻抄录压力,她尝试使用了当时市面上的各类文字识别软件,但她发现:有的软件操作流程繁琐,有的费用高昂,有的则识别不准确……看到女朋友痛苦不已,陶新乐当下决定亲自做个体验好、效果佳的 OCR 文字识别工具给女朋友使用,并且很快付诸了行动。这或许就是开发者独有的浪漫。

然而,一款 App 的开发过程是充满未知与挑战的。在当时的条件下,开发一款具有 OCR 功能的软件,面临的一个巨大挑战是:如何让文字识别得又快又准。因此,他调研了市面上提供此服务的厂商,并对不同厂商的产品进行了对比,尝试识别不同场景的图片,找出识别效果最好的那个。于是他发现,百度智能云的 OCR 技术能力和使用体验都是最好的,尤其是识别准确度更领先于其他厂商,所以在2017年他就毫不犹豫地选择了百度智能云 OCR 技术,并一直使用至今。

但是优秀的底层技术并不意味着全部,百度智能云 OCR 已提供近60项技术能力,好的技术也需要应用于匹配的场景才能发挥更大的价值。

于是,陶新乐首先对白描的使用场景做了细分研究,比如:学生上课拍 PPT 提取文字记笔记、企业员工把纸质合同扫描成电子版并且制作 PDF、把纸质表格转成 Excel 电子版、翻译图片上的文字、老师拍摄并识别试题后对试题再加工、律师用来提取纸质文书上的文字等等。特别是视障人群特殊的使用需求,他都有关注和调研。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

考虑完用户的使用场景之后,再就是对产品的不断打磨。当时,图片转文字常常会有识别错误的情况发生,为了解决这一问题,在识别之前,白描 App 会进行一些技术上的处理,比如图像压缩如何保证清晰度又尽量减小图片大小;如何在进行长图自动裁剪时,检测到长图的空行位置自动裁剪,且不会裁到文字;如何针对文章进行自动分段,更便于读者阅读等等。这些精细化的产品设计保证了图片的清晰度,让文字信息更易于被识别。而在识别之后,白描的校对功能,可以让识别结果与原图显示在同一界面上,方便用户快速找到需要修改的地方,在此基础上进行编辑。

依托百度智能云优秀的深度学习算法,以及自身的图像预处理能力,白描 App 最终实现了关键字段识别准确率99%+。看到女友使用白描时绽放的笑颜,陶新乐觉得一切都是值得的,他也希望更多人能够享受到这份快乐。

成功的背后 用“匠人”之心雕琢产品之光

程序员出身的陶新乐在做产品这件事上一直怀揣一颗“匠人”之心。陶新乐提到,AI 在落地的过程中会遇到很多困难,很多时候都是一边踩坑一边向前走。当遇到无法解决的问题时,就需要不断学习,攻坚克难。

百度智能云 OCR 技术与无数像陶新乐一样的开发者并肩同行。作为最早规模化应用的 AI 技术之一,OCR 技术的产业级应用持续取得突破。百度智能云 OCR 技术可提供多场景、多语种、高精度的文字检测与识别服务,多项 ICDAR 指标居世界第一,已广泛适用于远程身份认证、财税报销、文档电子化等场景,为企业降本增效,为用户带来更智能化的应用体验。

当然,AI 技术的应用落地,除了需要有百度智能云这样提供领先 AI 技术能力的平台外,还需要更多像陶新乐这样的开发者们,发挥想象将 AI 应用在更多真实场景中,满足不同用户群体,甚至是容易被忽视的残障人群的需求,让社会更有“AI”。同时,为了降低独立开发者和企业自主训练 OCR 文字识别模型的门槛,百度智能云推出业界首个 EasyDL OCR 自训练平台,提供零门槛、定制化、低成本的一站式 OCR 模型训练服务。保证高准确率的同时,满足多元化的场景需求,并有效保障数据安全。

在这个科技为大众生活赋能的时代,产品的设计更是一种普惠理念的输出。已拥有超过800万用户的白描 App,已经成为业界的口碑产品。相信,未来还将有越来越多的开发者通过百度大脑 AI 开放平台提供的 AI 技术与服务,创造出更多与场景相结合的智能应用,让更多人生活更便捷、更美好。

点击进入了解更多技术资讯~~

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

OCR加持白描App,让AI成为视障者的眼睛 的相关文章

随机推荐

  • 一分钟秒懂公有云、私有云、混合云......

    近几年随着云计算技术的逐渐普及 越来越多的企业开始选择了部署云计算方案 当运营赖于数据结构和网络管理业务时 云计算的灵活性 易用性 定制性给企业带来的优势是毋庸置疑的 但是公有云 私有云 混合云等等到底都是什么呢 公有云 私有云 混合云 这
  • NPOI 单元格设置边框

    很多表格中都要使用边框 本节将为你重点讲解NPOI中边框的设置和使用 边框和其他单元格设置一样也是调用ICellStyle接口 ICellStyle有2种和边框相关的属性 分别是 边框相关属性 说明 范例 Border 方向 边框类型 Bo
  • SourceInsight保存文件时自动去除多余的空格

    在用source insight 写代码后提交git 如果有一些多余的空格不删除就提交会出现标红的界面 在source insight 中可以设置保存时自动去除多余的空格 Options gt gt Files gt gt Remove e
  • Yahoo(雅虎)宣布停止开发YUI

    转载至 http www infoq com cn news 2014 09 yahoo drop axe YUI utm campaign infoq content utm source infoq utm medium feed ut
  • DoTween使用

    using System Collections using UnityEngine using DG Tweening using UnityEngine UI DOTween真的比iTween好很多 1 编写方面更加人性化 2 效率高很
  • 供应链金融三大类模式

    供应链金融三类模式的最全对比分析 2017 08 25 15 56 供应链金融可以解决中小企业供应链中资金分配的不平衡问题 打通上下游物流链 资金链 商流 信息流 提升整个供应链的群体竞争力 因此 供应链金融 备受中小企业青睐 在 供应链金
  • V4l2框架基础知识(三)

    V4L2框架概述 V4L2框架主要部分组成 V4L2 device 管理所有设备 media device media device框架管理运行时的pipeline V4L2 device 这个是整个输入设备的总结构体 可以认为他是整个V4
  • ROS节点运行管理launch文件

    launch 文件是一个 XML 格式的文件 可以启动本地和远程的多个节点 还可以在参数服务器中设置参数 作用 可以简化节点的配置与启动 提高ROS程序的启动效率 一 新建 1 新建launch文件 如 turtlesim 在功能包下添加
  • gdb

    100个gdb技巧 Debugging with GDB gdb调试基础 g选项 在编译时要加上 g选项 生成的可执行文件才能用gdb进行源码级调试 g选项的作用是在可执行文件中加入源代码的信息 比如可执行文件中第几条机器指令对应源代码的第
  • Windows10+ubuntu 双系统安装(针对联想小新air14)

    联想小新air14 Windows10 ubuntu 双系统安装 一 准备工作 1 查看电脑配置 1 查看BIOS模式 2 搞清楚硬盘单双 2 制作系统盘 1 资源准备 2 写盘 3 磁盘分区 二 安装过程 1 用做好的系统盘安装系统 2
  • LaTeX的基本使用

    看前说明 说明 这篇文章介绍了latex的基本使用 基本覆盖了latex入门的知识点 由本人自己学习研究整理出来 不可被他人拿来进行不当的商用等等 违者必究 大家利用下面完整的latex文档 在编译器中编译 对比latex文档和生成文件之间
  • MyEclipse中关闭项目的作用及操作方法

    1 关闭项目的操作方式 选中项目 右键 点击Close Project 便可关闭当前项目 如图 关闭后的项目状态如图所示 2 开启项目的操作方式 双击项目或右键项目 点击Open Project 弹出如下窗口 点击 No 按钮 开启当前项目
  • JUC 之 线程局部变量 ThreadLocal

    ThreadLocal 基本概念 ThreadLocal 提供线程局部变量 这些变量与正常的变量不同 因为每一个线程在访问 ThreadLocal 实例的时候 通过其get 或者 set 方法 都有自己的 独立初始化的变副本 ThreadL
  • react、umi、dva

    React 一 React的简介 1 介绍 React 是一个用于构建用户界面的 JAVASCRIPT 库 React主要用于构建UI 很多人认为 React 是 MVC 中的 V 视图 React 起源于 Facebook 的内部项目 用
  • Mac升级Catalina(10.15)后 clion不能运行,提示「xcrun: error: invalid active developer path ...」

    Mac升级Catalina 10 15 后 使用clion 运行失败 提示内容如下 xcrun error invalid active developer path Library Developer CommandLineTools m
  • MQTT-保留消息和遗嘱消息

    遗嘱消息 为什么需要遗嘱消息 MQTT的订阅发布机制 解耦了消息的发送方和接收方 这使我们没有办法获取对端的状态 为了解决该问题 MQTT提供了遗嘱消息 为意外断线的客户端提供了对外发出通知的能力 如何使用遗嘱消息 使用遗嘱消息 客户端需要
  • 【笔记】关于win导入外部动态磁盘时“包名称无效”的解决办法

    网易博客搬家 原贴时间 2015 02 22 一 问题背景 硬盘闲置 电脑重装系统以后装上硬盘 计算机 中无盘符 磁盘管理中显示硬盘为 外部动态磁盘 右键 导入外部磁盘 提示 包名称错误 二 尝试过程 1 重启电脑 无效 2 换sata接口
  • DBeaver教程:连接达梦数据库DM8

    本文介绍如何通过dbeaver连接达梦数据库进行管理 DBeaver 是一个基于 Java 开发 免费开源的通用数据库管理和开发 DBeaver 采用 Eclipse 框架开发 支持插件扩展 并且提供了许多数据库管理工具 ER 图 数据导入
  • linux查看所有文件

    这本阿里P8撰写的算法笔记 再次推荐给大家 身边不少朋友学完这本书最后加入大厂 Github 疯传 史上最强悍 阿里大佬 LeetCode刷题手册 开放下载了 1 linux文件结构 linux文件结构是树形的 根目录是 其它所有文件都是在
  • OCR加持白描App,让AI成为视障者的眼睛

    现实中 你可以轻松无障碍地阅读各类平面印刷文字以及身边的一切 或许你未曾想过 视障人群该怎么办呢 统计数据显示 中国大约有1700万的视障群体 相当于每100个人中就有超过1位是视障人士 但我们在日常生活中却很少见到他们 那是因为视障群体在