计算机视觉

2023-10-26

手写字体的检测

(1) Adaboost进行手写字体的检测

导入mnist数据集

import tensorflow.examples.tutorials.mnist.input_data as input_data
data_dir = '../MNIST_data/'
mnist = input_data.read_data_sets(data_dir,one_hot=False)
batch_size = 50000
test_x = mnist.test.images[:10000]
test_y = mnist.test.labels[:10000]

一共60000个数据集，取50000用于训练，10000用于测试训练出的模型。

调用Adaboost分类器进行训练：

batch_x,batch_y = mnist.train.next_batch(batch_size)
clf_rf = AdaBoostClassifier(n_estimators = 60)
clf_rf.fit(batch_x,batch_y)

评估预测的效果：

y_pred_rf = clf_rf.predict(test_x)
acc_rf = accuracy_score(test_y,y_pred_rf)
print("%s n_estimators = 60, accuracy:%f" % (datetime.now(), acc_rf))

选取较好的参数(弱分类器数量)：

先通过调节弱分类器数量来获得一个训练效果比较不错的数量参数(虽然之后发现预测率好像是改变的)

在这里插入图片描述

之后选取弱分类器参数为60进行训练

在对自己的手写图片读入前先进行几步处理：

将图片转为二值图
resize为mnist训练集要求的(28*28)尺寸
将图像进行膨胀处理

img = cv2.resize(img, (28, 28), interpolation=cv2.INTER_CUBIC)
GrayImage = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
ret,thresh2=cv2.threshold(GrayImage,127,255,cv2.THRESH_BINARY_INV)
kernel = cv2.getStructuringElement(cv2.MORPH_RECT,(3, 3))
img = cv2.dilate(thresh2,kernel)

处理好的图片效果如下：

在这里插入图片描述

同时有一点很坑的要注意就是mnist要识别的是西方的手写字体，和我们常写的有一点区别。

下面是用于读入的手写数字

在这里插入图片描述

进行一步裁剪处理：

在这里插入图片描述

下面是预测效果：

在这里插入图片描述

test集的准确率为75%左右，自己手写数字的准确率为60%，这是一个比较不期望的结果，于是考虑用一个自己搭建的CNN网络对模型进行测试(参考tensorflow中文社区)

(2) 卷积神经网络(CNN)进行手写字体的检测

1. 权重初始化

def weight_variable(shape):
  initial = tf.truncated_normal(shape, stddev=0.1)
  return tf.Variable(initial)

def bias_variable(shape):
  initial = tf.constant(0.1, shape=shape)
  return tf.Variable(initial)

2. 卷积和池化

def conv2d(x, W):
  return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')

def max_pool_2x2(x):
  return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

3. 第一层卷积

W_conv1 = weight_variable([5, 5, 1, 32])
b_conv1 = bias_variable([32])

x_image = tf.reshape(x, [-1,28,28,1])
h_conv1 = tf.nn.relu(conv2d(x_image, W_conv1) + b_conv1)
h_pool1 = max_pool_2x2(h_conv1)

4.第二层卷积

W_conv2 = weight_variable([5, 5, 32, 64])
b_conv2 = bias_variable([64])

h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)

5. 密集连接层

W_fc1 = weight_variable([7 * 7 * 64, 1024])
b_fc1 = bias_variable([1024])

h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) + b_fc1)

6. Dropout

(屏蔽神经元的输出以及自动处理神经元输出值的scale )

keep_prob = tf.placeholder(tf.float32)
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

7. 输出层

W_fc2 = weight_variable([1024, 10])
b_fc2 = bias_variable([10])

y_conv=tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) + b_fc2)

8. 训练和评估模型

cross_entropy = tf.reduce_mean(
    tf.nn.softmax_cross_entropy_with_logits(labels=y_, logits=y_conv))
train_step = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy)
correct_prediction = tf.equal(tf.argmax(y_conv,1), tf.argmax(y_,1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

saver = tf.train.Saver()  # defaults to saving all variables

sess.run(tf.global_variables_initializer())
for i in range(20000):
  batch = mnist.train.next_batch(50)
  if i%100 == 0:
    train_accuracy = accuracy.eval(feed_dict={
        x:batch[0], y_: batch[1], keep_prob: 1.0})
    print("step %d, training accuracy %g"%(i, train_accuracy))

  train_step.run(feed_dict={x: batch[0], y_: batch[1], keep_prob: 0.5})
saver.save(sess, './model/model.ckpt')  #保存模型参数，注意把这里改为自己的路径

print("test accuracy %g"%accuracy.eval(feed_dict={
    x: mnist.test.images, y_: mnist.test.labels, keep_prob: 1.0}))

最终跑出的模型准确度接近99.3%

训练出的模型：

在这里插入图片描述

9. 用存储的model对自己的手写字体进行测试：

init_op = tf.initialize_all_variables()

saver = tf.train.Saver()
with tf.Session() as sess:
    sess.run(init_op)
    saver.restore(sess, "./model/model.ckpt")#这里使用了之前保存的模型参数

    prediction=tf.argmax(y_conv,1)
    predint=prediction.eval(feed_dict={x: [result],keep_prob: 1.0}, session=sess)
    print('the digit is 9: ')
    print('recognize result:')
    print(predint[0])

10. 效果：

(最终效果10张图全部都预测准确，再测了几张写得不是特别规范的数字也基本都识别正确)
在这里插入图片描述
完整代码参见：
https://github.com/WangPerryWPY/Computer-Version/tree/master/Exp7/code/work2

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CImg

c

计算机视觉

tensorflow

人工智能

计算机视觉的相关文章

Microsoft SQL Server，在服务器资源管理器中创建新表

对于 C 编程作业我必须在 Microsoft SQL Server 中创建一个表我新安装了 Visual Studio 2013 和 Microsoft SQL Server 2012 当我安装它时我指定了我的用户进行管理员访问无
如何向 SDL 线程发送附加参数？

是的我知道如何创建 SDL 线程 int myfunc void data my code SDL CreateThread mythread SDL CreateThread myfunc NULL 但如果我想做类似的事情怎么办 int
C++ 中的类型作为返回类型

是否有可能从函数返回一个类型作为返回类型并将其用作成员变量如下所示 constexpr type myFunction int a int b if a b 8 return int 8t if a b 16 return int 16
警告：从不兼容的指针类型为链接列表数组赋值

我正在执行一个 C 程序但收到警告警告来自不兼容指针类型的赋值我在这里复制相关代码 Structure I am using typedef struct graph node int id int weight struct no
方法参数数组默认值[重复]

这个问题在这里已经有答案了在 C 中可以在方法中使用默认参数值例如 public void SomeMethod String someString string value Debug WriteLine someString 但现
检查对象类型是否继承抽象类型

说我有一个对象 someDrink 它可能是类型CocaCola or Pepsi两者都继承了抽象Cola 它继承了Drink 或任何种类的饮料我有一个方法可以返回一串最喜欢的饮料 public string PreferredDrink
如何将类成员函数的返回类型设置为私有结构的对象

很抱歉这个又长又令人困惑的标题但我想不出更好的方法来问这个问题所以我有一堂课 template
读取 filebuf 的等效项？

typedef struct char c 20 int i header void foo std string s std ifstream ifs s c str std ios base binary std ios base in
如何对多重映射中的键和值进行排序？

建议使用任何方法对多重映射的键及其值进行排序例如输入 5 1 1 9 1 1 5 2 1 2 输出必须是 1 1 1 2 1 9 5 1 5 2 答案是emplace hint 伪代码如下所示 insert with hint M mm
HttpContext 类及其线程安全

我有一个辛格尔顿应用程序中的对象具有以下属性 private AllocationActionsCollection AllocationActions get return HttpContext Current Session Allo
DateTimeOffset解析和自定义时区

我们将 XML DateTime 值解析为 DateTimeOffset 值根据DateTime 的 W3C XSD 文档 http www w3 org TR 2012 REC xmlschema11 2 20120405 dataty
FileStream.(Begin/End)(Read/Write)的同步要求

Net 可以接受以下多线程调用模式吗文件流 http msdn microsoft com en us library y0bs3w9t 28v VS 90 29 aspx 多个线程调用这样的方法 ulong offset whatever
我可以使用什么 C++ 库在 Windows 上将 PDF 转换为图像？

我正在开展一个需要分析图像的项目这些图像的主要来源是网络摄像头但最近我们被要求添加对上传文件和扫描仪的支持这在大多数情况下都很好只是他们希望我们能够使用 PDF 格式的文档我需要一个原始像素位图进行处理在 Mac 上我可以使用
当 Bool 变量变为 True 时更改标签

我不太确定如何解释这一点我将把代码放在伪代码中以便于阅读我几乎想要一个标签在类的 bool 变量更改时更改其文本我不确定我需要使用什么因为我使用的是 WPF 并且该类不能只更改我不更改的标签你不觉得吗我需要举办某种活动吗或者 W
为什么我可以使用 ret 退出 main？

我即将弄清楚程序堆栈到底是如何设置的我了解到用以下方式调用该函数 call pointer 实际上等同于 mov register pc programcounter add register 1 where 1 is one instr
如何在 Windows 8 中使用 StreamWriter 写入文件？

我在创建时遇到问题StreamWriter在windows 8中通常我只是创建一个实例只是传递一个字符串作为参数但在Windows 8中我收到一个错误表明它应该接收一个Stream 但我注意到Stream是一个抽象类有人知道吗编
AppDomain.CurrentDomain.GetAssemblies 失败并出现 ReflectionTypeLoadException

在单元测试期间我遇到了以下代码的问题该代码要求所有加载的程序集 var res AppDomain CurrentDomain GetAssemblies SelectMany x gt x GetTypes ToList 此代码失败并
strstr() 函数类似，忽略大小写

我有两根弦可以说 str1 One Two Three and str2 two 我想知道是否有任何函数可以检查第一个字符串中第二个字符串的匹配并返回指向第一个字符串的指针例如strstr 但它不会将相同的字母大写或小写视为两个不
如何在不实际调整大小的情况下触发 Control.Resize 事件？

我不会对控件进行子类化尝试通过触发事件Control Size Control Size失败因为即使新大小实际上不同它也不会触发如果您要子类化Control 你可以打电话OnResize直接或者将其暴露在 API 上 public
非通用接口是通用接口的同义词

我在 C 中有一个通用接口并且几乎总是将它与其中一种类型一起使用我想为该类型创建一个非通用接口并使用它假设我有以下代码 public interface IMyGenericList

随机推荐

Android onInterceptTouchEvent与onTouchEvent调用关系

概述 onInterceptTouchEvent 是用来拦截Touch事件 ViewGroup有 View没有 onTouchEvent 是Touch事件 ViewGroup与View都有实例讲解当一个Touch事件发生后会由父布局开
connect错误:no route to host

linux下 socket 用vmware装了两个虚拟机分别运行客户端和服务器端客户端连接的时候报错 connect error no route to host 但是在同一虚拟机下运行正常我检查了socket返回值正常地址和端口
U-boot引导流程分析一

U Boot 全称 Universal Boot Loader 即通用引导程序是遵循GPL条款的开放源码项目它的源码目录编译形式与Linux内核很相似事实上不少U Boot源码就是相应的Linux内核源程序的简化尤其是一些设备的
linuxptp源码研究

目录 1 检查网卡是否支持相应的时间戳 2 linuxptp的目录架构 3 ptp4l的大致流程分析 4 gptp协议对应的sync follow up delay request delay response消息在代码的位置 5 slav
Deeplearning4j 实战（13）：基于TextCNN的文本分类实现

Eclipse Deeplearning4j GitChat课程 Deeplearning4j 快速入门专栏Eclipse Deeplearning4j 系列博客万宫玺的专栏 wangongxi CSDN博客Eclipse Deeple
java native

1 java lang Boolean中没有 native方法2 java lang Character中没有native方法3 java lang Byte中没有本地方法4 java labg Short中没有本地方法5 java lan
Go语言学习笔记（六）---map

4 7 map map是key value数据结构又称为字段或者给关联数组类似其他编程语言的集合映射基本语法 var map变量名 map keytype valuetype keytype可以是bool int string 指针
ubuntu 忘记root密码

方法一如果用户具有sudo权限那么直接可以运行如下命令 sudo su root 输入当前用户的密码 passwd 输入密码再次输入密码方法二如果用户不具备sudo权限则方法一不能用并需进入GRUB修改kernel镜像启动参数
如何用 Python 批量循环读取 Excel ？

在使用 Python 批量处理 Excel 时经常需要批量读取数据常见的方式是结合glob模块可以实现将当前文件夹下的所有csv批量读取并且合并到一个大的DataFrame中 df list for file in glob glob
贪吃蛇（C语言）

贪吃蛇项目核心算法循环数组发牌算法二维坐标一维化编译环境 TC 2 0 准备工作学习gotoxy 函数了解bioskey 函数使用知道bioskey 1 与bioskey 0 的区别了解键盘扫描码并且知道如何使用核心工
Java读取ini文件

Java读取ini文件文章目录 Java读取ini文件 1 ini文件 2 代码示例 1 ini文件 src config config ini文件内容如下 login autorun n jls 2 url 10 10 1 29 por
Linux高性能服务器编程（4）TCP协议详解

Linux高性能服务器编程 4 TCP协议 TCP服务的特点 TCP协议更靠近应用层在应用程序中有更好的可操作性信息作用 TCP头部 TCP头部信息出现在每个TCP报文段中用于指定通信的源端端口号目的端口号管理TCP连接控制两
unity 动态修改文本方法 GameObject

using System Collections using System Collections Generic using UnityEngine using UnityEngine SceneManagement using Unit
linux文件系统

这本阿里P8撰写的算法笔记再次推荐给大家身边不少朋友学完这本书最后加入大厂 Github 疯传史上最强悍阿里大佬 LeetCode刷题手册开放下载了从操作系统的角度详解Linux文件系统层次文件系统分类文件系统的存储结构不
List中存储实体类并根据实体类的指定属性去重

场景如果List中存储的是一些字符串去重的时候就比较简单直接使用java中的set集合去重即可如果List中存储的是一些是实体类去重的时候要根据实体类的部分属性去重可以使用下面的方法举例如下实体类 public class
服务器迁移记录

服务器迁移记录安装 Docker 使用 Docker 安装 MySQL Redis 等 MySQL数据库迁移文件迁移安装 Docker 具体安装方法见 Docker 学习笔记使用 Docker 安装 MySQL Redis 等 My
机顶盒天线接头怎么接_数字电视接收天线怎么安装

如今越来越多的家庭都在使用数字电视信号因为这是一种使用起来非常方便而且画质超级清楚的电视信号不过很多第一次使用数字电视信号的朋友并不是特别清楚数字电视接收天线的安装方法所以我们今天在这里来给大家简单的介绍一下数字电视接收天线的安
贪心算法与近似算法

1 贪心算法 1 1 教室调度问题假设有如下课程表你希望将尽可能多的课程安排在某间教室上你没法让这些课都在这间教室上因为有些课的上课时间有冲突你希望在这间教室上尽可能多的课如何选出尽可能多且时间不冲突的课程呢这个问题好像很难
html左侧导航栏右侧显示内容

效果图代码复制下来直接运行就可以
计算机视觉

手写字体的检测 1 Adaboost进行手写字体的检测导入mnist数据集 import tensorflow examples tutorials mnist input data as input data data dir MNIS

计算机视觉

手写字体的检测

(1) Adaboost进行手写字体的检测

导入mnist数据集

调用Adaboost分类器进行训练：

评估预测的效果：

选取较好的参数(弱分类器数量)：

在对自己的手写图片读入前先进行几步处理：

下面是用于读入的手写数字

进行一步裁剪处理：

下面是预测效果：

(2) 卷积神经网络(CNN)进行手写字体的检测

1. 权重初始化

2. 卷积和池化

3. 第一层卷积

4.第二层卷积

5. 密集连接层

6. Dropout

7. 输出层

8. 训练和评估模型

训练出的模型：

9. 用存储的model对自己的手写字体进行测试：

10. 效果：

计算机视觉 的相关文章

随机推荐

热门标签

计算机视觉的相关文章