Numpy实现神经网络-手写数字识别

2023-10-27

使用numpy实现神经网络的前向传播，以及反向传播，使用矩阵计算加快运算速度，理论推导则在以前的博客中。

import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt
from tensorflow.keras import datasets

batch_size = 256
epochs = 200
lr = 0.01

(x_train, y_train), (x_test, y_test) = datasets.mnist.load_data()
y_train = tf.one_hot(y_train, depth=10)
y_test = tf.reshape(y_test, [y_test.shape[0], 1])

x_train = tf.reshape(x_train, [-1, 28*28])
x_test = tf.reshape(x_test, [-1, 28*28])

train_data = tf.data.Dataset.from_tensor_slices((x_train, y_train))
train_data = train_data.shuffle(10000).batch(batch_size, drop_remainder=True)

test_data = tf.data.Dataset.from_tensor_slices((x_test, y_test))
test_data = test_data.batch(batch_size, drop_remainder=True)

这里首先引入数据集，使用tf2.0 的datasets中的mnist，然后将数据集使用Dataset进行打包，分割。详细api可以参见tf2.0官方文档。这里稍微注意一下如果使用Dataset预处理数据集，会返回一个tensor，使用时需要将tensor转换为numpy。

def sigmoid(z):
    return 1.0 / (1.0 + np.exp(-z))


class MLP:
    # 输入数据[b, width, height] => [b, 784]
    # 前向传播
    # 反向传播
    # sgd更新权重
    def __init__(self, sizes, batch):
        """

        :param sizes: [784, 30, 10]
        """
        self.sizes = sizes
        self.num_layers = len(sizes) - 1
        # w [784, 30], [30, 10], [ch_input, ch_out]
        # b [ 30, 10]
        self.weights = [np.random.randn(ch1, ch2) for ch1, ch2 in zip(sizes[:-1], sizes[1:])]
        self.bias = [np.random.randn(bias) for bias in sizes[1:]]

    def forward_predict(self, x):
        """

        :param x: [b, 784]
        :return:[b, 10]
        """
        for w, b in zip(self.weights, self.bias):
            logit = np.dot(x, w) + b
            x = sigmoid(logit)

        return x

    def backward(self, x, y):
        """

        :param x: [b, 784]
        :param y: [b, 10] one-hot
        """
        nabla_w = [np.zeros(w.shape) for w in self.weights]
        nabla_b = [np.zeros(b.shape) for b in self.bias]

        # 保存每一层的输出
        activations = [x]

        activation = x

        for b, w in zip(self.bias, self.weights):

            z = np.dot(activation, w) + b
            activation = sigmoid(z)
            activations.append(activation)


        loss = np.sum(np.power((activations[-1] - y), 2))
        # backward
        # 计算每层梯度
        # 1. 计算输出层梯度
        # sigmoid([b, 10]) , [b, 10]
        delta = activations[-1] * (1 - activations[-1]) * (activations[-1] - y)

        # [b, 10]
        nabla_b[-1] = delta

        # [30, 10] = [30, b] @ [b, 10]
        nabla_w[-1] = np.dot(activations[-2].T, delta)

        # 从倒数第二层开始
        for l in range(2, self.num_layers + 1):
            l = -l
            a = activations[l]
            # [b, 30]
            # weights [784, 30], [30, 10]
            delta = np.dot(delta, self.weights[l+1].T) * a * (1 - a)
            nabla_b[l] = delta
            nabla_w[l] = np.dot(activations[l-1].T, delta)

        return nabla_w, nabla_b, loss

    def train(self, train_data, epochs, lr, test_data):
        """

        :param train_data: ([batch_size, 784], [b, 10])
        :param epochs: 100
        :param lr: 0.01
        :param test_data: ([batch_size, 784], [b, 10])

        """
        losses = []

        for epoch in range(epochs):
            loss = 0
            train_total, train_correct = 0, 0
            for step, (x, y) in enumerate(train_data):
                x = x.numpy()
                y = y.numpy()
                loss += self.update_mini_batch(x, y, lr)
                train_correct += self.evaluate(x, y)
                train_total += y.shape[0]

            losses.append(loss)
            print('train_epcho, loss, acc', epoch, loss, train_correct / train_total)
            if test_data is not None:
                total, correct = 0, 0
                for _, (x_test, y_test) in enumerate(test_data):
                    correct += self.evaluate(x_test, y_test)
                    total += y_test.shape[0]
                print("Epoch, accuracy:", epoch,  correct / total)
        return losses

    def update_mini_batch(self, x, y, lr):
        """

        :param x: [b, 784]
        :param y: [b, 10]
        """

        # [784, 30], [30, 10]
        nabla_w = [np.zeros(w.shape) for w in self.weights]
        nabla_b = [np.zeros(b.shape) for b in self.bias]
        batch = x.shape[0]
        losses = 0
        for i in range(batch):
            one_x = x[i, :]
            one_y = y[i, :]
            one_x = np.reshape(one_x, (1, len(one_x)))
            one_y = np.reshape(one_y, (1, len(one_y)))

            nabla_w_, nabla_b_, loss = self.backward(one_x, one_y)

            nabla_w = [acc+cur for acc, cur in zip(nabla_w, nabla_w_)]
            nabla_b = [acc+cur for acc, cur in zip(nabla_b, nabla_b_)]

            loss = loss / batch
            losses += loss
        nabla_w = [w/batch for w in nabla_w]
        nabla_b = [b/batch for b in nabla_b]

        # w = w - lr * nabla_w
        self.weights = [w - lr * nabla for w, nabla in zip(self.weights, nabla_w)]
        self.bias = [b - lr * nabla for b, nabla in zip(self.bias, nabla_b)]

        return losses

    def evaluate(self, x_test, y_test):
        """

        :param x_test: [b, 784]
        :param y_test: [b, 10]
        """
        result = self.forward_predict(x_test)
        predic_idx = np.argmax(result, axis=1)
        true_idx = np.argmax(y_test, axis=1)

        correct = np.sum(predic_idx == true_idx)

        return correct

这里激活函数使用的sigmoid函数，同时使用一个列表保存结点信息。在反向传播中，需要首先计算输出层的delta, 通过最后一层的delta不断递推后一层的delta就可以得到相应的梯度了，详细证明在我以前的博客中。

def main():
    sizes = [784, 30, 10]
    mlp = MLP(sizes, batch_size)

    losses = mlp.train(train_data, epochs=epochs, lr=lr, test_data=test_data)

    epoch = [i for i in range(epochs)]

    plt.plot(epoch, losses)
    plt.show()


if __name__ == '__main__':
    main()

最后就是测试效果了，loss 如下：

loss函数

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Numpy实现神经网络-手写数字识别的相关文章

ElasticSearch一：简介、概念、安装、Kibana客户端安装使用、IK分词器、数据管理

目录一 ElasticSearch简介 ElasticSearch 简称ES 应用场景 ElasticSearch与Lucene的关系哪些公司在使用Elasticsearch ES vs Solr比较总结 ES vs 关系型数据库 L
VS2015 设置了包含路径(包含目录)，还是提示说打不开 .h 头文件

项目属性 VC 目录注意上方的平台是否选错设置后再设置包含路径另一个原因有时代码从别的地方复制过来的时候因为字符编码的问题一样会造成很多未定义的问题本人亲测第一个方法很有用
jmeter 接口快速创建

通过cURL命令创建测试计划从浏览器获取接口从postman获取接口
postgresql 创建自增索引（序列）、以及索引（序列）相关操作

PostgreSQL 没有自增索引的概念需要通过序列来完成相关操作 PostgreSQL 使用序列来标识字段的自增长数据类型有 smallserial serial 和 bigserial 这些属性类似于 MySQL 数据库支持的 AU

随机推荐

java 的循环输入

书本7 3 计算数字出现的次数
在MFC中怎样添加一个非模态的对话框

添加一个非模态对话框1 点击菜单插入资源选择Dialog 点击新建 2 编辑对话框添加一些控件什么的 3 双击对话框或者打开ClassWizard 为对话框建立一个类如CMyDialog 4 在 view cpp的开头添加新建立的
SSM之mybatis：修改了Mybatis的xml文件不生效

这两天写一个项目是修改了下mybatis的xml文件中的一个sql语句结果发现修改后的xml文件始终不生效情况是这样的一开始我的语句
七、C++语言初阶：模板

7 模板 7 1 基本概念什么是模板模板 Template 是允许函数或者类通过泛型 generic types 的形式表现或运行的特性模板有什么用模板可以使函数或者类只写一份代码而对应不同的类型模板编程泛型编程一种独立于特定
三维SLAM路径规划——MATLAB实现

三维SLAM路径规划 MATLAB实现在机器人视觉和导航领域中 SLAM是一个非常重要的问题 SLAM的全称为 Simultaneous Localization and Mapping 即同时定位和地图构建而在SLAM中路径规划则是
将photoscan空三结果导入smart3d(cc)

将photoscan空三结果导入smart3d cc 1 photoscan版本要求1 4 0以上 2 在photoscan跑出空三结果后点击Export Camera导出空三选择Blocks Exchange格式保存 3 打开导出的x
LATEX 和 TEX 相关的术语和概念

目录引擎格式编译命令常见的引擎格式和编译命令的关系总结几个编译命令的基本特点引擎全称为排版引擎是编译源代码并生成文档的程序如pdfTEX X TEX 等有时也称为编译器格式是定义了一组命令的代码集 LATEX 就是
计算机视觉基础（四）——图像滤波

图像的实质是一种二维信号滤波是信号处理中的一个重要概念在图像处理中滤波是一种非常常见的技术它们的原理非常简单但是其思想却十分值得借鉴滤波是很多图像算法的前置步骤或基础掌握图像滤波对理解卷积神经网络也有一定帮助均值滤波方框滤
全国企业税收调查数据（2007-2016）共10年数据，均未脱敏。可通过纳税人识别号，识别具体企业名称和地区信息等，可匹配中国工业企业数据库，中国出口海关统计数据、中国企业污染排放数据库、中国海关数据
《Redis设计与实现》读书笔记-第一部分：数据结构与对象

目录 1 1简单动态字符串 SDS 1 2链表 1 3字典符号表关联数组映射 1 3 1字典的实现 1 4跳跃表 1 5整数集合 1 6压缩列表 1 7对象 1 7 1对象的类型与编码 1 7 2字符串对象 1 7 3列表对象 1 7
百度翻译接入API实现自己的翻译小页面（原生JS+Vue+elementui）

通过这个API实现翻译主要是重温Vue在js中的写法结合了elementui2 x版本的写法 VUE和ElementUI都是cdn引入的失效去官网下粘贴一份换了就行就是练练手前提需要在百度翻译页面注册个开发者账号获取appid和k
利用blktrace分析磁盘I/O

blktrace对于分析block I O是个非常好的工具本篇文章记录了如何使用blktrace blktrace原理 blktrace是对通用块层 block layer 的I O跟踪机制它能抓取详细的I O请求 request 发送
【腾讯轻量应用服务器上部署kafka并通过flink读取kafka数据】

环境准备经过1个月的摸索最终选择在腾讯云上搭建一个学习环境当时选择原因还是新用户有优惠 150左右3年但现在看1核2g的配置勉强够用建议后续小伙伴选择时最好是2核4g配置由于是单节点安装需要准备如下资源 1 jdk1 8 2
漏洞情报

点击上方订阅话题第一时间了解漏洞威胁 0x01 漏洞描述 Windows Print Spooler是Windows的打印机后台处理程序广泛的应用于各种内网中微软在2021年6月的安全更新中修复了一处 Windows Print S
解决elementUI中el-form、el-dialog、数据回显同时用时，有bug

提示记录学习elementUI时遇到的一些问题及解决办法前言现象第一次打开网页先点击修改再点击新增发现输入框竟然有值原因点击修改后关闭对话框的时候置空失效了分析主人公resetFields有问题线索1 Dialo
Dart 根据当前年份和第几周获取该周的开始和结束日期

最近遇到一个需求计算当前年份有多少周网上查阅了资料得到以下计算方式 Calculates number of weeks for a given year as per https en wikipedia org wiki ISO w
r HDU - 3709 Balanced Numbe(数位dp解析)

题目链接 https vjudge net contest 355127 problem C Problem Description A balanced number is a non negative integer that can
爬虫中网页分析的几种技术

一般来说我们只抓取网页中的特定数据比如抓取某人所有的blog 我们就只关心list 页面中文章列表那部分的链接和title 有几种技术可以用来分析网页 1 正则匹配 2 一般字符串匹配content substring pattern s
idea leetcode摸板

package leetcode editor cn question content public class velocityTool camelCaseName question titleSlug public static voi
Numpy实现神经网络-手写数字识别

使用numpy实现神经网络的前向传播以及反向传播使用矩阵计算加快运算速度理论推导则在以前的博客中多层感知机梯度推导 import numpy as np import tensorflow as tf import matplotl

Numpy实现神经网络-手写数字识别

Numpy实现神经网络-手写数字识别 的相关文章

随机推荐

热门标签

Numpy实现神经网络-手写数字识别的相关文章