TensorFlow Multi-GPU demo

2023-05-16

给出一个tensorflow多gpu的demo。用了minst 数据集，可直接运行。（tf1.8）

注：tensorflow gpu之间的操作好像有问题，比如下面的c != a + b。期待解答！

import tensorflow as tf
import numpy as np
import os
import argparse


def arg_config():
    parser = argparse.ArgumentParser()
    parser.add_argument('-gpu', type=str, required=False, default='1, 2')
    args = parser.parse_args()

    # config
    log_device_placement = True  # 是否打印设备分配日志
    allow_soft_placement = True  # 如果你指定的设备不存在，允许TF自动分配设备
    gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.90, allow_growth=True)
    os.environ['CUDA_VISIBLE_DEVICES'] = args.gpu  # 使用 GPU id
    config = tf.ConfigProto(log_device_placement=log_device_placement,
                            allow_soft_placement=allow_soft_placement,
                            gpu_options=gpu_options)

    return args, config


def data_loader():
    mnist = tf.contrib.learn.datasets.load_dataset("mnist")
    train_data = mnist.train.images  # Returns np.array
    train_data = np.reshape(train_data, newshape=(-1, 28, 28, 1))
    train_labels = np.asarray(mnist.train.labels, dtype=np.int32)
    # print(train_data.shape)
    # print(train_labels.shape)
    # print(train_labels.dtype)
    ds = tf.data.Dataset.from_tensor_slices((train_data.astype(np.float32), train_labels))
    ds = ds.repeat().batch(2000)
    it = ds.make_one_shot_iterator()
    dt, lb = it.get_next()
    return dt, lb


# multi-gpu try
class Model(object):
    def __init__(self):
        pass

    @staticmethod
    def var_on_cpu(name, shape, initializer=tf.truncated_normal_initializer(stddev=0.1)):
        with tf.device('/cpu:0'):
            var = tf.get_variable(name, shape, tf.float32, initializer)
        return var

    def conv2d(self, inputs, filters, kernel_size, strides=(1, 1), name=None):
        kernel = self.var_on_cpu(name+'/kernel', shape=kernel_size+(inputs.shape[3].value, filters,))
        bias = self.var_on_cpu(name+'/bias', shape=(filters,))
        conv = tf.nn.conv2d(input=inputs, filter=kernel, strides=(1,)+strides+(1,),
                            padding='SAME', name=name)
        bias_add = tf.nn.bias_add(conv, bias)
        return tf.nn.relu(bias_add)

    def dense(self, inputs, units, name, activation=None):
        var = self.var_on_cpu(name+'/kernel', shape=(inputs.shape[1].value, units))
        bias = self.var_on_cpu(name+'/bias', shape=(units, ))
        ds = tf.matmul(inputs, var) + bias
        if activation is not None:
            return activation(ds)
        else:
            return ds

    def model(self, data, training=True, scope_name='haha'):
        with tf.variable_scope(name_or_scope=scope_name, reuse=tf.AUTO_REUSE):
            conv1 = self.conv2d(inputs=data, filters=32, kernel_size=(5, 5), name='conv1')
            pool1 = tf.layers.max_pooling2d(inputs=conv1, pool_size=[2, 2], strides=2)

            conv2 = self.conv2d(inputs=pool1, filters=64, kernel_size=(5, 5), name='conv2')
            pool2 = tf.layers.max_pooling2d(inputs=conv2, pool_size=[2, 2], strides=2)

            pool2_flat = tf.reshape(pool2, [-1, 7 * 7 * 64])

            dense = self.dense(inputs=pool2_flat, units=1024, name='dense1', activation=tf.nn.relu)
            dropout = tf.layers.dropout(inputs=dense, rate=0.4, training=training)

            # Logits Layer
            logits = self.dense(inputs=dropout, units=10, name='dense2')

        return logits

    def get_loss(self, data, labels, training=True):
        outs = self.model(data, training=training)
        ls = tf.losses.sparse_softmax_cross_entropy(labels, outs)
        return tf.reduce_mean(ls)


def average_grads(tower):
    averaged_grads = []
    for grads_and_vars in zip(*tower):
        # print(grads_and_vars)
        grads = []
        for g, _ in grads_and_vars:
            expanded_grad = tf.expand_dims(g, 0, 'expand_grads')
            grads.append(expanded_grad)
        grad = tf.concat(values=grads, axis=0)
        grad = tf.reduce_mean(input_tensor=grad, axis=0, keepdims=False)
        g_and_v = (grad, grads_and_vars[0][1])
        averaged_grads.append(g_and_v)
    return averaged_grads


def train_multi_gpu():
    with tf.device('/cpu:0'):
        args, config = arg_config()
        gpu_num = len(args.gpu.split(','))
        global_step = tf.Variable(0, dtype=tf.int64, trainable=False)
        model = Model()
        data_all, label_all = data_loader()
        data = tf.split(data_all, gpu_num)
        label = tf.split(label_all, gpu_num)
        optimizer = tf.train.MomentumOptimizer(0.01, 0.9)
        tower = []
        with tf.variable_scope('gpu_vars'):
            for i in range(gpu_num):
                with tf.device("/gpu:{}".format(i)), tf.name_scope('tower_{}'.format(i)):
                    loss_op = model.get_loss(data[i], label[i])
                    # print(loss_op)
                    tf.add_to_collection(name='total_loss', value=loss_op)
                    grads_and_vars = optimizer.compute_gradients(loss_op, tf.trainable_variables())
                    tower.append(grads_and_vars)

        mean_grads_and_vars = average_grads(tower)
        total_loss_op = tf.get_collection('total_loss', 'gpu_vars')

        with tf.control_dependencies([g for g, _ in mean_grads_and_vars]):
            train_op = optimizer.apply_gradients(mean_grads_and_vars, global_step=global_step, name='optimizer')
        # print(tf.trainable_variables())
        # exit()
    print('running...')
    with tf.Session(config=config) as sess:
        sess.run(tf.global_variables_initializer())
        step = 0
        while step < 1000:
            _, loss = sess.run([train_op, total_loss_op])
            print(step, loss)
            step += 1


if __name__ == "__main__":
    train_multi_gpu()

    # c != a+b
    with tf.device('/gpu:1'), tf.variable_scope('haha', reuse=tf.AUTO_REUSE):
        a = tf.get_variable(name='a', shape=[3], dtype=tf.float32, initializer=tf.truncated_normal_initializer())
        # a = tf.Variable([2, 3, 4], name='a', dtype=tf.float32, )
    with tf.device('/gpu:2'):
        b = tf.constant(value=[1, 2, 3], dtype=tf.float32, shape=[3], name='b')

    with tf.device('/gpu:1'):
        c = tf.add(a, b)

    with tf.Session(config=tf.ConfigProto(log_device_placement=True)) as sess:
        sess.run([tf.global_variables_initializer(), tf.local_variables_initializer()])
        print('c: ', sess.run([c]))
        print('b: ', sess.run([b]))
        print('a: ', sess.run([a]))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow

Multi

GPU

Demo

TensorFlow Multi-GPU demo 的相关文章

Keras 序列模型中的数据增强层

我正在尝试将数据增强作为一个层添加到模型中但我遇到了我认为是形状问题我也尝试在增强层中指定输入形状当我取出data augmentation模型中的图层运行良好 preprocessing RandomFlip horizontal
这可能是因为 cuDNN 初始化失败，因此请尝试查看上面是否打印了警告日志消息。 [操作：Conv2D]

我在 anaconda 中安装了 TensorFlow GPU 2 0 当我安装它并导入包然后运行我的 CNN 模型时它工作正常但当我尝试运行训练模型时出现错误这是我的错误报告 Epoch 1 50 UnknownError Tr
ValueError：维度 (-1) 必须在 [0, 2) 范围内

我的python版本是3 5 2 我已经安装了keras和tensorflow 并尝试了官方的一些示例示例链接示例标题用于多类 softmax 分类的多层感知器 MLP https keras io getting started s
如何读取 GPU 负载？

我正在编写一个程序用于监控计算机的各种资源例如CPU使用率等我还想监控 GPU 使用情况 GPU 负载而不是温度 using System using System Collections Generic using System
无法将大小为 1665179 的数组重塑为形状 (512,512,3,3)

该脚本用于进行检测权重文件是 yolov4 coco 预训练模型可以在这里找到 https drive google com file d 1cewMfusmPjYWbrnuJRuKhPMwRe b9PaT view https dri
Keras 通过设置种子获得不同的结果[重复]

这个问题在这里已经有答案了在keras中每次运行都有很高的方差和不稳定的性能为了解决这个问题根据https keras io getting started faq how can i obtain reproducible res
在 TensorFlow 中，tf.identity 有何用途？

我见过tf identity在一些地方使用过例如官方 CIFAR 10 教程和 stackoverflow 上的批量规范化实现但我不明白为什么有必要它是用来做什么的谁能给出一两个用例吗一种建议的答案是它可以用于 CPU 和 GPU
Tensorflow Hub - 获取模型的输入形状和问题域？

我正在使用最新版本的tensorflow hub 想知道如何获取有关模型的预期输入形状以及模型属于什么类型的集合的信息例如有没有办法以这种方式在 Python 中加载模型后获取有关预期图像形状的信息 model hub load htt
在 Tensorflow 对象检测 API 中绘制验证损失

我正在使用 Tensorflow 对象检测 API 来检测和定位图像中的一类对象为了这些目的我使用预先训练的faster rcnn resnet50 coco 2018 01 28 model 我想在训练模型后检测拟合不足过度拟合我
TensorFlow 相当于 PyTorch 的 Transforms.Normalize()

我正在尝试推断最初在 PyTorch 中构建的 TFLite 模型我一直在遵循PyTorch 实现 https github com leoxiaobin deep high resolution net pytorch blob 1ee
GPU的编程语言有哪些

我读过一篇文章指出 GPU 是超级计算的未来我想知道在GPU上编程使用什么编程语言 OpenCL 是开放式跨平台解决方案可在 GPU 和 CPU 上运行另一个是 NVIDIA 为其 GPU 构建的 CUDA HLSL Cg 等少数几
在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1
Tensorflow conv2d_transpose 大小错误“out_backprop 的行数与计算的不匹配”

我正在张量流中创建一个卷积自动编码器我得到了这个确切的错误 tensorflow python framework errors InvalidArgumentError Conv2DBackpropInput Number of row
阻止 TensorFlow 访问 GPU？ [复制]

这个问题在这里已经有答案了有没有一种方法可以纯粹在CPU上运行TensorFlow 我机器上的所有内存都被运行 TensorFlow 的单独进程占用我尝试将 per process memory fraction 设置为 0 但未成功
TensorFlow：在训练时更改变量

如果我将输入管道从 feed dict 更改为 tf data dataset 如何在每次迭代后的训练期间更改网络内参数的值澄清一下旧代码看起来像这样 Define Training Step model is some class t
如何将 tf.contrib.seq2seq.Helper 用于非嵌入数据？

我正在尝试使用 tf contrib seq2seq 模块对某些数据仅 float32 向量进行预测但我使用 TensorFlow 中的 seq2seq 模块找到的所有示例都用于翻译因此用于嵌入我正在努力准确理解 tf contr
如何手动计算分类交叉熵？

当我手动计算二元交叉熵时我应用 sigmoid 来获取概率然后使用交叉熵公式并平均结果 logits tf constant 1 1 0 1 2 labels tf constant 0 0 1 1 1 probs tf nn sigm
如何将张量流模型部署到azure ml工作台

我在用Azure ML Workbench执行二元分类到目前为止一切正常我有很好的准确性我想将模型部署为用于推理的 Web 服务我真的不知道从哪里开始 azure 提供了这个doc https learn microsoft co
如何使用 Tensorflow-GPU 和 Keras 修复低易失性 GPU-Util？

我有一台 4 GPU 机器在上面运行带有 Keras 的 Tensorflow GPU 我的一些分类问题需要几个小时才能完成 nvidia smi returns Volatile GPU Util which never exceeds
使用队列从多个输入文件中统一采样

我的数据集中的每个类都有一个序列化文件我想使用队列来加载每个文件然后将它们放入 RandomShuffleQueue 中这样我就可以从每个类中获得随机的示例组合我认为这段代码会起作用在此示例中每个文件有 10 个示例 filen

随机推荐

windows文件传输到linux

Windows上传使用Windows脚本语言在某些情况下我们可能需要使用Windows客户端从目标网络中泄漏数据这可能很复杂因为Windows上默认很少启用标准的TFTP FTP和HTTP服务器幸运的是如果允许出站HTTP流量
下载后直接运行ps1脚本（脚本文件不存入本地硬盘）

kali 64 kali var www html sudo cat helloworld ps1 Write Output 34 Hello World 34 C Users Offsec gt powershell exe IEX Ne
Linux安装FTP服务（Pure-FTPd）

目录介绍安装客户端使用介绍攻击机器上快速安装Pure FTPd服务器如果您已经在Kali系统上配置了FTP服务器则可以跳过这些步骤安装 kali kali sudo apt update amp amp sudo apt i
环形缓存队列

单片机开发中经常碰到需要用到缓存的地方 xff0c 例如串口 xff0c DMA等设备工作时 xff0c 下面介绍一种简单的环形缓存队列定义数据结构 span class token keyword typedef span span c
Spring笔记（一）:Ioc 之 Bean的管理

前提 xff1a 1 需要 spring dom4j junit commons logging等的jar包 xff0c 配置web xml xff0c 新增 applicationContext xml 2 Spring主要核心是 xff
Cesium球心坐标与本地坐标系经纬转换的数学原理—矩阵变换

之前整理过 xff1a 透析矩阵 xff0c 由浅入深娓娓道来高数线性代数矩阵三维旋转笔记欧拉角四元数旋转矩阵轴角记忆点整理 xff0c 这次转载 FuckGIS的 Cesium之球心坐标与本地坐标 xff0c 算是线性代
关于几种排序算法的时间性能比较

以前经常看到各种排序算法 xff0c 今天也对以下6种排序算法的时间性能做了一次测试 xff1a 测试代码地址 1 冒泡排序 O n 2 span class hljs comment 冒泡排序 64 Param int arr 整形切片
VMware虚拟机系统没有声音？

问题有时 xff0c 我们使用VMware Workstation安装了系统 xff0c 但发现虚拟机系统播放视频或音乐时没有声音 xff0c 怎么办 xff1f 处理点击菜单栏的虚拟机 gt 设置或虚拟机选项卡中的编辑虚拟机设置
virtualbox启动虚拟机报错Failed to open/create the internal network 'HostInterfaceNetworking-VirtualBox Host

VirtualBox 是6 0 14版本在删除原有VirtualBox Host Only虚拟网卡并重新添加后 xff0c 虚拟机可能会无法启动 xff0c 启动虚拟机报以下错误 xff1a Failed to open create t
几十万换来的Ddos攻击防护经验分享（转载）

发布时间 xff1a 2017 01 05 来源 xff1a 服务器之家本人从事网络安全行业20年有15年防ddos攻击防护经验被骗了很多回 xff08 都说能防300G xff0c 500G xff0c 买完就防不住了 xff09
C++语法学习笔记六十七：重载全局new、delete，定位new及重载等

实例代码 xff1a span class token macro property span class token directive keyword include span span class token string lt io
python图像处理之scikit-image基本用法

本文介绍Python语言用于数字图像处理 xff0c 那么要使用python进行各种开发和科学计算 xff0c 需要对应相对的python包 xff0c python有很多的数字图像处理相关的包 xff0c 像 PILPillowOpenC
inflate函数及其使用例子笔记

LayoutInflater的inflate函数用法详解 LayoutInflater作用是将layout的xml布局文件实例化为View类对象获取LayoutInflater的方法有如下三种 LayoutInflater inflate
Linux学习之----socket网络编程基础

分层模型 OSI七层模型 1 物理层 xff1a 主要定义物理设备标准 xff0c 如网线的接口类型光纤的接口类型各种传输介质的传输速率等它的主要作用是传输比特流 xff08 就是由1 0转化为电流强弱来进行传输 xff0c 到达目的
SpringMvc常用注解

1 64 Controller 用于标记一个类 xff0c 即一个SpringMVC Controller对象 xff0c 一个控制器类 Spring使用扫描机制查找应用程序中所有基于注解的控制器类为了保证Spring能找到控制器 xff
Linux——安装StarUML时提示依赖关系不满足libgcrypt11>=1.4.5

在安装StarUML时 xff0c 提示依赖关系不满足libgcrypt11 gt 61 1 4 5 解决方法如下 xff1a 在终端输入 xff1a wget http mirrors span class hljs preproces
将TensorFlow训练好的模型迁移到Android APP上（TensorFlowLite）

将TensorFlow训练好的模型迁移到Android APP上 xff08 TensorFlowLite xff09 1 写在前面最近在做一个数字手势识别的APP xff08 关于这个项目 xff0c 我会再写一篇博客仔细介绍 xff0
微软win10的linux子系统wsl2出现Vmmem内存占用过大问题解决方法

先确定自己win10版本高于大于18945 查看方法cmd 查看第一行版本 10 0 xxxxx xff0c 其中xxxxx大于18945即可在 UserProfile 文件夹下创建 wslconfig 文件 xff0c 内容为 wsl
Windows个性化

Cygwin中文乱码 Windows10 在cygwin的终端里配置Options时 xff0c 无论怎么配置 xff0c 总是出现要么显示系统文件名 xff08 ls等命令 xff09 的中文出现乱码 xff0c 要么使用系统打印命令 x
TensorFlow Multi-GPU demo

给出一个tensorflow多gpu的demo 用了minst 数据集 xff0c 可直接运行 xff08 tf1 8 xff09 注 xff1a tensorflow gpu之间的操作好像有问题 xff0c 比如下面的c 61 a 43

TensorFlow Multi-GPU demo

TensorFlow Multi-GPU demo 的相关文章

随机推荐

热门标签