使用LineProfiler找出代码的计算瓶颈

2023-11-12

实现同样一个功能，笔者运行需要11秒，而同窗的运行仅需要1秒不到，但是实际实现逻辑是类似的，所以需要使用性能分析工具对瓶颈进行分析。

安装

命令行安装：

pip install line_profiler

本地下载后安装：
https://www.lfd.uci.edu/~gohlke/pythonlibs/#line_profiler
根据平台选择对应whl文件，然后本地安装。

修改代码

先来一个demo，do_stuff是我们的目标，要测试这个函数每一行的耗时。

from line_profiler import LineProfiler
import random
 
def do_other_stuff(numbers):
    s = sum(numbers)
 
def do_stuff(numbers):
    do_other_stuff(numbers)
    l = [numbers[i]/43 for i in range(len(numbers))]
    m = ['hello'+str(numbers[i]) for i in range(len(numbers))]
 
numbers = [random.randint(1,100) for i in range(1000)]
lp = LineProfiler()
lp.add_function(do_other_stuff)   # add additional function to profile
lp_wrapper = lp(do_stuff)
lp_wrapper(numbers)
lp.print_stats()

所以实际上最后五行内容是添加进来的。

在笔者的问题中，是加载mnist数据集：

import os
import time

import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf

import random 
from line_profiler import LineProfiler

import time 
# WORK1: --------------BEGIN-------------------
# 构建数据平衡采样方法：make_batch
# 参数等都可以自定义
# 返回值为(input_a, input_b), label
# input_a形状为(batch_size,28,28),input_b形状为(batch_size,28,28),label形状为(batch_size,)

def make_batch(batch_size, dataset):
    label = []
    input_a = []
    input_b = []
    
    x1 = np.array(dataset[0])
    y1 = np.array(dataset[1])

    cls_num = batch_size // 20 # 每个类采样个数, pos neg
    cls_idx_same = [np.where(y1 == i)[0] for i in range(10)]
    cls_idx_diff = [np.where(y1 != i)[0] for i in range(10)]

    # pos
    for class_num in range(10): # num of classes
        for _ in range(cls_num): # 每个类采样个数
            choose_two = random.sample(cls_idx_same[class_num].tolist(),2)
            input_a.append(x1[choose_two[0]])
            input_b.append(x1[choose_two[1]])
            label.append(0)
    
    # # neg
    for class_num in range(10):
        for _ in range(cls_num):
            choose_same = random.sample(cls_idx_same[class_num].tolist(), 1)
            choose_diff = random.sample(cls_idx_diff[class_num].tolist(), 1)

            input_a.append(x1[choose_same[0]])
            input_b.append(x1[choose_diff[0]])
            label.append(1)

    input_a = np.array(input_a)
    input_b = np.array(input_b)
    label = np.array(label).astype(np.float)
    return (input_a, input_b), label


if __name__ == "__main__":
    path =   './dataset/mnist.npz'
    f = np.load(path)
    x_train, y_train = f['x_train'], f['y_train']
    x_test, y_test = f['x_test'], f['y_test']
    f.close()

    # 测试也是255归一化的数据，请不要改归一化
    x_train = x_train / 255.
    x_test = x_test / 255.
    idx_shuffle = np.arange(len(x_train))
    np.random.shuffle(idx_shuffle)
    x_train = x_train[idx_shuffle]
    y_train = y_train[idx_shuffle]

    slice_08 = int(len(x_train)*0.8)

    train_set = [x_train[:slice_08],y_train[:slice_08]]

    # train_set = [np.array(x_train[:slice_08]),
                #  np.array(y_train[:slice_08])]
    # val_set = [x_test, y_test]
    lasttime = time.time()
    # for i in range(100):
    #     make_batch(64, train_set)
    lp = LineProfiler()
    lp_warpper = lp(make_batch)
    lp_warpper(64, train_set)
    lp.print_stats()
    print(time.time()-lasttime)

来运行分析一下运行一次的耗时：

在这里插入图片描述

可以发现 np.array(dataset[0]) 耗时非常严重，不适合放到循环中。所以改动这个部分，在循环外提前转换格式可以节约很长时间。

import os
import time

import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf

import random 
from line_profiler import LineProfiler

import time 
# WORK1: --------------BEGIN-------------------
# 构建数据平衡采样方法：make_batch
# 参数等都可以自定义
# 返回值为(input_a, input_b), label
# input_a形状为(batch_size,28,28),input_b形状为(batch_size,28,28),label形状为(batch_size,)

def make_batch(batch_size, dataset):
    label = []
    input_a = []
    input_b = []
    
    x1 = dataset[0]
    y1 = dataset[1]

    cls_num = batch_size // 20 # 每个类采样个数, pos neg
    cls_idx_same = [np.where(y1 == i)[0] for i in range(10)]
    cls_idx_diff = [np.where(y1 != i)[0] for i in range(10)]

    # pos
    for class_num in range(10): # num of classes
        for _ in range(cls_num): # 每个类采样个数
            choose_two = random.sample(cls_idx_same[class_num].tolist(),2)
            input_a.append(x1[choose_two[0]])
            input_b.append(x1[choose_two[1]])
            label.append(0)
    
    # # neg
    for class_num in range(10):
        for _ in range(cls_num):
            choose_same = random.sample(cls_idx_same[class_num].tolist(), 1)
            choose_diff = random.sample(cls_idx_diff[class_num].tolist(), 1)

            input_a.append(x1[choose_same[0]])
            input_b.append(x1[choose_diff[0]])
            label.append(1)

    input_a = np.array(input_a)
    input_b = np.array(input_b)
    label = np.array(label).astype(np.float)
    return (input_a, input_b), label


if __name__ == "__main__":
    path =   './dataset/mnist.npz'
    f = np.load(path)
    x_train, y_train = f['x_train'], f['y_train']
    x_test, y_test = f['x_test'], f['y_test']
    f.close()

    # 测试也是255归一化的数据，请不要改归一化
    x_train = x_train / 255.
    x_test = x_test / 255.
    idx_shuffle = np.arange(len(x_train))
    np.random.shuffle(idx_shuffle)
    x_train = x_train[idx_shuffle]
    y_train = y_train[idx_shuffle]

    slice_08 = int(len(x_train)*0.8)

    train_set = [np.array(x_train[:slice_08]),np.array(y_train[:slice_08])]
    # val_set = [x_test, y_test]
    lasttime = time.time()
    # for i in range(100):
    #     make_batch(64, train_set)
    lp = LineProfiler()
    lp_warpper = lp(make_batch)
    lp_warpper(64, train_set)
    lp.print_stats()
    print(time.time()-lasttime)

运行结果如下：
在这里插入图片描述
这样瓶颈就转移到其他地方了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

tensorflow2

工具

python

算法

使用LineProfiler找出代码的计算瓶颈的相关文章

使用 Selenium 选择具有特定内容的锚点

我有一个 HTML 元素如下所示 a class country href es co Columbia a 如何根据内容 Columbia 选择该锚元素我不能使用find element by class css selector因为
Cython 回调适用于函数，但不适用于绑定方法

我正在实现一个基于 cython 的 C 库接口我实现了一个回调系统它可以与普通函数一起使用但在传入绑定方法时会奇怪地失败这是我的 cython 代码的一部分 cdef extern from VolumeHapticTool h
执行不区分大小写的“in”检查并检索原始元素的最简单方法？

假设 a 有一个字符串列表和一个特定字符串 particular string latitude list Id PRICE LATitude longitude 我想要实现的是执行不区分大小写的检查特定字符串是否在列表中所以现在我可以这
分类报告 - 精度和 F 分数定义不明确

我从 sklearn metrics 导入了classification report 当我输入我的np arrays作为参数我收到以下错误 usr local lib python3 6 dist packages sklearn met
对 numpy 数组的每 n 个元素求平均值

我有一个 numpy 数组我想创建一个新数组它是每个连续三元组元素的平均值因此新数组的大小将是原始数组的三分之一举个例子 np array 1 2 3 1 2 3 1 2 3 应该返回数组 np array 2 2 2 谁能建议一
使用 LSTM 进行时间序列模式识别(python)

我的应用场景和上一个类似时间序列中的模式识别 https stackoverflow com questions 11752727 pattern recognition in time series By processing a tim
字符串在内部存储为单独的字符，内存中的每个字符都由其他类似的字符串共享吗？

例如是字符串var1 ROB 存储为 3 个内存位置 R O 和 B 每个位置都有自己的地址和变量var1指向内存位置R 那它怎么指向O和B呢并执行其他字符串例如 var2 BOB 指向内存中相同的 B 和 Ovar1指的是字符串如
如何将多个 Excel 工作表转换为 csv python

我想转换所有的excel文档 xls 将工作表转换为 csv 如果 excel 文档只有一张工作表那么我将进行如下转换 wb open workbook path1 sh wb sheet by name Sheet1 csv file
如何将魔杖图像对象转换为 numpy 数组（不使用 OpenCV）？

我正在使用将 pdf 文件转换为图像Wand http docs wand py org en 0 4 4 然后我使用 ndimage 进行进一步的图像处理我想直接将 Wand 图像转换为 ndarray 我已经看到答案here htt
python解释器自动重启而不返回答案

调用递归函数时 python解释器会自动重新启动吗我正在编写一个快速排序算法并尝试对一个大的数字数组顺序 10 4 进行排序但是当我尝试对整个数组进行排序时 python 正在重新启动即给我重新启动并且存储在内存中的所有值函
将 Python 字典中的键替换为唯一值

a 0 PtpMotion 1 PtpMotion 2 LinMotion 3 LinMotion 4 LinMotion 5 LinMotion 6 LinMotion 7 LinMotion 8 LinMotion 9 PtpMotio
代码终止后保持 matplotlib / pyplot 窗口打开

我希望 python 绘制一个图在不阻塞控制流的情况下显示它并在代码退出后使图保持打开状态这可能吗这个以及相关的主题存在于许多其他线程中见下文但我无法让情节保持开放且非阻塞例如如果我使用pyplot ion before p
将 Django 的 FileField 设置为现有文件

我在磁盘上有一个现有文件例如 folder file txt 在 Django 中有一个 FileField 模型字段当我做 instance field File file folder file txt instance save
初始化整数变量以进行比较

我正在学习麻省理工学院的开放课件课程计算机科学和 Python 编程简介 https ocw mit edu courses electrical engineering and computer science 6 0001 introd
XGBoostLibraryNotFound：在候选路径中找不到 XGBoost 库，您是否安装了编译器并在根路径中运行了 build.sh？

我在移动 XGBoost 的 python package 目录时遇到这个问题 Traceback most recent call last File setup py line 19 in LIB PATH libpath find l
Spyder 内联绘图

设置 Anaconda 2 0 0 Win 64 Spyder Anaconda 附带的 2 3 0rc 我配置图形工具 gt 首选项 gt iPython 控制台 gt 图形 gt 图形后端 gt 内联但无论我做什么图形总是在单独的
如何重写一个列表列表，使值的“孤岛”彼此唯一？

假设我有一个列表列表或更概念上准确的二维数组 list 1 1 0 0 0 1 1 2 0 0 0 2 2 2 0 0 0 0 2 0 0 0 0 1 0 我想识别具有相同值的不同区域并重写列表以便每个区域都有唯一的值如下所示 lis
如何将 bisect.insort_left 与键一起使用？

文档缺少示例你如何使用bisect insort left 基于密钥尝试根据键插入 bisect insort left data brown 7 将插入放在data 0 从文档 bisect insort left a x lo 0
将连续行与相同的列值合并

我有一个看起来像这样的东西我该如何处理 0 d 0 The DT 1 Skoll ORGANIZATION 2 Foundation ORGANIZATION 3 4 based VBN 5 in IN 6 Silicon LOCATIO
子进程调用，它们是并行完成的吗？

我一直在谷歌搜索这个问题的答案但似乎没有一个答案谁能告诉我如果subprocess模块是否并行调用 Python 文档建议它可用于生成新进程但没有提及它们是否并行如果它们可以并行完成您能否给我举一个例子或将我链接到一个例子这取决

随机推荐

java 读取excel数据

本文共介绍两种方式第一种是常规POI读取第二种是大文件读取依赖包
AbstractQueuedSynchronizer(AQS) 原理

一 AQS 简介 1 1 AQS 是什么 AQS AbstractQueuedSynchronizer 抽象队列同步器是一个用来构建锁和同步器的框架使用 AQS 能简单且高效地构造出应用广泛的大量的同步器比如我们提到的 Reentra
高光谱图像处理

Development of a classification algorithm for efficient handling of multiple classes in sorting systems basesd on hypers
ps语义分割_解决实例分割任务中边缘不够精细：PointRend: Image Segmentation as Rendering...

加入极市专业CV交流群与6000 来自腾讯华为百度北大清华中科院等名企名校视觉开发者互动交流更有机会与李开复老师等大牛群内互动同时提供每月大咖直播分享真实项目需求对接干货资讯汇总行业技术交流关注极市平台公众号回
计算机网络基础知识整理

计算机网络用通信设备和线路将处在不同地理位置操作相对独立的多台计算机连接起来并配置相应的系统和应用软件在原本各自独立的计算机之间实现软硬件资源共享和信息传递等功能的系统计算机网络的功能数据通信 2 资源共享 3 增加可靠性 4
【技术解析笔记】DDPM解析

本文为youtube上一个ddpm解析视频的摘录笔记 youtube原视频链接 https www youtube com watch v W O7AZNzbzQ 基本介绍 DDPM指的是Denoising diffusion probal
hive - 面试题 - 最近一次购物在一年前（近一年内无购物）

要求有表用户id 订单id 下单日期该用户符合365天内无交易且当日有交易的数据打标签如果当天有多条记录同样打标签思路当前订单时间最近一次的下单时间 gt 365 即最近365天内无订单记录中间有个问题一天内多次下单只
【GCC-RT-Thread】gcc交叉编译 STM32 - RT-Thread

GCC RT Thread gcc交叉编译 STM32 RT Thread 最近在公司实习公司想将原来在Windows keil上开发的项目移到Linux 并上RTT操作系统最近就被安排做了这件事首先下载 RT Thread Nan
学习记录396@git clone 只克隆到.git文件

github上的仓库但是使用乌龟克隆时只克隆到 git文件和README文件原因是在我的仓库中没有选择分支默认是main分支但我的项目在master分支因此加上分支选项处在clone即可如果是使用命令行clone 需要使用如下
python基础 -15- 深浅拷贝

浅拷贝 data name alex age 18 scores 语文 130 数学 60 英语 98 浅拷贝 data copy data copy 再看一下各自的内存地址可以发现指向的内存地址不一样 print data的内存地址 i
白盒测试题（13-16道题目+详细代码）

白盒测试题 13 根据下列流程图编写程序实现相应分析处理并显示结果并设计最少的测试数据进行判定覆盖测试输入数据打印出输入 x 值输入 y 值输出文字 a 和 a 的值输出文字 b 和 b 的值其中变量 x y 均须为整型 i
红队靶场内网渗透（从DMZ主机渗透到域内机器）

目录一红队靶场内网渗透 1 靶机工具下载 2 本实验网络拓扑图 3 内网渗透攻击流程二环境搭建 1 DMZ区win7 2 内网办公区 3 域控主机三开始攻击 1 DMZ区win7渗透 1 1信息收集 1 2收集到的信息 1 3远
安卓手机使用Termux实现gitee云端代码本地化修改

Termux是什么 Termux是一个Android终端仿真器和Linux环境应用程序直接工作无需根目录或设置额外的软件包可以使用APT软件包管理器来使用不需要root 有root更方便修改代码下载地址 Termux 0 99 T
人脸识别(dlib.face_recognition_model_v1 方法 -- 使用resnet模型)

人脸识别思路通过检测面部特征对该特征与数据存放的特征进行比对文件结构文件名 weights 的目录下 resnet模型 dat文件识别68个关键点模型 dat文件共两个模型文件补充你如果不使用dlib库中自带的HOG人脸检
网络基础（深信服）

一走进网络世界 1 1 1 企业网络环境介绍计算机网络类型 LAN 本地局域网 Local Area Network 通常指几千米以内的可通过某种介质互联的计算机打印机 modem或其他设备的集合 WAN 广域网 Wide Ar
【C语言】你还在写void main()吗？我劝你别用，小心出BUG

目录前言 C语言标准并不支持void main 用void main 可能会报错总结前言你的教材上是不是经常出现void main 呢我想说永远不要写void main 为什么这种写法普遍存在于我们国内的很多教材既然出现在教
day02-08 python基础语法

模块一 python基础语法 day2 快速上手今日概要课程目标学习Python最基础的语法知识可以用代码快速实现一些简单的功能课程概要初识编码密码本编程初体验输出初识数据类型变量注释输入条件语句 1 编码密码
[编程题]输出元素组成数组的排列组合形式

题目一个由有限个不同元素组成的数组的所有组合排列形式要求排列的顺序以从小到大的顺序排列按首列排序首列相同则按照第二列排序前两列相同则以第三列排序以此顺序递推输入例子1 1 2 输出例子1 1 2 2 1 例子说明1 输出结
服务器划分多台虚拟pc,pc服务器建立多台虚拟主机

pc服务器建立多台虚拟主机内容精选换一换虚拟IP主要用在弹性云服务器的主备切换达到高可用性HA High Availability 的目的当主服务器发生故障无法对外提供服务时动态将虚拟IP切换到备服务器继续对外提供服务了解更
使用LineProfiler找出代码的计算瓶颈

实现同样一个功能笔者运行需要11秒而同窗的运行仅需要1秒不到但是实际实现逻辑是类似的所以需要使用性能分析工具对瓶颈进行分析安装命令行安装 pip install line profiler 本地下载后安装 https www l

使用LineProfiler找出代码的计算瓶颈

安装

修改代码

使用LineProfiler找出代码的计算瓶颈 的相关文章

随机推荐

热门标签

使用LineProfiler找出代码的计算瓶颈的相关文章