Pytorch 分析器显示两个不同网络的卷积平均执行时间不同

2024-03-20

我有两个网络，我正在对它们进行分析以查看哪些操作占用了大部分时间。我注意到CUDA time avg为了aten::conv2d不同网络的操作有所不同。这也增加了一个数量级。在我的第一个网络中，它是22us，而对于第二个网络则是3ms。我的第一个网络的卷积层高达512过滤器，但第二个最多只有192过滤器。因此，我预计第二个网络中卷积运算所花费的平均时间应该更短。相反，它高出 3 个数量级。为什么会出现这种情况呢？

完整的分析输出如下

网络1：

                                                  Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  

                                      cudaLaunchKernel        99.80%     933.739ms        99.80%     933.739ms      20.750ms       0.000us         0.00%       0.000us       0.000us            45  
                                       model_inference         0.05%     453.000us       100.00%     935.567ms     935.567ms       0.000us         0.00%     195.000us     195.000us             1  
                               aten::cudnn_convolution         0.04%     388.000us        99.84%     934.047ms     103.783ms     195.000us       100.00%     195.000us      21.667us             9  
                                    aten::_convolution         0.01%     138.000us        99.88%     934.419ms     103.824ms       0.000us         0.00%     195.000us      21.667us             9  
                                          aten::conv2d         0.01%     122.000us        99.89%     934.592ms     103.844ms       0.000us         0.00%     195.000us      21.667us             9  
                                            aten::add_         0.01%     112.000us         0.02%     155.000us      17.222us       0.000us         0.00%       0.000us       0.000us             9  
                              aten::upsample_nearest2d         0.01%      82.000us         0.01%     105.000us      26.250us       0.000us         0.00%       0.000us       0.000us             4  
                                           aten::empty         0.01%      79.000us         0.01%      79.000us       3.292us       0.000us         0.00%       0.000us       0.000us            24  
                                       aten::threshold         0.01%      74.000us         0.02%     149.000us      18.625us       0.000us         0.00%       0.000us       0.000us             8  
                                            aten::_cat         0.01%      71.000us         0.01%     119.000us      29.750us       0.000us         0.00%       0.000us       0.000us             4  
                                            aten::relu         0.01%      57.000us         0.02%     206.000us      25.750us       0.000us         0.00%       0.000us       0.000us             8  
                                     aten::convolution         0.01%      51.000us        99.88%     934.470ms     103.830ms       0.000us         0.00%     195.000us      21.667us             9  
                                            aten::view         0.01%      50.000us         0.01%      50.000us       5.556us       0.000us         0.00%       0.000us       0.000us             9  
                                             aten::cat         0.00%      32.000us         0.02%     151.000us      37.750us       0.000us         0.00%       0.000us       0.000us             4  
                                         aten::reshape         0.00%      29.000us         0.01%      79.000us       8.778us       0.000us         0.00%       0.000us       0.000us             9  
                                         aten::resize_         0.00%      25.000us         0.00%      25.000us       0.962us       0.000us         0.00%       0.000us       0.000us            26  
                                            aten::rsub         0.00%      21.000us         0.00%      33.000us      33.000us       0.000us         0.00%       0.000us       0.000us             1  
                                             aten::mul         0.00%      17.000us         0.00%      27.000us      27.000us       0.000us         0.00%       0.000us       0.000us             1  
                                           aten::zeros         0.00%      13.000us         0.00%      16.000us      16.000us       0.000us         0.00%       0.000us       0.000us             1  
                                       cudaEventRecord         0.00%      12.000us         0.00%      12.000us       1.333us       0.000us         0.00%       0.000us       0.000us             9  
                                       cudaBindTexture         0.00%      11.000us         0.00%      11.000us       2.750us       0.000us         0.00%       0.000us       0.000us             4  
                                   aten::empty_strided         0.00%       6.000us         0.00%       6.000us       6.000us       0.000us         0.00%       0.000us       0.000us             1  
                                           aten::zero_         0.00%       1.000us         0.00%       1.000us       1.000us       0.000us         0.00%       0.000us       0.000us             1  
cudnn::maxwell::gemm::computeOffsetsKernel(cudnn::ma...         0.00%       0.000us         0.00%       0.000us       0.000us     195.000us       100.00%     195.000us     195.000us             1  
                                     cudaUnbindTexture         0.00%       0.000us         0.00%       0.000us       0.000us       0.000us         0.00%       0.000us       0.000us             4  
Self CPU time total: 935.583ms
Self CUDA time total: 195.000us

网络2：

-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                                   Name    Self CPU %      Self CPU   CPU total %     CPU total  CPU time avg     Self CUDA   Self CUDA %    CUDA total  CUDA time avg    # of Calls  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
                                        cudaMemcpyAsync        42.86%        1.035s        42.86%        1.035s      11.495ms       0.000us         0.00%       0.000us       0.000us            90  
                                       cudaLaunchKernel        34.81%     840.325ms        34.81%     840.325ms     169.969us       0.000us         0.00%       0.000us       0.000us          4944  
                                  cudaStreamSynchronize        15.92%     384.331ms        15.92%     384.331ms       5.736ms       0.000us         0.00%       0.000us       0.000us            67  
                                        model_inference         1.51%      36.559ms       100.00%        2.414s        2.414s       0.000us         0.00%        1.215s        1.215s             1  
                                            aten::fill_         1.03%      24.843ms        34.91%     842.670ms       7.731ms       8.759ms         0.72%       8.759ms      80.358us           109  
                                              aten::sum         0.57%      13.648ms         0.91%      22.019ms      18.123us      57.415ms         4.73%      57.415ms      47.255us          1215  
                                            aten::slice         0.50%      12.124ms         0.59%      14.229ms       3.526us       0.000us         0.00%       0.000us       0.000us          4035  
                                              aten::mul         0.49%      11.935ms         0.88%      21.340ms      17.293us     492.228ms        40.52%     492.228ms     398.888us          1234  
                                            aten::empty         0.44%      10.568ms         0.44%      10.568ms       2.556us       0.000us         0.00%       0.000us       0.000us          4134  
                                            aten::clamp         0.31%       7.455ms         0.84%      20.342ms      19.485us      12.405ms         1.02%      24.810ms      23.764us          1044  
                                              aten::add         0.25%       6.053ms         0.36%       8.615ms      14.334us      33.147ms         2.73%      33.147ms      55.153us           601  
                                aten::cudnn_convolution         0.18%       4.459ms         0.27%       6.549ms      46.779us     423.769ms        34.88%     423.769ms       3.027ms           140  
                                              aten::div         0.16%       3.892ms         0.27%       6.584ms      16.098us       3.225ms         0.27%       3.225ms       7.885us           409  
                                          aten::resize_         0.09%       2.287ms         0.10%       2.445ms       2.582us      75.000us         0.01%      75.000us       0.079us           947  
                                            aten::copy_         0.09%       2.226ms        58.96%        1.423s       6.498ms      80.877ms         6.66%      81.024ms     369.973us           219  
                                             aten::_cat         0.09%       2.087ms         0.12%       2.971ms      34.547us      26.689ms         2.20%      26.689ms     310.337us            86  
                                       aten::as_strided         0.09%       2.082ms         0.10%       2.305ms       0.554us       0.000us         0.00%       0.000us       0.000us          4164  
                                  aten::constant_pad_nd         0.06%       1.497ms        34.09%     822.790ms       9.350ms       0.000us         0.00%      46.706ms     530.750us            88  
                                     aten::_convolution         0.05%       1.113ms         0.38%       9.142ms      65.300us       0.000us         0.00%     440.725ms       3.148ms           140  
                                              aten::sub         0.04%       1.082ms         0.08%       1.905ms      18.676us      16.975ms         1.40%      16.975ms     166.422us           102  
                                       aten::leaky_relu         0.03%     727.000us         0.05%       1.253ms      19.277us      11.039ms         0.91%      11.039ms     169.831us            65  
                                       aten::reciprocal         0.03%     722.000us         0.05%       1.258ms      17.971us      10.340ms         0.85%      10.340ms     147.714us            70  
                                            aten::index         0.03%     707.000us         0.09%       2.140ms      66.875us      16.861ms         1.39%      17.207ms     537.719us            32  
                                             aten::add_         0.03%     672.000us         0.04%       1.027ms      14.671us      16.956ms         1.40%      16.956ms     242.229us            70  
                                           aten::conv2d         0.03%     610.000us         0.43%      10.298ms      73.557us       0.000us         0.00%     440.725ms       3.148ms           140  
                                             aten::view         0.03%     605.000us         0.03%     619.000us       2.623us       0.000us         0.00%       0.000us       0.000us           236  
                                    aten::empty_strided         0.02%     564.000us         0.02%     564.000us       6.409us       0.000us         0.00%       0.000us       0.000us            88  
                                      aten::convolution         0.02%     546.000us         0.40%       9.688ms      69.200us       0.000us         0.00%     440.725ms       3.148ms           140  
                                           aten::narrow         0.02%     534.000us         0.06%       1.388ms       4.131us       0.000us         0.00%       0.000us       0.000us           336  
                                              aten::cat         0.02%     511.000us         0.14%       3.482ms      40.488us       0.000us         0.00%      26.689ms     310.337us            86  
                                               aten::to         0.02%     413.000us        58.86%        1.421s       9.665ms       0.000us         0.00%      42.584ms     289.687us           147  
                                             aten::rsub         0.02%     374.000us         0.03%     616.000us      19.250us      92.000us         0.01%      92.000us       2.875us            32  
                                           aten::select         0.01%     311.000us         0.01%     354.000us       4.023us       0.000us         0.00%       0.000us       0.000us            88  
                                          aten::reshape         0.01%     304.000us         0.03%     660.000us       3.976us       0.000us         0.00%       0.000us       0.000us           166  
                                             aten::ceil         0.01%     265.000us         0.03%     717.000us      21.088us     606.000us         0.05%       1.212ms      35.647us            34  
                                          aten::permute         0.01%     214.000us         0.01%     249.000us       4.446us       0.000us         0.00%       0.000us       0.000us            56  
                              aten::upsample_bilinear2d         0.01%     199.000us         0.03%     629.000us      34.944us       2.185ms         0.18%       2.260ms     125.556us            18  
                                           aten::expand         0.01%     189.000us         0.01%     246.000us       3.417us       0.000us         0.00%       0.000us       0.000us            72  
                                             aten::ones         0.01%     180.000us         1.02%      24.632ms     947.385us       0.000us         0.00%       0.000us       0.000us            26  
                                               aten::gt         0.01%     162.000us         0.02%     474.000us      29.625us     496.000us         0.04%     992.000us      62.000us            16  
                                           aten::repeat         0.01%     154.000us         0.03%     724.000us      60.333us       0.000us         0.00%       0.000us       0.000us            12  
                                        cudaEventRecord         0.01%     146.000us         0.01%     146.000us       1.043us       0.000us         0.00%       0.000us       0.000us           140  
                                        aten::unsqueeze         0.01%     144.000us         0.01%     177.000us       3.404us       0.000us         0.00%       0.000us       0.000us            52  
                                       aten::contiguous         0.01%     139.000us         0.03%     735.000us      22.969us       0.000us         0.00%     346.000us      10.812us            32  
                                             aten::mean         0.01%     137.000us         0.01%     214.000us      23.778us     131.000us         0.01%     131.000us      14.556us             9  
                                           aten::arange         0.01%     124.000us         0.01%     242.000us      10.083us       0.000us         0.00%       0.000us       0.000us            24  
                                       aten::empty_like         0.01%     123.000us         0.01%     284.000us       5.680us       0.000us         0.00%       0.000us       0.000us            50  
                                        cudaBindTexture         0.01%     121.000us         0.01%     121.000us       3.025us       0.000us         0.00%       0.000us       0.000us            40  
                                            aten::stack         0.00%     112.000us         0.03%     802.000us      50.125us       0.000us         0.00%     158.000us       9.875us            16  
                                            aten::floor         0.00%      77.000us         0.01%     191.000us      23.875us      18.000us         0.00%      36.000us       4.500us             8  
                                         aten::moveaxis         0.00%      73.000us         0.01%     276.000us      11.500us       0.000us         0.00%       0.000us       0.000us            24  
                                          aten::movedim         0.00%      67.000us         0.01%     203.000us       8.458us       0.000us         0.00%       0.000us       0.000us            24  
                                           aten::unfold         0.00%      61.000us         0.00%      82.000us       2.562us       0.000us         0.00%       0.000us       0.000us            32  
                                      aten::leaky_relu_         0.00%      51.000us         0.00%     119.000us      23.800us       0.000us         0.00%     789.000us     157.800us             5  
                                         aten::_s_where         0.00%      51.000us         0.00%      91.000us      22.750us     536.000us         0.04%     536.000us     134.000us             4  
                                            aten::clone         0.00%      36.000us         0.01%     159.000us      31.800us       0.000us         0.00%     435.000us      87.000us             5  
                                            aten::where         0.00%      34.000us         0.01%     174.000us      43.500us       0.000us         0.00%     536.000us     134.000us             4  
                                        aten::expand_as         0.00%      27.000us         0.00%      70.000us       4.375us       0.000us         0.00%       0.000us       0.000us            16  
                                            aten::zeros         0.00%      18.000us         0.00%      29.000us      14.500us       0.000us         0.00%       0.000us       0.000us             2  
                                             aten::item         0.00%      16.000us         0.00%      22.000us       2.750us       0.000us         0.00%       0.000us       0.000us             8  
                                          aten::detach_         0.00%      10.000us         0.00%      15.000us       3.750us       0.000us         0.00%       0.000us       0.000us             4  
                                            aten::alias         0.00%       8.000us         0.00%       8.000us       0.667us       0.000us         0.00%       0.000us       0.000us            12  
                              aten::_local_scalar_dense         0.00%       6.000us         0.00%       6.000us       0.750us       0.000us         0.00%       0.000us       0.000us             8  
                                                detach_         0.00%       5.000us         0.00%       5.000us       1.250us       0.000us         0.00%       0.000us       0.000us             4  
                                            aten::zero_         0.00%       2.000us         0.00%       2.000us       1.000us       0.000us         0.00%       0.000us       0.000us             2  
                       Memcpy HtoD (Pageable -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us      41.981ms         3.46%      41.981ms     626.582us            67  
void at::native::vectorized_elementwise_kernel<4, at...         0.00%       0.000us         0.00%       0.000us       0.000us       8.759ms         0.72%       8.759ms     105.530us            83  
void at::native::unrolled_elementwise_kernel<at::nat...         0.00%       0.000us         0.00%       0.000us       0.000us      37.512ms         3.09%      37.512ms     451.952us            83  
void at::native::vectorized_elementwise_kernel<4, at...         0.00%       0.000us         0.00%       0.000us       0.000us      65.145ms         5.36%      65.145ms     208.131us           313  
void at::native::unrolled_elementwise_kernel<at::nat...         0.00%       0.000us         0.00%       0.000us       0.000us     416.783ms        34.31%     416.783ms     494.992us           842  
void at::native::reduce_kernel<256, 2, at::native::R...         0.00%       0.000us         0.00%       0.000us       0.000us       2.070ms         0.17%       2.070ms       8.519us           243  
void at::native::vectorized_elementwise_kernel<4, at...         0.00%       0.000us         0.00%       0.000us       0.000us      12.051ms         0.99%      12.051ms      24.950us           483  
void at::native::vectorized_elementwise_kernel<4, at...         0.00%       0.000us         0.00%       0.000us       0.000us       3.225ms         0.27%       3.225ms       7.885us           409  
void at::native::vectorized_elementwise_kernel<4, at...         0.00%       0.000us         0.00%       0.000us       0.000us      12.284ms         1.01%      12.284ms      24.277us           506  
void at::native::(anonymous namespace)::CatArrayBatc...         0.00%       0.000us         0.00%       0.000us       0.000us      26.580ms         2.19%      26.580ms     359.189us            74  
void at::native::vectorized_elementwise_kernel<4, at...         0.00%       0.000us         0.00%       0.000us       0.000us      11.039ms         0.91%      11.039ms     169.831us            65  
                         Memcpy DtoD (Device -> Device)         0.00%       0.000us         0.00%       0.000us       0.000us     510.000us         0.04%     510.000us      22.174us            23  
cudnn::maxwell::gemm::computeOffsetsKernel(cudnn::ma...         0.00%       0.000us         0.00%       0.000us       0.000us      62.000us         0.01%      62.000us       5.167us            12  
                 maxwell_scudnn_128x32_relu_interior_nn         0.00%       0.000us         0.00%       0.000us       0.000us       1.320ms         0.11%       1.320ms     132.000us            10  
void at::native::vectorized_elementwise_kernel<4, at...         0.00%       0.000us         0.00%       0.000us       0.000us      10.340ms         0.85%      10.340ms     147.714us            70  
void at::native::vectorized_elementwise_kernel<4, at...         0.00%       0.000us         0.00%       0.000us       0.000us      10.300ms         0.85%      10.300ms     130.380us            79  
void at::native::unrolled_elementwise_kernel<at::nat...         0.00%       0.000us         0.00%       0.000us       0.000us      50.898ms         4.19%      50.898ms     242.371us           210  
void cudnn::winograd::generateWinogradTilesKernel<0,...         0.00%       0.000us         0.00%       0.000us       0.000us       1.166ms         0.10%       1.166ms      13.250us            88  
maxwell_scudnn_winograd_128x128_ldg1_ldg4_tile148n_n...         0.00%       0.000us         0.00%       0.000us       0.000us     150.355ms        12.38%     150.355ms       1.709ms            88  
void at::native::vectorized_elementwise_kernel<4, at...         0.00%       0.000us         0.00%       0.000us       0.000us       3.775ms         0.31%       3.775ms      78.646us            48  
                maxwell_scudnn_128x128_relu_interior_nn         0.00%       0.000us         0.00%       0.000us       0.000us     106.000us         0.01%     106.000us     106.000us             1  
                   maxwell_scudnn_128x128_relu_small_nn         0.00%       0.000us         0.00%       0.000us       0.000us     104.000us         0.01%     104.000us     104.000us             1  
                                      cudaUnbindTexture         0.00%       0.000us         0.00%       0.000us       0.000us       0.000us         0.00%       0.000us       0.000us            40  
void cudnn::detail::implicit_convolve_sgemm<float, f...         0.00%       0.000us         0.00%       0.000us       0.000us      12.632ms         1.04%      12.632ms     789.500us            16  
void at::native::reduce_kernel<256, 2, at::native::R...         0.00%       0.000us         0.00%       0.000us       0.000us      10.000us         0.00%      10.000us      10.000us             1  
void at::native::(anonymous namespace)::upsample_bil...         0.00%       0.000us         0.00%       0.000us       0.000us       2.185ms         0.18%       2.185ms     121.389us            18  
void at::native::vectorized_elementwise_kernel<4, at...         0.00%       0.000us         0.00%       0.000us       0.000us     606.000us         0.05%     606.000us      35.647us            17  
void at::native::reduce_kernel<128, 4, at::native::R...         0.00%       0.000us         0.00%       0.000us       0.000us     121.000us         0.01%     121.000us      15.125us             8  
void at::native::vectorized_elementwise_kernel<4, at...         0.00%       0.000us         0.00%       0.000us       0.000us      18.000us         0.00%      18.000us       4.500us             4  
void at::native::unrolled_elementwise_kernel<at::nat...         0.00%       0.000us         0.00%       0.000us       0.000us     103.000us         0.01%     103.000us      12.875us             8  
void at::native::vectorized_elementwise_kernel<4, at...         0.00%       0.000us         0.00%       0.000us       0.000us     121.000us         0.01%     121.000us       7.562us            16  
void at::native::(anonymous namespace)::CatArrayBatc...         0.00%       0.000us         0.00%       0.000us       0.000us     109.000us         0.01%     109.000us      13.625us             8  
void at::native::unrolled_elementwise_kernel<at::nat...         0.00%       0.000us         0.00%       0.000us       0.000us     354.000us         0.03%     354.000us      11.062us            32  
void at::native::vectorized_elementwise_kernel<4, at...         0.00%       0.000us         0.00%       0.000us       0.000us      92.000us         0.01%      92.000us       2.875us            32  
void at::native::unrolled_elementwise_kernel<at::nat...         0.00%       0.000us         0.00%       0.000us       0.000us     346.000us         0.03%     346.000us      10.812us            32  
-------------------------------------------------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  
Self CPU time total: 2.414s
Self CUDA time total: 1.215s

分析代码：

with torch.no_grad():
  with profile(activities=[ProfilerActivity.CPU, ProfilerActivity.CUDA], record_shapes=True) as prof:
    with record_function("model_inference"):
      output_batch = self.frame_predictor(input_batch)
  print(prof.key_averages().table(sort_by="self_cuda_time_total", row_limit=10))

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Pytorch

profiling

Pytorch 分析器显示两个不同网络的卷积平均执行时间不同的相关文章

在 Java 应用程序中查找线程创建的来源

我正在开发一个存在线程问题的 Java 应用程序在使用带有 Netbeans 分析器的应用程序一段时间时我可以看到创建了多个线程他们中的大多数人都以某种方式完成 5 seconds 我只能找到应用程序中使用的 SwingWorkers
在 C++ API 中将一个张量的一大块复制到另一个张量中

我需要复制一行一个张量在c API 转换为另一个张量的某些部分其中开始和结束索引可用在 C 中我们可以使用类似的东西 int myints 10 20 30 40 50 60 70 std vector
如何分析 Java 中的线程？

我的应用程序中有生产者和消费者线程我需要对它们进行分析以查看线程的性能每个线程进入睡眠和等待之前所花费的时间等并采取纠正措施以提高应用程序的整体效率关于如何解决这个问题有什么建议吗我个人使用 YourKit java profil
Adobe Flash Builder 能否用于调试和分析 OpenLaszlo SWF10/SWF11 应用程序？

我读过 Adob e 的Flash Builder 4 0 支持 ActionScript 3 的分析 http help adobe com en US flashbuilder using WS6f97d7caa66ef6eb1e63e
平均执行时间

有没有什么好的 GNU 方法来测量某些命令行程序的平均最坏情况最好情况执行时间我有图像过滤器未指定数量的图片使用 bash 中的 for 循环过滤它们到目前为止我正在使用time 但我找不到如何获取一些统计数据的方法您可以将
pytorch grad 在 .backward() 之后为 None

我刚刚安装火炬 1 0 0 on Python 3 7 2 macOS 并尝试tutorial https pytorch org tutorials beginner blitz autograd tutorial html sphx g
PyTorch 教程错误训练分类器

我刚刚开始 PyTorch 教程使用 PyTorch 进行深度学习 60 分钟闪电战我应该补充一点我之前没有编写过任何 python 但其他语言如 Java 现在我的代码看起来像 import torch import torchvi
torchvision.transforms.Normalize 是如何操作的？

我不明白如何标准化Pytorch works 我想将平均值设置为0和标准差1跨越张量中的所有列x形状的 2 2 3 一个简单的例子 gt gt gt x torch tensor 1 2 3 4 5 6 7 8 9 10 11 12 gt
为什么 PyTorch nn.Module.cuda() 不将模块张量移动到 GPU，而仅将参数和缓冲区移动到 GPU？

nn Module cuda 将所有模型参数和缓冲区移动到 GPU 但为什么不是模型成员张量呢 class ToyModule torch nn Module def init self gt None super ToyModule se
为什么 RNN 需要两个偏置向量？

In Pytorch RNN 实现 http pytorch org docs master nn html highlight rnn torch nn RNN 有两个偏差 b ih and b hh 为什么是这样它与使用一种偏差有什么
使用 C# 的另一个进程的内存使用情况和执行时间？

我需要通过另一个应用程序加载的应用程序的内存使用情况和处理时间我正在使用 C 目前我正在使用Process WorkingSet获取内存使用情况相似地Process TotalProcessTime以获得执行时间但它没有提供任何价值
PyTorch：如何检查训练期间某些权重是否没有改变？

如何检查 PyTorch 训练期间某些权重是否未更改据我了解一种选择可以是在某些时期转储模型权重并检查它们是否通过迭代权重进行更改但也许有一些更简单的方法有两种方法可以解决这个问题 First for name param in
PyTorch 中复数矩阵的行列式

有没有办法在 PyTorch 中计算复矩阵的行列式 torch det未针对 ComplexFloat 实现不幸的是目前尚未实施一种方法是实现您自己的版本或简单地使用np linalg det 这是一个简短的函数它计算我使用 LU
使 CUDA 内存不足

我正在尝试训练网络但我明白了我将批量大小设置为 300 并收到此错误但即使我将其减少到 100 我仍然收到此错误更令人沮丧的是在 1200 个图像上运行 10 epoch 大约需要 40 分钟有什么建议吗错了我怎样才能加快这
有没有办法使用 perf 工具查找流程中各个功能的性能？

我正在尝试在流程中实现各个功能的性能我该如何使用 perf 工具来做到这一点还有其他工具吗例如假设 main 函数调用函数 A B C 我想分别获得主要功能以及功能 A B C 的性能有没有一个很好的文档来了解 perf 源代码
BatchNorm 动量约定 PyTorch

Is the 批归一化动量约定 http pytorch org docs master modules torch nn modules batchnorm html 默认 0 1 与其他库一样正确例如Tensorflow默认情况下似乎
如何有效地对一个数组中某个值在另一个数组中的位置出现的次数求和

我正在寻找一种有效的 for 循环避免解决方案来解决我遇到的数组相关问题我想使用一个巨大的一维数组 A gt size 250 000 用于一维索引的 0 到 40 之间的值以及用于第二维索引的具有 0 到 9995 之间的值的相同大
torch.stack() 和 torch.cat() 函数有什么区别？

OpenAI 的强化学习 REINFORCE 和 actor critic 示例具有以下代码加强 https github com pytorch examples blob master reinforcement learning r
如何离线分析使用 pstats.dump_stats(filename) 创建的文件？

我基本上做了以下工作 import cProfile pstats StringIO pr cProfile Profile pr enable my code did something pr disable s StringIO Str
VS2010分析器：是否可以分析一种特定方法？

可能有一些方法可以打开和关闭代码分析或者您可以选择要分析的特定函数吗您还可以使用分析器的数据收集 API 来启动和停止围绕您感兴趣的方法进行分析请参阅这篇 MSDN 文章 http msdn microsoft com en us l

随机推荐

从 GIF 文件的字节数组中提取各个帧的字节数组

我有一个byte GIF 文件的我想从中提取所有帧我可以使用提取帧System Drawing Image and System Drawing Imaging 但这些都需要System Drawing我不能在我的项目中使用它因为 U
使用 XSLT 转换 Heat 生成的 .wxs（添加RegistryValue 并编辑一些值）

这是我想要的输出
Prolog：覆盖谓词和使用它之间的区别

我觉得自己真的很愚蠢感觉自己错过了一些东西我基本上有两个文件 module pl通用逻辑规则可重用 state pl一个针对当前场景在模块文件中 module pl 我已经声明 inside Food Eater T isTime
Hadoop MapReduce：可以在一个 hadoop 作业类中定义两个映射器和缩减器吗？

我有两个独立的 java 类用于执行两个不同的 MapReduce 作业我可以独立运行它们对于这两个作业它们所操作的输入文件是相同的所以我的问题是是否可以在一个java类中定义两个映射器和两个缩减器例如 mapper1 clas
从构造函数初始值设定项抛出异常

从构造函数初始值设定项抛出异常的最佳方法是什么例如 class C T0 t0 can be either valid or invalid but does not throw directly T1 t1 heavy object d
为什么查询sqlite数据库时需要创建游标？

我完全陌生Python sqlite3模块 https docs python org 3 6 library sqlite3 html 以及一般的 SQL 这完全难倒了我大量缺乏描述cursor objects https docs p
将 JaCoCo 与 SONAR 集成以实现单元和集成测试覆盖

有没有人尝试使用 ANT 构建配置 JaCoCo 将单元测试和集成测试的覆盖范围转储到 2 个不同的文件中以便 SONAR 使用它们这是一个可行的解决方案为单元测试和集成测试生成报告该解决方案使用的是append战略请注意为了在
具有不同输入的全卷积网络

我有一个完全卷积神经网络 U Net 可以在下面阅读 https arxiv org pdf 1505 04597 pdf https arxiv org pdf 1505 04597 pdf 我想用它来对图像进行像素分类我的训练图像有两
无法导入 Materialise CSS JS 反应

大家早安我一直在努力让具体化CSS在我的react app上工作特别是Javascript文件我尝试了多种方法但这是我认为我已经走得更远的一种在我的 landingpage js 文件中 import React Compone
仅隐藏供应商提供的类的弃用警告

我们有一个应用程序其中包含一个非常非常古老的类来连接到专有数据库的 API 此代码会生成大量弃用错误然后将其记录下来从而污染我们的日志文件我们只想基本上忽略此供应商提供的类的弃用错误但我无法找到执行此操作的最佳方法我见过的选项
Bootstrap：两列居中

我正在尝试使用 Bootstrap 3 1 实现两列居中布局我读过这个如何将 Bootstrap div 与 spanX 类居中 https stackoverflow com questions 9554724 how do i ce
使用 Java 从 Keystore 中导入的证书获取公钥

我已经创建并下载了证书销售队伍 https ap1 salesforce com 按照中的说明PicketLink 文档 https docs jboss org author display PLINK Picketlink as SP
多租户：每个租户都有单独的数据库

我们正在开发一个多租户应用程序在架构方面我们设计了共享中间层用于业务逻辑每个租户一个数据库用于数据持久化也就是说业务层将为每个租户与数据库服务器建立一组连接连接池这意味着应用程序为每个租户维护单独的连接池如果我们预计大约有
Android 画图 PorterDuff.Mode.CLEAR

我正在开发在 Canvas 上绘图的应用程序类似于 Android SDK 中的 Finger Paint 演示我的问题是当我使用时PorterDuff Mode CLEAR 当绘图和画布时如果我尝试擦除某些内容它工作正常但如果我
声明参数化类型同义词的实例

我有很多适用于向量的函数即具有类型强制长度的列表我试图让我的类型更容易编写即而不是编写 foo Fold Integer v Map Integer Integer v v gt 我正在宣布一个新班级NList所以我可以写foo NL
Hibernate JPA 与 JTA 和 Glassfish 应用程序服务器似乎没有提交

我是 hibernate 的新手我希望它通过 JNDI 使用来自应用程序服务器的数据库连接奇怪的是它在数据库中创建我的表但不保存实体看来它并没有承诺有人在使用 hibernate 时遇到过类似的问题吗这是一个小测试 serv
如何将参数传递给graphql查询？

我正在尝试在 Meteor blaze 项目中使用 Apollo graphql 我正在使用来自swydo blaze apollo 使用graphql查询从mongoDB获取数据就可以了 Using this one can get da
使用 React Router V4 以编程方式导航

我刚刚更换了react router从 v3 到 v4 但我不确定如何以编程方式在成员函数中导航Component 即在handleClick 我想要导航到的功能 path some where处理一些数据后我曾经这样做过 import
将 android studio 更新为花栗鼠后，导航组件方向生成的类中的构建时间错误

在导航组件生成的所有方向类中将 android studio 更新为花栗鼠版本后我收到未解析的参考 R 构建时间错误 R 类未在该类中导入尽管我可以手动导入它但类将重新生成而无需在下一个构建中导入 android gradle
Pytorch 分析器显示两个不同网络的卷积平均执行时间不同

我有两个网络我正在对它们进行分析以查看哪些操作占用了大部分时间我注意到CUDA time avg为了aten conv2d不同网络的操作有所不同这也增加了一个数量级在我的第一个网络中它是22us 而对于第二个网络则是3ms 我的第

Pytorch 分析器显示两个不同网络的卷积平均执行时间不同

Pytorch 分析器显示两个不同网络的卷积平均执行时间不同 的相关文章

随机推荐

热门标签

Pytorch 分析器显示两个不同网络的卷积平均执行时间不同的相关文章