CUDA 可以解决许多“小型/中型”线性系统

2023-12-07

关于我尝试使用 CUDA 加速的问题的一些背景信息：

我有大量小型/中型相同尺寸的线性系统需要独立求解。每个线性系统都是方形的、实数的、稠密的、可逆的和非对称的。这些实际上是矩阵系统，因此每个系统看起来都像 AX = B，其中 A、X 和 B 是 (n x n) 矩阵。

在上一个问题中我问CUBLAS 批量和矩阵大小，在那里我了解到 cuBLAS 批处理操作可以为尺寸为 100x100 或更小的矩阵提供最佳性能。

我仍然有一个问题，因为我正在使用的矩阵有 100

为了求解单个系统，我与 MATLAB 进行了一些计时比较，发现常规 BLAS 对于大小 (4096x4096) 或更大的矩阵更好。我制作了一个大小为 (n x n) 的随机矩阵，其中 n=64,256,512,1024,4096,16384，并且仅进行因式分解和后向/前向求解，没有跨 PCIE 传输。

双精度 CUDA (GTX 1080ti) 与 MATLAB（反斜杠）

（GPU）64：0.001157 秒（MATLAB）64：0.000205 秒

（GPU）256：0.01161 秒（MATLAB）256：0.007762 秒

（GPU）512：0.026348 秒（MATLAB）512：0.008550 秒

（GPU）1024：0.064357 秒（MATLAB）1024：0.036280 秒

（GPU）4096：0.734908 秒（MATLAB）4096：1.174442 秒

(GPU) 16384: 32.962229 秒 (MATLAB) 16384: 68.691236 秒

这些时间让我得出结论，调用非批量求逆方法对矩阵进行逐一迭代会比 MATLAB 慢。另外，对于我的中等大小的矩阵，批量 cuBLAS 批量求逆方法将表现不佳，根据CUBLAS 批量和矩阵大小.

我是否应该考虑其他方法来使用 CUDA 加速我的代码？或者我误解了什么？

 /*  How to use
 *      ./cuSolverDn_LinearSolver                     // Default: cholesky
 *     ./cuSolverDn_LinearSolver -R=chol -filefile>   // cholesky factorization
 *     ./cuSolverDn_LinearSolver -R=lu -file<file>     // LU with partial pivoting
 *     ./cuSolverDn_LinearSolver -R=qr -file<file>     // QR factorization
 *
 *  Remark: the absolute error on solution x is meaningless without knowing condition number of A.
 *     The relative error on residual should be close to machine zero, i.e. 1.e-15.
 */

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <ctype.h>
#include <assert.h>

#include <cuda_runtime.h>

#include "cublas_v2.h"
#include "cusolverDn.h"
#include "helper_cuda.h"

#include "helper_cusolver.h"
int linearSolverLU(
    cusolverDnHandle_t handle,
    int n,
    const double *Acopy,
    int lda,
    const double *b,
    double *x)
{
    int bufferSize = 0;
    int *info = NULL;
    double *buffer = NULL;
    double *A = NULL;
    int *ipiv = NULL; // pivoting sequence
    int h_info = 0;
    double start, stop;
    double time_solve;

    checkCudaErrors(cusolverDnDgetrf_bufferSize(handle, n, n, (double*)Acopy, lda, &bufferSize));

    checkCudaErrors(cudaMalloc(&info, sizeof(int)));
    checkCudaErrors(cudaMalloc(&buffer, sizeof(double)*bufferSize));
    checkCudaErrors(cudaMalloc(&A, sizeof(double)*lda*n));
    checkCudaErrors(cudaMalloc(&ipiv, sizeof(int)*n));


    // prepare a copy of A because getrf will overwrite A with L
    checkCudaErrors(cudaMemcpy(A, Acopy, sizeof(double)*lda*n, cudaMemcpyDeviceToDevice));
    checkCudaErrors(cudaMemset(info, 0, sizeof(int)));

    start = second();
    start = second();

    checkCudaErrors(cusolverDnDgetrf(handle, n, n, A, lda, buffer, ipiv, info));
    checkCudaErrors(cudaMemcpy(&h_info, info, sizeof(int), cudaMemcpyDeviceToHost));

    if ( 0 != h_info ){
        fprintf(stderr, "Error: LU factorization failed\n");
    }

    //checkCudaErrors(cudaMemcpy(x, b, sizeof(double)*n, cudaMemcpyDeviceToDevice));
    checkCudaErrors(cudaMemcpy(x, b, sizeof(double)*lda*n, cudaMemcpyDeviceToDevice));
    //checkCudaErrors(cusolverDnDgetrs(handle, CUBLAS_OP_N, n, 1, A, lda, ipiv, x, n, info));
    checkCudaErrors(cusolverDnDgetrs(handle, CUBLAS_OP_N, n, n, A, lda, ipiv, x, n, info));
    checkCudaErrors(cudaDeviceSynchronize());
    stop = second();

    time_solve = stop - start;
    fprintf (stdout, "timing: LU = %10.6f sec\n", time_solve);

    if (info  ) { checkCudaErrors(cudaFree(info  )); }
    if (buffer) { checkCudaErrors(cudaFree(buffer)); }
    if (A     ) { checkCudaErrors(cudaFree(A)); }
    if (ipiv  ) { checkCudaErrors(cudaFree(ipiv));}

    return 0;
}
void generate_random_dense_matrix(int M, int N, double **outA)
{
    int i, j;
    double rMax = (double)RAND_MAX;
    double *A   = (double *)malloc(sizeof(double) * M * N);

    // For each column
    for (j = 0; j < N; j++)
    {
        // For each row
        for (i = 0; i < M; i++)
        {
            double dr = (double)rand();
            A[j * M + i] = (dr / rMax) * 100.0;
        //printf("A[j * M + i] = %f \n",A[j * M + i]);
        }
    }

    *outA = A;
}

int main (int argc, char *argv[])
{
    struct testOpts opts;
    cusolverDnHandle_t handle = NULL;
    cublasHandle_t cublasHandle = NULL; // used in residual evaluation
    cudaStream_t stream = NULL;

    int rowsA = 0; // number of rows of A
    int colsA = 0; // number of columns of A
    int nnzA  = 0; // number of nonzeros of A
    int baseA = 0; // base index in CSR format
    int lda   = 0; // leading dimension in dense matrix

    // CSR(A) from I/O
    int *h_csrRowPtrA = NULL;
    int *h_csrColIndA = NULL;
    double *h_csrValA = NULL;

    double *h_A = NULL; // dense matrix from CSR(A)
    double *h_x = NULL; // a copy of d_x
    double *h_b = NULL; // b = ones(m,1)
    double *h_r = NULL; // r = b - A*x, a copy of d_r

    double *d_A = NULL; // a copy of h_A
    double *d_x = NULL; // x = A \ b
    double *d_b = NULL; // a copy of h_b
    double *d_r = NULL; // r = b - A*x

    // the constants are used in residual evaluation, r = b - A*x
    const double minus_one = -1.0;
    const double one = 1.0;

    double x_inf = 0.0;
    double r_inf = 0.0;
    double A_inf = 0.0;
    int errors = 0;


    colsA = 660;
    rowsA = colsA;
    int NN = colsA;
    int MM = rowsA;
    lda = rowsA;

    // Generate inputs
    srand(9384);  
    generate_random_dense_matrix(MM, NN, &h_A);
    generate_random_dense_matrix(MM, NN, &h_b);

    parseCommandLineArguments(argc, argv, opts);

    if (NULL == opts.testFunc)
    {
        //opts.testFunc = "chol"; // By default running Cholesky as NO solver selected with -R option.
    opts.testFunc = "lu";  
    //opts.testFunc = "qr"; 
    }

    findCudaDevice(argc, (const char **)argv);

    /*
    printf("step 1: read matrix market format\n");

    if (opts.sparse_mat_filename == NULL)
    {
        opts.sparse_mat_filename =  sdkFindFilePath("gr_900_900_crg.mtx", argv[0]);
        if (opts.sparse_mat_filename != NULL)
            printf("Using default input file [%s]\n", opts.sparse_mat_filename);
        else
            printf("Could not find gr_900_900_crg.mtx\n");
    }
    else
    {
        printf("Using input file [%s]\n", opts.sparse_mat_filename);
    }

    if (opts.sparse_mat_filename == NULL)
    {
        fprintf(stderr, "Error: input matrix is not provided\n");
        return EXIT_FAILURE;
    }

    if (loadMMSparseMatrix<double>(opts.sparse_mat_filename, 'd', true , &rowsA, &colsA,
               &nnzA, &h_csrValA, &h_csrRowPtrA, &h_csrColIndA, true))
    {
        exit(EXIT_FAILURE);
    }
    baseA = h_csrRowPtrA[0]; // baseA = {0,1}

    printf("sparse matrix A is %d x %d with %d nonzeros, base=%d\n", rowsA, colsA, nnzA, baseA);

    if ( rowsA != colsA )
    {
        fprintf(stderr, "Error: only support square matrix\n");
        exit(EXIT_FAILURE);
    }

    printf("step 2: convert CSR(A) to dense matrix\n");

    lda = opts.lda ? opts.lda : rowsA;
    if (lda < rowsA)
    {
        fprintf(stderr, "Error: lda must be greater or equal to dimension of A\n");
        exit(EXIT_FAILURE);
    }
    */
    //h_A = (double*)malloc(sizeof(double)*lda*colsA);
    h_x = (double*)malloc(sizeof(double)*lda*colsA);
    //h_b = (double*)malloc(sizeof(double)*rowsA);
    h_r = (double*)malloc(sizeof(double)*lda*rowsA);
    assert(NULL != h_A);
    assert(NULL != h_x);
    assert(NULL != h_b);
    assert(NULL != h_r);

    /*
    memset(h_A, 0, sizeof(double)*lda*colsA); 
    for(int row = 0 ; row < rowsA ; row++)
    {
        const int start = h_csrRowPtrA[row  ] - baseA;
        const int end   = h_csrRowPtrA[row+1] - baseA;
        for(int colidx = start ; colidx < end ; colidx++)
        {
            const int col = h_csrColIndA[colidx] - baseA;
            const double Areg = h_csrValA[colidx];
            h_A[row + col*lda] = Areg;
        }
    }

    printf("step 3: set right hand side vector (b) to 1\n");
    for(int row = 0 ; row < rowsA ; row++)
    {
        h_b[row] = 1.0;
    }
    */
    // verify if A is symmetric or not.
    if ( 0 == strcmp(opts.testFunc, "chol") )
    {
        int issym = 1;
        for(int j = 0 ; j < colsA ; j++)
        {
            for(int i = j ; i < rowsA ; i++)
            {
                double Aij = h_A[i + j*lda];
                double Aji = h_A[j + i*lda];
                if ( Aij != Aji )
                {
                    issym = 0;
                    break;
                }
            }
        }
        if (!issym)
        {
            printf("Error: A has no symmetric pattern, please use LU or QR \n");
            exit(EXIT_FAILURE);
        }
    }

    checkCudaErrors(cusolverDnCreate(&handle));
    checkCudaErrors(cublasCreate(&cublasHandle));
    checkCudaErrors(cudaStreamCreate(&stream));

    checkCudaErrors(cusolverDnSetStream(handle, stream));
    checkCudaErrors(cublasSetStream(cublasHandle, stream));


    checkCudaErrors(cudaMalloc((void **)&d_A, sizeof(double)*lda*colsA));
    checkCudaErrors(cudaMalloc((void **)&d_x, sizeof(double)*lda*colsA));
    checkCudaErrors(cudaMalloc((void **)&d_b, sizeof(double)*lda*rowsA));
    checkCudaErrors(cudaMalloc((void **)&d_r, sizeof(double)*lda*rowsA));

    printf("step 4: prepare data on device\n");
    checkCudaErrors(cudaMemcpy(d_A, h_A, sizeof(double)*lda*colsA, cudaMemcpyHostToDevice));
    checkCudaErrors(cudaMemcpy(d_b, h_b, sizeof(double)*lda*rowsA, cudaMemcpyHostToDevice));

    printf("step 5: solve A*x = b \n");
    // d_A and d_b are read-only
    if ( 0 == strcmp(opts.testFunc, "chol") )
    {
        linearSolverCHOL(handle, rowsA, d_A, lda, d_b, d_x);
    }
    else if ( 0 == strcmp(opts.testFunc, "lu") )
    {
        //printf("hi \n");
        linearSolverLU(handle, rowsA, d_A, lda, d_b, d_x);
    }
    else if ( 0 == strcmp(opts.testFunc, "qr") )
    {
        linearSolverQR(handle, rowsA, d_A, lda, d_b, d_x);
    }
    else
    {
        fprintf(stderr, "Error: %s is unknown function\n", opts.testFunc);
        exit(EXIT_FAILURE);
    }
    printf("step 6: evaluate residual\n");
    checkCudaErrors(cudaMemcpy(d_r, d_b, sizeof(double)*lda*rowsA, cudaMemcpyDeviceToDevice));

    // r = b - A*x
    checkCudaErrors(cublasDgemm_v2(
        cublasHandle,
        CUBLAS_OP_N,
        CUBLAS_OP_N,
        rowsA,
        colsA,
        colsA,
        &minus_one,
        d_A,
        lda,
        d_x,
        rowsA,
        &one,
        d_r,
        rowsA));

    checkCudaErrors(cudaMemcpy(h_x, d_x, sizeof(double)*lda*colsA, cudaMemcpyDeviceToHost));
    checkCudaErrors(cudaMemcpy(h_r, d_r, sizeof(double)*lda*rowsA, cudaMemcpyDeviceToHost));

    x_inf = vec_norminf(colsA, h_x);
    r_inf = vec_norminf(rowsA, h_r);
    A_inf = mat_norminf(rowsA, colsA, h_A, lda);


    printf("x[0] = %f\n", h_x[0]);
    printf("r[0] = %f\n", h_r[0]);
    printf("|b - A*x| = %E \n", r_inf);
    printf("|A| = %E \n", A_inf);
    printf("|x| = %E \n", x_inf);
    printf("|b - A*x|/(|A|*|x|) = %E \n", r_inf/(A_inf * x_inf));

    if (handle) { checkCudaErrors(cusolverDnDestroy(handle)); }
    if (cublasHandle) { checkCudaErrors(cublasDestroy(cublasHandle)); }
    if (stream) { checkCudaErrors(cudaStreamDestroy(stream)); }

    if (h_csrValA   ) { free(h_csrValA); }
    if (h_csrRowPtrA) { free(h_csrRowPtrA); }
    if (h_csrColIndA) { free(h_csrColIndA); }

    if (h_A) { free(h_A); }
    if (h_x) { free(h_x); }
    if (h_b) { free(h_b); }
    if (h_r) { free(h_r); }

    if (d_A) { checkCudaErrors(cudaFree(d_A)); }
    if (d_x) { checkCudaErrors(cudaFree(d_x)); }
    if (d_b) { checkCudaErrors(cudaFree(d_b)); }
    if (d_r) { checkCudaErrors(cudaFree(d_r)); }

    return 0;
}

尝试在 GPU 上使用两个或多个并行流（每个流有一个线性系统），这可能有助于利用 GPU 的更大部分。

对于计时测量和硬件利用率，请使用视觉分析器而不是 CPU 时间测量。

另一点是，GTX（消费级）GPU 在双精度上的表现非常糟糕。如果有机会，请尝试使用 Tesla GPU。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

CUDA 可以解决许多“小型/中型”线性系统的相关文章

在 MATLAB 图中用值标记点

以下命令确实用正方形标记了点但没有在其中放入值例如 21 0 X 21 8 2 1 0 Y 0 1 2 3 4 plot X Y k s 我应该添加哪个参数以便全部5点值出现在图上吗这些值不能一一键入因为它们是随机数因此它们可能会
计算给出数组中最小标准差的子集

让我们有一个大小的向量N 例如 x rand N 1 我想计算长度子集的最小标准差K在向量中 When N and K很小很容易找到最好的子集因为我可以使用nchoosek N K 枚举所有可能的子集但是当值N and K比我们说的要
cudaDeviceScheduleBlockingSync 和 cudaDeviceScheduleYield 之间有什么区别？

正如这里所说如何减少 CUDA 同步延迟延迟 https stackoverflow com questions 11953722 how to reduce cuda synchronize latency delay 等待设备结果有
使用网络计算机进行 Matlab 并行处理

我熟悉matlabpool and parfor用法但我仍然需要加快计算速度我的 1GB 网络中有一台功能更强大的计算机两台计算机都有 R2010b 并且具有相同的代码和路径使用两台计算机进行并行计算的最简单方法是什么我今天使用的
MATLAB 问题中的 Parfor

为什么我不能使用parfor在这段代码中 parfor i 1 r for j 1 N r xr j N r i 1 x i r j 1 end end 这是错误错误 parfor 中的变量 xr 无法分类请参阅 MATLAB 中的并行
在 numpy/scipy 中查找 matlab 函数

是否有一个等价的函数find A gt 9 1 来自 numpy scipy 的 matlab 我知道有nonzeronumpy 中的函数但我需要的是第一个索引以便我可以在另一个提取的列中使用第一个索引 Ex A 1 2 3 9 6 4
MATLAB 符号替换

我知道在 MATLAB 中如果声明了 syms x y f x 2 y 2 grad gradient f 然后grad会存储值 2 x 2 y 如果我想评估梯度 2 2 I use subs f x y 2 2 这返回 4 4 我正在编写
MATLAB；具有 2+ 个/分割图例的饼图 R2017b

我正在创建一个饼图理想情况下希望图例水平显示在顶部和或底部然而在几乎所有情况下这是不可能的因为图例超出了数字因此我理想情况下希望将图例分成两个或更多子图例并单独放置它们我知道这不是 MATLAB 中的内置功能我使用的
Google 的 Android OpenGL 教程是否教授了错误的线性代数？

在帮助另一位用户解决有关该问题的问题后响应触摸事件 http developer android com training graphics opengl touch htmlAndroid教程我下载了源代码并且对我所看到的感到非常困惑
如何调整x轴和y轴的大小

如何调整 x 轴和 y 轴的大小我想要什么更具体 3900 60 30 0 60 120 180 3600 我做了什么 a 0 0 1 10000 plot a 我应该写什么才能按预期调整 x 和 y 轴的大小 EDIT 我不想 390
Python 中的 eig(a,b) 给出错误“需要 1 个位置参数，但给出了 2 个”

根据https docs scipy org doc numpy 1 15 0 user numpy for matlab users html https docs scipy org doc numpy 1 15 0 user nump
Bank 在字长方面存在冲突

我读过一些关于共享内存的好文章但我对银行冲突有初步疑问据说如果线程 1 和线程 2 从存储体 0 访问字 0 则不存在存储体冲突但如果他们访问不同的单词就会出现银行冲突但我的问题是不同的单词如何可以驻留在一个银行中由于bank
Matlab 的 fftn 在多线程下变得更慢？

我可以访问 12 核机器和一些严重依赖 fftn 的 matlab 代码我想加快我的代码速度由于 fft 可以并行化我认为更多的内核会有所帮助但我看到的恰恰相反这是一个例子 X peaks 1028 ncores feature
为什么 cuCtxCreate 返回旧上下文？

我已经安装了 CUDA SDK 4 2 64 CUDA工具包4 2 64 CUDA 驱动程序 4 2 64 我检查了 windows 中的每个 nvcuda dll 所有这些都是 4 2 版本但是当我使用驱动程序 api 创建上下文并使用
如何在 MATLAB 中为 4 个子图创建一个通用图例？

如何在 MATLAB 中为 4 个子图创建一个通用图例如下所示又快又脏 hSub subplot 3 1 1 plot 1 1 1 1 1 1 1 1 hLegend legend hello i am legend subplot 3
MATLAB 中的内存映射文件？

我决定使用 memmapfile 因为我的数据通常为 30Gb 到 60Gb 太大无法放入计算机内存中我的数据文件由两列数据组成对应于两个传感器的输出并且它们采用 bin 和 txt 格式 m memmapfile G E Str
如何使用 MATLAB 的“等值面”函数创建三角球体

如何创建一个三角球体其中每个三角形的面面积相同我想要这样的东西 http imageshack us a img198 5041 71183923 png http imageshack us a img198 5041 7118392
如何在 MATLAB 的 for 循环中读取多个图像？

我已将结果分段放在一个文件夹中这些需要在 for 循环中读取并在循环中进一步处理我尝试阅读如下 for i 1 10 file name dir strcat C Users adminp Desktop dinosaurs im im
覆盖 MATLAB 默认静态 javaclasspath 的最佳方法

MATLAB 配置为在搜索用户可修改的动态路径之前搜索其静态 java 类路径不幸的是静态路径包含相当多非常旧的公共库因此如果您尝试使用新版本您可能最终会加载错误的实现并出现错误例如静态路径包含 google collectio
Matlab 中是否有相当于 R 的 dput() 的函数？

Matlab 中是否有相当于 R 的 dput 的函数 dput 将 R 对象的 ASCII 文本表示形式写入文件或连接 UPDATE 1 添加了递归和对单元格的支持 UPDATE 2 添加了对结构的支持 UPDATE 3 增加了对逻辑整

随机推荐

g++ 的 json-spirit 链接器标志是什么？

我在任何地方都找不到这个我已经在我的 ubuntu 服务器上安装了 json spiritapt get install json spirit dev 必须与什么链接器标志一起使用g 使用 json spirit 唯一的图书馆列在该包中
WebLogic 的 JavaEE API

有不同的服务器特定 JavaEE API 实现例如 glassfish javaee 或 jboss javaee 它们作为单独的 jar 文件分发并且可以使用 Maven 依赖项附加到某些项目有没有专门为WebLogic AS设计的
UDP 数据包未被 Wireshark 捕获，但被 UDP 应用程序捕获

我有一个设计并运行的应用程序它在端口上接收 UDP 广播该应用程序一直工作得很好但我想将应用程序收到的数据包与 Wireshark 捕获进行比较我试图确保以最小的数据丢失捕获尽可能多的数据包我最初认为我应该运行 Wireshark
使用 GraphicsServices.h/GSEvent 以及使用 Xcode 编译 CLI iPhone 工具

我将其发送给 KennyTM 在 GitHub 上有所有私有框架标头但我想我也会在这里问以防万一有人有一些好的想法或任何方法来帮助我我正在尝试编写一个命令行实用程序它发送 GSEvents 来操作键盘触摸拖动屏幕上的元素以及操作
即使使用 CREATE 表授予，立即执行也会失败

我在使用存储过程中的立即执行命令创建表时遇到问题但是我收到权限不足的错误我检查了其他线程并确保用户具有授予它的 CREATE TABLE 权限但是我仍然看到同样的错误 SQL gt select from USER SYS PRI
WooCommerce Cart - 动态价格变量传递到自定义价格挂钩

我在变量中获取动态自定义价格我想将其传递给中的挂钩函数woocommerce before calculate totals钩在购物车中但它不起作用这是我的代码 add 200 I want to pass this variable
java.lang.NullPointerException：尝试调用虚拟方法“com.google.firebase.database”

我正在尝试从 Firebase 数据库将数据检索到 RecyclerView 中但遇到此错误 java lang NullPointerException 尝试调用虚拟方法 com google firebase database Dat
Web 服务与类文件 - 性能

我试图找出执行此操作的最佳方法我正在开发一个项目并将所有数据访问层代码放入 ASMX 文件中以使它们与我的表示层分开我从后台代码调用所有方法并使用类文件等 Web 服务我根据另一位开发人员的工作遵循这一做法到目前为止对此有两种
如何在类声明之外定义 sfinae 类的成员？

阅读完诸如此类的问题后sfinae 位于类体外部定义的成员函数这不是同一个问题另外当使用 SFINAE 方法仅启用算术类型的类时我仍然没有找到在类声明之外定义成员函数体的好方法 include
Swift 3 隐式解包选项导致错误的字符串插值

Why are 隐式解包选项在 Swift 3 中使用字符串插值时未解包 Example 在 Playground 中运行以下代码 var str String str Hello print The following should no
用facet对y轴进行排序

我有这个数据框 library dplyr dat data frame parent c J J F F group c A 4 C 3 A 4 D 5 value c 1 2 3 4 count c 4 3 4 5 dat gt arr
IE 8 支持 JSON.stringify() 吗？

我需要使用 JSON stringify Chrome Safari 和 Firefox 应该支持我认为IE8也支持JSON对象我认为 IE7 和 6 没有所以我这样做所以我认为只有 IE6 和 7 才会导入外部 JavaScri
Mercurial自动更新问题

我们开始使用 Mercurial 进行源代码控制我们已将 HGRC 配置文件配置为在推送到中央存储库后自动更新对于某些 PC 我们会收到以下错误消息 warning changegroup hook exited with stat
Magento 自定义模块，致命错误：调用成员函数 setFormAction()

当我点击这个 url 上的模块时http localhost xxx index php TradeEnquiry我收到这个错误致命错误调用成员函数 setFormAction 对非对象进行 C wamp www stockdispla
从 CSV Import 更新现有的 Access 记录，原生于 MS Access 或 VB.NET

我是我所在组织的票务系统的应用程序管理员我们正在添加一个新客户需要将他们的客户记录导入到我们的系统中然而我们被拒绝从直接数据库连接中简单地获取这些记录我们仅限于进入他们的票务系统并将现有记录导出到 CSV 文件为了在我们的系统
如何（准确）估计剩余下载时间？

当然您可以将剩余文件大小除以当前下载速度但如果您的下载速度波动而且它会波动这不会产生非常好的结果有什么更好的算法可以产生更平滑的倒计时 An 指数移动平均线非常适合这个它提供了一种平滑平均值的方法以便每次添加新样本时旧样本对
Java 8 原始流到集合的映射方法

这两种流创建方法之间是否存在显着差异在性能或最佳实践方面 int arr2 1 2 3 4 5 6 Arrays stream arr2 map in gt in 2 mapToObj in gt new Integer in colle
“原始字符串正则表达式”到底是什么以及如何使用它？

来自 python 文档regex 关于特点解决方案是使用 Python 的原始字符串表示法来表示正则表达模式反斜杠不会以任何特殊方式处理前缀为的字符串文字 r So r n 是一个两个字符的字符串含有 and n while
p:graphicImage 的替代方案，它可以显示来自 byte[] 的图像并控制浏览器缓存

似乎有一个错误p graphicimage使用更新功能时通过加载一张图像value myController myStreamedContent 有效但是当改变时myController myStreamedContent随后更新p g
CUDA 可以解决许多“小型/中型”线性系统

关于我尝试使用 CUDA 加速的问题的一些背景信息我有大量小型中型相同尺寸的线性系统需要独立求解每个线性系统都是方形的实数的稠密的可逆的和非对称的这些实际上是矩阵系统因此每个系统看起来都像 AX B 其中 A X 和 B 是

CUDA 可以解决许多“小型/中型”线性系统

CUDA 可以解决许多“小型/中型”线性系统 的相关文章

随机推荐

热门标签

CUDA 可以解决许多“小型/中型”线性系统的相关文章