C++ 中的 Char* 与 String Speed

2024-03-08

我有一个 C++ 程序，它将从二进制文件中读取数据，最初我将数据存储在std::vector<char*> data。我更改了代码，现在使用字符串而不是 char*，这样std::vector<std::string> data。我必须做出的一些改变是从strcmp to compare例如。

然而我发现我的执行时间急剧增加。对于示例文件，当我使用 char* 时，需要 0.38 秒，转换为字符串后，在我的 Linux 机器上需要 1.72 秒。我在我的 Windows 机器上观察到类似的问题，执行时间从 0.59 秒增加到 1.05 秒。

我相信这个功能导致速度变慢。它是转换器类的一部分，请注意用_在变量名的末尾。我显然在这里遇到了内存问题，并且陷入了 C 和 C++ 代码之间。我希望这是 C++ 代码，所以我更新了底部的代码。

我访问ids_ and names_在另一个函数中也多次出现，因此访问速度非常重要。通过使用创建map我已经能够使用更稳定的 C++ 代码实现更快的速度，而不是两个单独的向量。谢谢大家！

示例 NewList.Txt

2515    ABC 23.5    32  -99 1875.7  1  
1676    XYZ 12.5    31  -97 530.82  2  
279  FOO 45.5    31  -96  530.8  3

旧代码：

void converter::updateNewList(){
    FILE* NewList;
    char lineBuffer[100];
    char* id = 0;
    char* name = 0;

    int l = 0;
    int n;

    NewList = fopen("NewList.txt","r");
    if (NewList == NULL){
        std::cerr << "Error in reading NewList.txt\n";
        exit(EXIT_FAILURE);
    } 

    while(!feof(NewList)){
        fgets (lineBuffer , 100 , NewList); // Read line    
        l = 0;
        while (!isspace(lineBuffer[l])){
            l = l + 1;
        }

        id = new char[l];
        switch (l){
            case 1: 
                n = sprintf (id, "%c", lineBuffer[0]);
                break;
            case 2:
                n = sprintf (id, "%c%c", lineBuffer[0], lineBuffer[1]);
                break;
            case 3:
                n = sprintf (id, "%c%c%c", lineBuffer[0], lineBuffer[1], lineBuffer[2]);        
                break;
            case 4:
                n = sprintf (id, "%c%c%c%c", lineBuffer[0], lineBuffer[1], lineBuffer[2],lineBuffer[3]);
                break;
            default:
                n = -1;
                break;
        }
        if (n < 0){
            std::cerr << "Error in processing ids from NewList.txt\n";
            exit(EXIT_FAILURE);
        }

        l = l + 1;
        int s = l;
        while (!isspace(lineBuffer[l])){
            l = l + 1;
        }
        name = new char[l-s];
        switch (l-s){
            case 2:
                n = sprintf (name, "%c%c", lineBuffer[s+0], lineBuffer[s+1]);
                break;
            case 3:
                n = sprintf (name, "%c%c%c", lineBuffer[s+0], lineBuffer[s+1], lineBuffer[s+2]);
                break;
            case 4:
                n = sprintf (name, "%c%c%c%c", lineBuffer[s+0], lineBuffer[s+1], lineBuffer[s+2],lineBuffer[s+3]);
                break;
            default:
                n = -1;
                break;
        }
        if (n < 0){
            std::cerr << "Error in processing short name from NewList.txt\n";
            exit(EXIT_FAILURE);
        }


        ids_.push_back ( std::string(id) );
        names_.push_back(std::string(name));
    }

    bool isFound = false;
    for (unsigned int i = 0; i < siteNames_.size(); i ++) {
        isFound = false;
        for (unsigned int j = 0; j < names_.size(); j ++) {
            if (siteNames_[i].compare(names_[j]) == 0){
                isFound = true;
            }
        }
    }

    fclose(NewList);
    delete [] id;
    delete [] name;
}

C++ CODE

void converter::updateNewList(){
    std::ifstream NewList ("NewList.txt");

    while(NewList.good()){
        unsigned int id (0);
        std::string name;

        // get the ID and name
        NewList >> id >> name;

        // ignore the rest of the line
        NewList.ignore( std::numeric_limits<std::streamsize>::max(), '\n');

        info_.insert(std::pair<std::string, unsigned int>(name,id));

    }

    NewList.close();
}

更新：跟进问题：比较字符串的瓶颈 https://stackoverflow.com/q/3992548/363829并感谢您提供的非常有用的帮助！以后我不会再犯这些错误了！

我猜它应该与向量的性能相关

关于向量

A std::vector http://www.cplusplus.com/reference/stl/vector/与内部连续数组一起工作，这意味着一旦数组满了，它需要创建另一个更大的数组，并逐个复制字符串，这意味着复制构造和具有相同内容的字符串的破坏，这是适得其反的...

为了轻松确认这一点，然后使用std::vector<std::string *>并查看性能是否有差异。

如果是这种情况，您可以执行以下四件事之一：

如果您知道（或知道）向量的最终大小，请使用它的方法reserve() http://www.cplusplus.com/reference/stl/vector/reserve/在内部数组中保留足够的空间，以避免无用的重新分配。
use a std::deque http://www.cplusplus.com/reference/stl/deque/，它的工作原理几乎像一个向量
use a std::list http://www.cplusplus.com/reference/stl/list/（这不会让您随机访问其项目）
使用 std::vector

关于字符串

注意：我假设您的 strings\char * 创建一次，并且未修改（通过 realloc、追加等）。

如果以上想法还不够，那么......

字符串对象内部缓冲区的分配类似于a的mallocchar *，因此您应该看到两者之间几乎没有差异。

现在，如果你的char *是真实的char[SOME_CONSTANT_SIZE]，那么你就避免了 malloc （因此，会比 std::string 更快）。

Edit

阅读更新后的代码后，我发现以下问题。

如果 ids_ 和 names_ 是向量，并且您对行数有丝毫了解，那么您应该使用reserve()关于ids_和names_
考虑制作ids_和names_双端队列，或列表。
faaNames_ 应该是 std::map，甚至是 std::unordered_map （或者编译器上的任何 hash_map）。您当前的搜索是两个 for 循环，这是相当昂贵且低效的。
在比较字符串的内容之前，请考虑比较字符串的长度。在 C++ 中，字符串的长度（即 std::string::length()）是零成本操作）
现在，我不知道你在用 isFound 变量做什么，但如果你只需要找到一个真正的相等，那么我想你应该研究算法（我不知道是否已经有一个，请参阅http://www.cplusplus.com/reference/algorithm/ http://www.cplusplus.com/reference/algorithm/），但我相信只要思考一下，这种搜索就会变得更加有效。

其他的建议：

忘记使用int用于 STL 格式的尺寸和长度。至少，使用size_t。在 64 位中，size_t 将变为 64 位，而 int 将保持 32 位，因此您的代码尚未准备好 64 位（另一方面，我看到很少有传入 8 个 Go 字符串的情况......但仍然，最好是正确的...）

Edit 2

这两种（所谓的 C 和 C++）代码是不同的。 “C 代码”要求 ids 和名称的长度小于 5，否则程序存在错误。 “C++代码”没有这样的限制。尽管如此，如果您确认名称和 id 始终少于 5 个字符，则此限制仍然是大规模优化的基础。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)