如何捕获C++正则表达式中的0-2组并打印它们？

2024-03-16

Edit 3

当我陷入正则表达式困境时，我采用了 good'ol 自定义解析方法。事实证明这并没有那么糟糕，因为文件内容可以非常整齐地标记，并且可以使用以下命令在循环中解析标记very简单的状态机。对于那些想要检查的人，在我在 Stackoverflow 中的另一个问题中，有一段代码使用 range-for、ifstream 迭代器和自定义流标记生成器来执行此操作here https://stackoverflow.com/questions/11282437/why-doesnt-range-for-find-my-overloads-of-begin-and-end-for-stdistream-iterat。这些技术大大降低了定制解析器的复杂性。

我想在两个捕获组的第一部分中标记文件内容，然后逐行标记。我想要一个半功能性的解决方案，但我想学习如何让它变得更好。也就是说，没有“额外的处理”来弥补我对捕获组知识的缺乏。接下来是一些预备知识，最后是一个更精确的问题（行

const std::regex expression("([^:]+?)(^:|$)");

...是我想结合处理其结果来询问的问题）。

这些文件基本上定义如下：

definition_literal : value_literal
definition_literal : value_literal
definition_literal : value_literal
definition_literal : value_literal
HOW TO INTERPRET THE FOLLOWING SECTION OF ROWS
[DATA ROW 1]
[DATA ROW 2]
...
[DATA ROW n]

其中每个数据行由一定数量的整数或浮点数组成，并用空格分隔。每行的数字与其他行的数字一样多（例如，每行可以有四个整数）。所以，“解释部分”基本上是在一行中以纯文本形式讲述这种格式。

我有一个几乎可以工作的解决方案，可以读取这样的文件：

int main() 
{
    std::ifstream file("xyz", std::ios_base::in);
    if(file.good())
    {
        std::stringstream file_memory_buffer;
        file_memory_buffer << file.rdbuf();
        std::string str = file_memory_buffer.str(); 
        file.close();

        const std::regex expression("([^:]+?)(^:|$)");
        std::smatch result;

        const std::sregex_token_iterator end;       
        for(std::sregex_token_iterator i(str.begin(), str.end(), expression); i != end; ++i)
        {
            std::cout << (*i) << std::endl;
        }
    }

    return EXIT_SUCCESS;
}

随着正则表达式的定义expression，它现在打印<value>定义文件的部分，然后是解释部分，然后是逐行的数据行。如果我将正则表达式更改为

"([^:]+?)(:|$)"

...它打印以一组为一组标记的所有行，几乎就像我想要的那样，但是如何以两组为一组标记第一部分，然后逐行标记其余部分？

任何指针、代码、解释都受到真正的欢迎。谢谢。

EDIT:

正如所指出的Tom Kerr已经，但还有一些额外的要点，这也是一个排练，或者如果你愿意的话，也可以编码 kata，不是为了编写自定义解析器，而是看看我是否可以 - 或者我们可以:-) - 使用正则表达式来完成此任务。我知道正则表达式不是这里最有效的方法，但这并不重要。

我希望拥有的是类似于标题信息元组列表（大小为 2 的元组），然后是 INTERPRET 行（大小为 1 的元组），我可以用它来选择一个关于如何处理数据的函数行（大小为 1 的元组）。

是的，“如何解释”行包含在一组定义明确的字符串中，我可以从头开始逐行读取，一路分割字符串，直到遇到解释行之一。我知道，这个正则表达式解决方案不是最有效的方法，而更像是编写 kata 代码，让自己编写除客户解析器之外的其他内容（我上次用 C++ 编写已经花了相当长的时间，所以这也是在排练））。

EDIT 2

我已经设法通过更改迭代器类型来访问元组（在这个问题的上下文中），如下所示

const std::sregex_iterator end;     
for(std::sregex_iterator i(str.begin(), str.end(), expression); i != end; ++i)
{
    std::cout << "0: " << (*i)[0] << std::endl;
    std::cout << "1: " << (*i)[1] << std::endl;
    std::cout << "2: " << (*i)[2] << std::endl;
    std::cout << "***" << std::endl;
}

尽管这距离我想要的还很远，但我尝试使用的正则表达式有问题。无论如何，这个新发现，另一种迭代器，也有帮助。

我相信您正在尝试的是：

TEST(re) {
    static const boost::regex re("^([^:]+) : ([^:]+)$");

    std::string str = "a : b";
    CHECK(boost::regex_match(str, re));
    CHECK(!boost::regex_match("a:a : bbb", re));
    CHECK(!boost::regex_match("aaa : b:b", re));

    boost::smatch what;
    CHECK(boost::regex_match(str, what, re, boost::match_extra));
    CHECK_EQUAL(3, what.size());
    CHECK_EQUAL(str, what[0]);
    CHECK_EQUAL("a", what[1]);
    CHECK_EQUAL("b", what[2]);
}

但我不确定在这种情况下我会推荐正则表达式。我想你会发现一次只读一行，然后继续阅读:，然后修剪空间使其更易于管理。

我想如果你不能依赖下面的行作为哨兵，那么事情会更困难。通常我希望这样的格式从该行中显而易见，而不是标题的每一行的格式。

HOW TO INTERPRET THE FOLLOWING SECTION OF ROWS

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)