Edit 3
当我陷入正则表达式困境时,我采用了 good'ol 自定义解析方法。事实证明这并没有那么糟糕,因为文件内容可以非常整齐地标记,并且可以使用以下命令在循环中解析标记very简单的状态机。对于那些想要检查的人,在我在 Stackoverflow 中的另一个问题中,有一段代码使用 range-for、ifstream 迭代器和自定义流标记生成器来执行此操作here https://stackoverflow.com/questions/11282437/why-doesnt-range-for-find-my-overloads-of-begin-and-end-for-stdistream-iterat。这些技术大大降低了定制解析器的复杂性。
我想在两个捕获组的第一部分中标记文件内容,然后逐行标记。我想要一个半功能性的解决方案,但我想学习如何让它变得更好。也就是说,没有“额外的处理”来弥补我对捕获组知识的缺乏。接下来是一些预备知识,最后是一个更精确的问题(行
const std::regex expression("([^:]+?)(^:|$)");
...是我想结合处理其结果来询问的问题)。
这些文件基本上定义如下:
definition_literal : value_literal
definition_literal : value_literal
definition_literal : value_literal
definition_literal : value_literal
HOW TO INTERPRET THE FOLLOWING SECTION OF ROWS
[DATA ROW 1]
[DATA ROW 2]
...
[DATA ROW n]
其中每个数据行由一定数量的整数或浮点数组成,并用空格分隔。每行的数字与其他行的数字一样多(例如,每行可以有四个整数)。所以,“解释部分”基本上是在一行中以纯文本形式讲述这种格式。
我有一个几乎可以工作的解决方案,可以读取这样的文件:
int main()
{
std::ifstream file("xyz", std::ios_base::in);
if(file.good())
{
std::stringstream file_memory_buffer;
file_memory_buffer << file.rdbuf();
std::string str = file_memory_buffer.str();
file.close();
const std::regex expression("([^:]+?)(^:|$)");
std::smatch result;
const std::sregex_token_iterator end;
for(std::sregex_token_iterator i(str.begin(), str.end(), expression); i != end; ++i)
{
std::cout << (*i) << std::endl;
}
}
return EXIT_SUCCESS;
}
随着正则表达式的定义expression
,它现在打印<value>
定义文件的部分,然后是解释部分,然后是逐行的数据行。如果我将正则表达式更改为
"([^:]+?)(:|$)"
...它打印以一组为一组标记的所有行,几乎就像我想要的那样,但是如何以两组为一组标记第一部分,然后逐行标记其余部分?
任何指针、代码、解释都受到真正的欢迎。谢谢。
EDIT:
正如所指出的Tom Kerr已经,但还有一些额外的要点,这也是一个排练,或者如果你愿意的话,也可以编码 kata,不是为了编写自定义解析器,而是看看我是否可以 - 或者我们可以:-) - 使用正则表达式来完成此任务。我知道正则表达式不是这里最有效的方法,但这并不重要。
我希望拥有的是类似于标题信息元组列表(大小为 2 的元组),然后是 INTERPRET 行(大小为 1 的元组),我可以用它来选择一个关于如何处理数据的函数行(大小为 1 的元组)。
是的,“如何解释”行包含在一组定义明确的字符串中,我可以从头开始逐行读取,一路分割字符串,直到遇到解释行之一。我知道,这个正则表达式解决方案不是最有效的方法,而更像是编写 kata 代码,让自己编写除客户解析器之外的其他内容(我上次用 C++ 编写已经花了相当长的时间,所以这也是在排练) )。
EDIT 2
我已经设法通过更改迭代器类型来访问元组(在这个问题的上下文中),如下所示
const std::sregex_iterator end;
for(std::sregex_iterator i(str.begin(), str.end(), expression); i != end; ++i)
{
std::cout << "0: " << (*i)[0] << std::endl;
std::cout << "1: " << (*i)[1] << std::endl;
std::cout << "2: " << (*i)[2] << std::endl;
std::cout << "***" << std::endl;
}
尽管这距离我想要的还很远,但我尝试使用的正则表达式有问题。无论如何,这个新发现,另一种迭代器,也有帮助。