首先,请记住#include <regex>
.
C++ std::regex_match
与其他语言中的正则表达式一样工作。
让我们从一个简单的例子开始:
std::string str = "Mem(100)=120";
std::regex regex("^Mem\\([0-9]+\\)=[0-9]+$");
std::cout << std::regex_match(str, regex) << std::endl;
在这种情况下,我们的正则表达式是^Mem\([0-9]+\)=[0-9]+$
。
让我们看看它做了什么:
- The
^
开头告诉 C++ 这是该行的开始位置,所以AMem(1)=2
不应该匹配。
- The
$
最后告诉 C++ 这是该行结束的地方,所以Mem(1)=2x
不应该匹配。
-
\\(
是一个字面意思(
特点。(
在正则表达式中具有非常特殊的含义,因此我们对其进行转义\(
。但是,那\
字符在 C++ 字符串中具有特殊含义,因此我们使用\\(
告诉 C++ 通过\(
到正则表达式引擎。
-
[0-9]
匹配一个数字。\\d
应该也有效,但是那么也许不是 https://stackoverflow.com/questions/6479423/does-d-in-regex-mean-a-digit.
-
[0-9]+
means 最后一个数字。如果Mem()
是可以接受的,然后使用[0-9]*
反而。
正如您所看到的,这就像您在其他语言(例如 Java 或 C# )中找到的正则表达式一样。
现在,要考虑空白,请使用std::regex regex("^\\s*Mem\\([0-9]+\\)\\s*=\\s*[0-9]+\\s*$");
注意\s
包括\t
,因此无需同时指定两者。如果没有,你会使用(\s|\t)
or [\s\t]
, not (\s,\t)
.
最后,要包含浮点数,我们首先需要考虑是否Mem(1) = 1.
(即后面没有数字的点)是可以接受的。
如果不是,那么.23
in 1.23
is optional。在正则表达式中,我们使用?
来表明这一点。
std::regex regex("^[\\s]*Mem\\([0-9]+\\)\\s*=\\s*[0-9]+(\\.[0-9]+)?\\s*$");
请注意,我们使用\.
而不仅仅是.
. .
在正则表达式中具有特殊含义 - 它匹配任何字符 - 因此我们需要对其进行转义。
如果您有支持原始字符串的编译器(例如视觉工作室2013 http://msdn.microsoft.com/en-us/library/vstudio/hh567368%28v=vs.120%29.aspx, GCC 4.5 http://gcc.gnu.org/projects/cxx0x.html, 铿锵3.0 http://clang.llvm.org/cxx_status.html),您可以简化正则表达式字符串:
std::regex regex(R"(^[\s]*Mem\([0-9]+\)\s*=\s*[0-9]+(\.[0-9]+)?\s*$)")
要提取有关匹配字符串的信息,您可以使用std::smatch
and groups.
让我们从一个小改变开始:
std::string str = " Mem(100)=120";
std::regex regex("^[\\s]*Mem\\(([0-9]+)\\)\\s*=\\s*([0-9]+(\\.[0-9]+)?)\\s*$");
std::smatch m;
std::cout << std::regex_match(str, m, regex) << std::endl;
注意三件事:
- 我们添加了
smatch
。此类存储有关比赛的额外结果信息。
- 我们在周围添加了额外的括号
[0-9]*
。这定义了一个组。组告诉正则表达式引擎跟踪其中的任何内容。
- 浮点数周围还有更多括号。这定义了第二组。
非常重要的是定义组的括号不会被转义因为我们不希望它们匹配实际的括号字符。我们实际上想要特殊的正则表达式含义。
现在我们有了组,我们可以使用它们:
for (auto result : m) {
std::cout << result << std::endl;
}
这将首先打印整个字符串,然后打印数字Mem()
,然后是最终数字。
换句话说,m[0]
给我们整场比赛,m[1]
给我们第一组,m[2]
给我们第二组m[3]
如果我们有的话,会给我们第三组。