我正在为 IMAP 协议编写一个词法分析器,用于教育目的,但我很困惑应该在词法分析器和解析器之间划清界限。以 IMAP 服务器响应为例:
* FLAGS (\Answered \Deleted)
该响应的正式语法定义如下:
mailbox-data = "FLAGS" SP flag-list
flag-list = "(" [flag *(SP flag)] ")"
flag = "\Answered" / "\Deleted"
由于它们被指定为字符串文字(又名“终端”标记),因此词法分析器发出独特的代币对于每个,例如:
(TknAnsweredFlag)
(TknSpace)
(TknDeletedFlag)
或者发出这样的东西也同样正确:
(TknBackSlash)
(TknString "Answered")
(TknSpace)
(TknBackSlash)
(TknString "Deleted")
我的困惑是,前一种方法可能会使词法分析器过于复杂 - 如果\Answered
在两个不同的上下文中有两种含义,词法分析器不会发出正确的标记。作为一个人为的示例(这种情况不会发生,因为电子邮件地址用引号引起来),词法分析器将如何处理像 \ 这样的电子邮件地址[电子邮件受保护] /cdn-cgi/l/email-protection?或者正式语法的设计是否不允许出现这种歧义?
作为一般规则,您不希望词汇语法传播到语法中,因为它只是细节。例如,像 C 这样的计算机编程语言的词法分析器肯定会识别数字,但生成 HEXNUMBER 和 DECIMALNUMBER 标记通常是不合适的,因为这对语法来说并不重要。
我认为你想要的是最抽象的令牌,让你grammar区分与您的目的相关的感兴趣的案例。你可以通过语法的一个部分引起的混乱以及你在其他部分可能做出的选择来调解这一问题。
如果您的目标只是读取过去的标志值,那么实际上您不需要区分它们,并且没有关联内容的 TknFlag 就足够了。
如果您的目标是单独处理标志值,您需要知道是否收到“已回答”和/或“已删除”指示。它们的词汇拼写方式无关紧要;所以我会选择你的 TknAnsweredFlag 解决方案。我会转储 TknSpace,因为在任何标志序列中,都必须有中间空格(您的规范是这么说的),所以我会尝试消除使用词法分析器提供的任何空白抑制机制。
有时,我会遇到有几十个类似旗帜的东西的情况。如果每个语法都有一个标记,那么你的语法就会开始变得混乱。如果语法不需要知道特定的标志,那么您应该有一个带有关联字符串值的 TknFlag。如果语法需要一小部分标志来区分,但大多数都不需要,那么您应该妥协:为那些对语法重要的标志使用单独的标记,并为其余部分使用捕获所有带有关联字符串的 TknFlag 。
关于有两种不同解释的困难:这是这些权衡之一。如果您遇到这个问题,那么您的标记要么需要在语法中需要的两个地方都有足够详细的细节,以便您可以区分。如果“\”作为语法中其他地方的标记相关,那么您当然可以生成 TknBackSlash 和 TknAnswered。但是,如果语法的某个部分处理某些内容的方式与另一部分不同,您通常可以使用模式驱动的词法分析器来解决这个问题。将模式视为有限状态机,每个模式都有一个关联的(子)词法分析器。模式之间的转换由作为提示的标记触发(您必须有一个 FLAGS 标记;正是这样的提示,您将要选取标记值)。在某种模式下,你可以产生其他模式不会产生的代币;因此,在一种模式下,您可能会生成“\”标记,但在标志模式下则不需要。模式支持在词法分析器中非常常见,因为这个问题比您想象的更常见。有关示例,请参阅 Flex 文档。
您提出这个问题的事实表明您正在做出正确的选择。您需要平衡最小化标记的可维护性目标(从技术上讲,您可以使用标记来解析所有 ASCII 字符!)和充分区分您的需求的基本要求。在构建了十几个语法之后,这种权衡似乎很容易,但我认为我提供的经验法则非常好。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)