我应该在哪里划清词法分析器和解析器之间的界限？

2024-05-05

我正在为 IMAP 协议编写一个词法分析器，用于教育目的，但我很困惑应该在词法分析器和解析器之间划清界限。以 IMAP 服务器响应为例：

* FLAGS (\Answered \Deleted)

该响应的正式语法定义如下：

mailbox-data   = "FLAGS" SP flag-list
flag-list      = "(" [flag *(SP flag)] ")"
flag           = "\Answered" / "\Deleted"

由于它们被指定为字符串文字（又名“终端”标记），因此词法分析器发出独特的代币对于每个，例如：

(TknAnsweredFlag)
(TknSpace)
(TknDeletedFlag)

或者发出这样的东西也同样正确：

(TknBackSlash)
(TknString "Answered")
(TknSpace)
(TknBackSlash)
(TknString "Deleted")

我的困惑是，前一种方法可能会使词法分析器过于复杂 - 如果\Answered在两个不同的上下文中有两种含义，词法分析器不会发出正确的标记。作为一个人为的示例（这种情况不会发生，因为电子邮件地址用引号引起来），词法分析器将如何处理像 \ 这样的电子邮件地址[电子邮件受保护] /cdn-cgi/l/email-protection？或者正式语法的设计是否不允许出现这种歧义？

作为一般规则，您不希望词汇语法传播到语法中，因为它只是细节。例如，像 C 这样的计算机编程语言的词法分析器肯定会识别数字，但生成 HEXNUMBER 和 DECIMALNUMBER 标记通常是不合适的，因为这对语法来说并不重要。

我认为你想要的是最抽象的令牌，让你grammar区分与您的目的相关的感兴趣的案例。你可以通过语法的一个部分引起的混乱以及你在其他部分可能做出的选择来调解这一问题。

如果您的目标只是读取过去的标志值，那么实际上您不需要区分它们，并且没有关联内容的 TknFlag 就足够了。

如果您的目标是单独处理标志值，您需要知道是否收到“已回答”和/或“已删除”指示。它们的词汇拼写方式无关紧要；所以我会选择你的 TknAnsweredFlag 解决方案。我会转储 TknSpace，因为在任何标志序列中，都必须有中间空格（您的规范是这么说的），所以我会尝试消除使用词法分析器提供的任何空白抑制机制。

有时，我会遇到有几十个类似旗帜的东西的情况。如果每个语法都有一个标记，那么你的语法就会开始变得混乱。如果语法不需要知道特定的标志，那么您应该有一个带有关联字符串值的 TknFlag。如果语法需要一小部分标志来区分，但大多数都不需要，那么您应该妥协：为那些对语法重要的标志使用单独的标记，并为其余部分使用捕获所有带有关联字符串的 TknFlag 。

关于有两种不同解释的困难：这是这些权衡之一。如果您遇到这个问题，那么您的标记要么需要在语法中需要的两个地方都有足够详细的细节，以便您可以区分。如果“\”作为语法中其他地方的标记相关，那么您当然可以生成 TknBackSlash 和 TknAnswered。但是，如果语法的某个部分处理某些内容的方式与另一部分不同，您通常可以使用模式驱动的词法分析器来解决这个问题。将模式视为有限状态机，每个模式都有一个关联的（子）词法分析器。模式之间的转换由作为提示的标记触发（您必须有一个 FLAGS 标记；正是这样的提示，您将要选取标记值）。在某种模式下，你可以产生其他模式不会产生的代币；因此，在一种模式下，您可能会生成“\”标记，但在标志模式下则不需要。模式支持在词法分析器中非常常见，因为这个问题比您想象的更常见。有关示例，请参阅 Flex 文档。

您提出这个问题的事实表明您正在做出正确的选择。您需要平衡最小化标记的可维护性目标（从技术上讲，您可以使用标记来解析所有 ASCII 字符！）和充分区分您的需求的基本要求。在构建了十几个语法之后，这种权衡似乎很容易，但我认为我提供的经验法则非常好。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

我应该在哪里划清词法分析器和解析器之间的界限？的相关文章

Matlab 的快速 JSON 解析器

您知道 Matlab 中有一个非常快速的 JSON 解析器吗目前我正在使用JSONlab http www mathworks com matlabcentral fileexchange 33381 jsonlab a toolbox
关于Java中trim()方法的查询

我之前提出了一个问题但遭到了严厉的批评所以我在这里再次提出更简单并重新措辞以吸引那些可能担心我之前提出问题的方式的人背景我正在解析一些 HTML 以获取信息我将所有内容隔离在一系列行中但我希望抓取的内容以及后面的一堆空格为
VBA COM 库中的这些 _B_var_Xxxxx 和 _B_str_Xxxxx 成员到底是什么？

想象一下以下函数调用 foo UCase bar 我正在解析这段代码并确定UCase是一个函数调用现在我想将该函数调用解析为定义它的 COM 库中函数的声明这个想法是实现一个代码检查来确定何时Variant当使用内置函数时String
C# 中的 DateTime.Parse 抛出异常

我不知道为什么抛出异常这是工作代码 DateTime Parse 1 12 2012 12 00 00 AM 这是抛出异常的一个 DateTime Parse 1 13 2012 12 00 00 AM 抛出的异常是格式异常包括此消息
包含可变数据的正则表达式 - ply.lex

我正在使用 python 模块ply lex编写一个词法分析器我用正则表达式指定了一些标记但现在我卡住了我有一个list of Keywords谁应该是token data是一个包含大约 1000 个关键字的列表这些关键字都应该被识
VBA：访问 JSON

我正在处理 VBA 投影但不确定如何访问此 JSON 中的 id 应该将 players 设置为什么才能在循环中获取 id 我已经用更多代码更新了问题 JSON event games players id 182759 Code Pri
在 ANTLR4 中如何检查行的第一个字符是否为“*”？

我正在尝试为一种相对简单但特殊的语言编写一个解析器简单地说规则之一是注释行用星号表示only如果该星号是该行的第一个字符我如何在 ANTLR4 中正式化这样的规则我考虑过使用 START LINE COMMENT n n gt sk
自动解析 PHP，将 PHP 代码与 HTML 分离

我正在开发一个大型 PHP 代码库我想将 PHP 代码与 HTML 和 JavaScript 分开我需要对 PHP 代码进行多次自动搜索和替换对 HTML 进行不同的搜索和替换对 JS 进行不同的自动搜索和替换有没有一个好的解析器
csv格式是常规语法还是上下文无关语法？

我目前正在编写一个 csv 解析器 csv 格式的定义由下式给出RFC4180 https www rfc editor org rfc rfc4180这是由 ABNF 定义的所以csv的定义绝对是上下文无关语法不过我想知道csv是否是
java数据结构模拟数据树

我需要帮助定义使用什么方法我有一个 SOAP 响应给我一个 xml 文件我需要在屏幕上显示 3 个相关列表当您在第一个列表中选择一个项目时相应的选择将出现在第二个列表中依此类推我只对从 xml 流中提取数据后如何有效地组织数据
需要使用 imap php 保存电子邮件副本，然后可以在 Outlook Express 中打开

我有 IMAP PHP 脚本它连接并读取邮箱中的电子邮件我正在寻找的是我想将电子邮件保存在服务器磁盘上并将其命名为 testing eml 文件因此当我稍后记下这些电子邮件时可以在 Outlook Express 中查看任何
将人类日期（当地时间 GMT）转换为日期

我正在服务器上工作服务器正在向我发送 GMT 本地日期的日期例如Fri Jun 22 09 29 29 NPT 2018在字符串格式上我将其转换为日期如下所示 SimpleDateFormat simpleDateFormat ne
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
将 Java 字符串转换为 sql.Timestamp

收到以下格式的字符串 YYYY MM DD HH MM SS NNNNNN 时间戳来自 DB2 数据库我需要将其解析为 java sql Timestamp 并且不丢失任何精度到目前为止我一直无法找到现有的代码来解析远至微秒的数据 S
用于遇到 [...] 的 Haskell Parsec 解析器

我正在尝试使用 Parsec 在 Haskell 中编写一个解析器目前我有一个可以解析的程序 test x 1 2 3 end 执行此操作的代码如下 testParser do reserved test v lt identifier
为正则表达式编写解析器

即使经过多年的编程我很羞愧地说我从未真正完全掌握正则表达式一般来说当问题需要正则表达式时我通常可以在一堆引用语法之后想出一个合适的正则表达式但我发现自己越来越频繁地使用这种技术所以自学并理解正则表达式properly 我决
Java 库有 parseInt、parseLong、parseDouble 等接受默认值并且不抛出异常吗？

我喜欢中的建议java中的String到Int 可能是坏数据需要避免异常 https stackoverflow com questions 174502 string to int in java likely bad data nee
获取 Parse Analytics 自定义仪表板

是否可以使用 Javascript 或 REST API 从 Parse 获取应用程序分析我想在我自己的仪表板中显示下载数量和自定义事件不可以您只能通过 REST API 推送 https parse com docs rest ht
在 JAVA 中使用 SAX 解析器从 XML 文件中提取文本节点

因此我目前正在使用 SAX 尝试从我正在处理的大量 xml 文档中提取一些信息到目前为止提取属性值确实很容易但是我不知道如何从文本节点中提取实际值例如在给定的 XML 文档中
iOS 中的 CSV 逐行解析

我正在 Objective c 中解析 CSV 文件该文件包含如下内容 line 40 Rising searches line 41 nabi avc Breakout line 42 stonewall 700 line 43 med

随机推荐

通过 IoC 容器实例化 WCF 服务

是否可以使 WCF 运行时通过 IoC 容器而不是通过其通常的进程来实例化服务此外考虑到容器的类型生活方式配置与服务的 InstanceContextBehavior 之间存在潜在冲突这种方法会是一个糟糕的主意吗我知道我可能完全问错
在 WordPress 页面上嵌入 swf

我正在尝试将 swf 嵌入到 WordPress 页面中这听起来很简单但它不起作用我不明白为什么我已将所有相关文件上传到服务器上并且我相当确定所有文件路径都是正确的包含 fla 和 swf 文件的文件夹还包含一个 index h
如何在 Xcode 7 beta 4 中调用 SecItemCopyMatching？

在使用 Swift 的 Xcode 6 和 7 的早期版本中以下语法可以使用 var secureItemValue Unmanaged
在 JavaScript onClick 事件处理程序中转义双引号

下面的简单代码块可以在静态 HTML 页面中提供但会导致 JavaScript 错误您应该如何转义中嵌入的双引号onClick处理程序即 xyz 请注意 HTML 是通过从数据库中提取数据动态生成的其中的数据是其他可能带有单引号或双
从列表中的每个项目的支持 bean 方法中设置 itemDisabled

我有一个单选按钮列表并且想根据支持 bean 方法的结果禁用某些项目
如何检查 firebase 中是否存在孩子？ [复制]

这个问题在这里已经有答案了我有一个 firebase 它有一个名为 users 的节点用户给出一个用户名我想检查该用户名是否已作为用户节点的子节点存在这是我目前正在尝试的代码平台是安卓 String myUsername user
如何更改 Kotlin 上生成的 TODO() 函数体？

我需要在我的代码上留下一些稍后要做的事情TODO 自动生成的会产生一个很长的评论如下所示 TODO not implemented To change body of created functions use File Settings
Requests-html 导致 OSError: [Errno 8] 调用 html.render() 时执行格式错误

我正在使用 requests html 并尝试渲染功能但收效甚微当我使用 python3 8 运行这个脚本时 usr bin python3 from requests html import HTML file scrape temp
您忽略了哪些 PEP 8 准则，哪些是您坚持的？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案多年来我编写的 Python 越多我就越发现自己同意大多数准则尽管我出于自己的原因始终有意地违反了一些准则我很想知道 PEP 8 也可能
在 Android 中的计时器内运行异步任务

我正在开发一个基本的聊天类型应用程序目前我正在运行代码如下所示 class GetMsgs extends AsyncTask
长按 UIButton

我想知道如果有人按住 UIButton 按键的时间过长我是否可以捕获 UIButton 的事件通过通知或其他机制比按一次按钮的时间更长假设有人按住按钮几秒钟谢谢你可以加UILongPressGestureRecognizer h
Android 是否可以同时使用前后摄像头[重复]

这个问题在这里已经有答案了我想同时使用设备的前置和后置摄像头在我的应用程序中屏幕的前半部分将显示后置摄像头的预览屏幕的下半部分将显示前置摄像头的预览我尝试过设置两个不同的相机预览但是当我打开应用程序时屏幕的前半部分显示后置相
将文件附加到 WCF REST 服务响应

我有一个看起来像这样的资源 users id summary format format When format是 xml 或 json 我用一个由 WCF 自动编码的用户摘要对象进行响应到目前为止还不错但当format等于 pdf 我
什么是样板代码、热点代码和热点？

我知道这些术语是在性能实现优化的背景下使用的最近一直在研究这个问题并尝试过搜索但没有得到任何例子清楚地阐述描述这些概念以及在现实世界开发场景中实现这些问题概念有人可以彻底解释这些术语示例场景以及可能使用这些概念和术语的地方
如何在 jQuery 中检查 null 对象

我正在使用 jQuery 我想检查页面中是否存在某个元素我写了以下代码但它不起作用 if btext i null alert btext i text btext i text Branch i 如何检查元素是否存在检查jQuery
Python多线程模型

我已经研究 python 中的多线程有一段时间了但是我对一些问题感到困惑首先 python线程库创建的线程是用户级线程还是内核级线程书上说用户级线程必须映射到内核线程并且操作系统仅创建和维护内核级线程 python中将使用哪种线程模
如何重命名 Rails 4 应用程序？

rails plugin install git github com get Rename git将允许我们仅重命名 Rails 3 应用程序是否有任何 gem 可用于重命名 Rails 4 应用程序如果没有请建议我更好的重命名方法
ASP .Net 报表查看器控件中的本地报表与服务器报表

在我们当前工作的 ASP Net 站点之一中我们有大量 SSRS 报告我们对该站点进行了表单身份验证并且已在报表服务器中创建并部署了报表当我们设置报表查看器控件来访问服务器报表时我们遇到了很多身份验证问题我只是想知道使用本地报告
.NET WPF 窗口淡入和淡出动画

下面是窗口淡入和淡出动画的代码片段 Create the fade in storyboard fadeInStoryboard new Storyboard fadeInStoryboard Completed new EventHand
我应该在哪里划清词法分析器和解析器之间的界限？

我正在为 IMAP 协议编写一个词法分析器用于教育目的但我很困惑应该在词法分析器和解析器之间划清界限以 IMAP 服务器响应为例 FLAGS Answered Deleted 该响应的正式语法定义如下 mailbox data FLA

我应该在哪里划清词法分析器和解析器之间的界限？

我应该在哪里划清词法分析器和解析器之间的界限？ 的相关文章

随机推荐

热门标签

我应该在哪里划清词法分析器和解析器之间的界限？的相关文章