递归下降解析器和函数式编程

2023-12-22

所以最近我一直致力于编写一个简单的编译器，以更好地理解编译器概念。作为 stackoverflow 的忠实读者，似乎有一个共识：用函数式语言编写编译器比命令式语言更容易。为此，我想尝试一下杀两只鸟，用 F# 编写一个编译器，既学习函数式语言，又同时编写编译器。

我一直在阅读龙书，并决定从用 F# 手工编写的递归下降解析器开始。然而，龙书几乎所有的代码示例都是命令式的。例如，匹配令牌函数的大部分工作都是通过副作用完成的。

所以我的问题是，更传统的函数式解析方法（即很少的副作用）会是什么样子？我知道 Haskell 编译器（GHC）是用 Haskell 编写的，但我希望有一个更小、更容易理解的代码示例。

其次，是否值得尝试采用函数式方法进行解析，或者函数式语言真正在中间代码的优化方面表现出色，而我只是还没有做到这一点？也就是说，我是否应该使用命令式风格来进行 F# 中的解析，然后再切换到更实用的方法？

答案源自这篇博客文章 http://fsharpnews.blogspot.com/2010/12/parsing-mathematical-expressions-using.html:

所以我的问题是，更传统的函数式解析方法（即很少的副作用）会是什么样子？

听起来你需要将功能性（如 Lisp、Scheme、Standard ML、CAML、OCaml、F#）与纯粹性（无副作用，如 Haskell）和附带语言功能（代数数据类型、模式匹配）分开。

得益于代数数据类型、模式匹配和高阶函数，F# 非常适合解析，也非常适合转换和代码生成，但大多数用 F# 编写的生产解析器都不是纯粹的。从历史上看，F# 的语言家族（元语言或 ML）主要源自专门为这种元编程而培育的语言。

这是一组非常简单的相互递归活动模式，用于解析和评估由单个数字组成的数学表达式，+ - *运算符和括号子表达式：

> let rec (|Term|_|) = function
    | Factor(e1, t) ->
        let rec aux e1 = function
          | '+'::Factor(e2, t) -> aux (e1 + e2) t
          | '-'::Factor(e2, t) -> aux (e1 - e2) t
          | t -> Some(e1, t)
        aux e1 t
    | _ -> None
  and (|Factor|_|) = function
    | '-'::Factor(e, t) -> Some(-e, t)
    | Atom(e1, '*'::Factor(e2, t)) -> Some(e1 * e2, t)
    | Atom(e, t) -> Some(e, t)
    | _ -> None
  and (|Atom|_|) = function
    | c::t when '0'<=c && c<='9' -> Some(int(string c), t)
    | '('::Term(e, ')'::t) -> Some(e, t)
    | _ -> None;;
val ( |Term|_| ) : char list -> (int * char list) option
val ( |Factor|_| ) : char list -> (int * char list) option
val ( |Atom|_| ) : char list -> (int * char list) option

这是一个用于解析和评估表达式的示例：

> let (Term e) = List.ofSeq "1+2*(3-4)*-5";;
val e : int * char list = (11, [])

这是一个纯粹的解决方案，使用 F# 的活动模式对列表进行模式匹配。实际上，您需要为抽象语法树定义一个类型并返回该类型的值。这在 F# 中非常简单：

type expr =
  | Int of int
  | Neg of expr
  | Add of expr * expr
  | Sub of expr * expr
  | Mul of expr * expr

  static member (~-) f = Neg f
  static member (+) (f, g) = Add(f, g)
  static member (-) (f, g) = Sub(f, g)
  static member (*) (f, g) = Mul(f, g)

let rec (|Term|_|) = function
  | Factor(e1, t) ->
      let rec aux e1 = function
        | '+'::Factor(e2, t) -> aux (e1 + e2) t
        | '-'::Factor(e2, t) -> aux (e1 - e2) t
        | t -> Some(e1, t)
      aux e1 t
  | _ -> None
and (|Factor|_|) = function
  | '-'::Factor(e, t) -> Some(-e, t)
  | Atom(e1, '*'::Factor(e2, t)) -> Some(e1 * e2, t)
  | Atom(e, t) -> Some(e, t)
  | _ -> None
and (|Atom|_|) = function
  | c::t when '0'<=c && c<='9' -> Some(Int(int(string c)), t)
  | '('::Term(e, ')'::t) -> Some(e, t)
  | _ -> None

let (Term e) = List.ofSeq "1+2*(3-4)*-5"

请注意，只需要对解析器进行一项微小的更改，因为 AST 也可以使用+, - and *运营商。

其次，是否值得尝试采用函数式方法进行解析，或者函数式语言真正在中间代码的优化方面表现出色，而我只是还没有做到这一点？

你说的是纯粹性，而不是函数式编程。纯度在解析文本的上下文中并不是特别有用，事实上，它可能是一个真正的障碍（例如，实习符号在 Haskell 中是一场噩梦）。然而，F# 还有许多其他优点可以很好地解决这组问题。特别是，尽管 OCaml 等其他语言有更好的解析工具，但我认为 F# 是在这种情况下最好的 .NET 语言。

也就是说，我是否应该使用命令式风格来进行 F# 中的解析，然后再切换到更实用的方法？

完全取决于你想要实现什么功能。我会使用 fslex 和 fsyacc 以及纯代码来在操作中构造 AST，但会使用哈希 consing 或生成唯一 ID 之类的杂质。

您可能会欣赏我在以下位置撰写的有关此主题的文章：这个博客 http://fsharpnews.blogspot.com（注意付费墙）：

“使用 Lex 和 Yacc 解析文本”（2007 年 9 月 30 日）。
“优化简单的字节码解释器”（2007 年 10 月 31 日）。
“解析器组合器”（2007 年 11 月 30 日）。
“面向语言的编程：术语级解释器”（2007 年 12 月 31 日）。
“面向语言的编程：术语重写”（2008 年 8 月 16 日）。
“运行时代码生成使用System.Reflection.Emit”（2008 年 8 月 31 日）。
“解析和可视化二进制地理信息系统数据”（2009 年 11 月 30 日）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

递归下降解析器和函数式编程的相关文章

为什么需要数字后缀？

C 语言我确信还有其他语言需要在数字文字末尾添加后缀这些后缀指示文字的类型例如 5m是一个小数 5f是一个浮点数我的问题是这些后缀真的有必要吗或者是否可以从上下文中推断出文字的类型例如代码decimal d 5 0应该推断
使用 Reader Monad 进行依赖注入

我最近看到了谈话极其简单的依赖注入 http www youtube com watch v ZasXwtTRkio and 无需体操的依赖注入 http vimeo com 44502327关于 Monads 的 DI 并留下了深刻的印象
函数式语言中的部分求值和函数内联有什么区别？

我知道函数内联就是用函数定义代替函数调用部分评估是在编译时评估程序的已知静态部分在 C 等命令式语言中两者之间存在区别其中运算符与函数不同但是在像 Haskell 这样的函数式语言其中运算符也是函数中两者之间有什么区
F# 和 MEF：导出函数

因此我试图在 F 控制台应用程序中运行这个简单的测试 open System Reflection open System ComponentModel Composition open System ComponentModel Com
F# 引用的另一个限制？

今天早些时候我遇到了 F 引用的限制并在这里提出了一个问题 F 引号变量可能会转义作用域 https stackoverflow com questions 6414185 f quotations variable may esca
true 和布尔列表 f# 的长度

直接使用递归写一个函数truesAndLength bool list gt int int那返回列表的长度在该对的第一个组件中以及列表的数量列表中正确的元素在第二个组件中你的函数必须只迭代遍历列表的元素一次请勿使用 Li
F# 中的自定义路由事件

我正在尝试翻译这段 C 代码 https msdn microsoft com en us library ms752288 aspx 到目前为止我的尝试 type MyButtonSimple as self inherit Button
相当于 Java 中 C++ 的 std::bind 吗？

有没有一种方法可以像 C 中的 std bind 一样将 Java 中的参数绑定到函数指针 Java 中类似的东西会是什么 void PrintStringInt const char s int n std cout lt lt s lt
如何从 C# 可移植类库 (PCL) 添加对 F# 可移植库的引用

我有一个项目其中包含两个 F 项目和一个 C 项目我想在其中编写一些 XUnit 测试 FS PL F 3 1 3 3 1 0 可移植库 FS PL Legacy F 31 2 3 5 1 可移植库旧版测试 C NET 4 5 Wi
obj[] 和 string[] 作为参数

我在用Microsoft FSharp Reflection FSharpValue MakeUnion这需要一个Reflection UnionCaseInfo and an obj 可以为空作为参数但是我得到了Type misma
如何在 F# 中进行卷积？

我想convolve http en wikipedia org wiki Convolution具有离散滤波器的离散信号信号和滤波器是 F 中的浮点数序列我能弄清楚如何做到这一点的唯一方法是使用两个嵌套的 for 循环和一个可变数组来
如何忽略异步块中异步函数的返回值？

The m1 and m2以下函数中存在编译错误 let m p async return p 2 let m1 async do m 2 ERR was expected int but here has type unit let m2
如何让一条记录实现一个接口？

如果我有一个界面 type IData abstract member firstName string abstract member lastName string 如何定义符合此接口的记录类型我尝试了如下所示 gt type Dat
如何使用 WebSharper 在服务器上生成 Google Visualizations 数据

我的目标是能够在服务器上为 Google Visualizations 生成数据然后将其作为 java 脚本传递给客户端以便可以将其呈现为折线图我下面的示例可以正确编译但在浏览器中呈现时会产生错误在服务器上构建 DataCommo
Async.AwaitTask 在 f# 中如何工作？

我知道 f 和 c 异步模型之间的主要区别在于在 f 中除非您调用 Async RunSynchronously 之类的内容否则异步执行不会开始在 C 中当方法返回任务时通常并非总是立即在后台线程中开始执行 Async Aw
使用 elm 高阶函数处理键盘事件

我正在尝试创建一个高阶函数来创建仅捕获特定关键代码的函数该代码的灵感来自 EvanonEnter来自他的 todomvc 实现的函数仅捕获 Enter 函数 onKeyCode Int gt Msg gt Attribute Msg o
IntSummaryStatistics的summaryStatistics方法

为什么空 IntStream 上的 summaryStatistics 方法返回整数的最大和最小值作为流中存在的最大和最小 int 值 IntStream intStream IntStream of IntSummaryStatistic
从静态成员访问 let 绑定字段

有没有办法从静态成员访问 let 绑定字段下面给出了指示的错误 type Foo x let x x static member test let foo Foo System DateTime Now Month printfn A f
如何为 Azure Function 启用“始终开启”功能？

我有一个具有 3 个功能的功能应用程序其中一个功能每 2 分钟定时器触发一次我观察到过了一会儿该功能停止被触发但当我进入门户时又重新启动据我了解原因是默认情况下始终开启处于关闭状态但是当我进入应用程序设置常规设置时
图像分析-光纤识别

我是图像分析新手您知道如何以仅获取纤维的方式对该图像进行二值化吗我尝试过不同的阈值技术等但没有成功我不介意应该使用什么工具但我更喜欢 NET or Matlab PS 我不知道该把答案放在哪里所以我把它放在StackOverfl

随机推荐

如何调试从 TeamCity 部署的 nuget 包？

我已将我的团队使用的库放入 nuget 包中该包从 TeamCity 部署到网络文件夹中但我无法调试这段代码 SymbolSource 是我读过的一种解决方案但我更愿意找到某种方法来直接从 TeamCity 访问 pdb 源文件有谁
.NET解决方案下的部署工具

我们都使用 Web 应用程序 Windows 应用程序数据库帮助文件配置文件和注册表值编写代码无论是小型例如一个 exe 还是大型应用程序完整的解决方案我的问题很简单在我看来现在我需要在一个安装设置中部署一个 Web 应用
UILocalNotification 未触发

I am very对 Cocoa Touch 和 Objective C 很陌生但我已经掌握了相当重要的要点并且正在尝试使用 UIKit 我有一个链接到按钮的操作该按钮更改标签并触发 UILocalNotification 这是操作方
将“puts”命令输出重定向到日志文件

我正在使用 daemons gem 在 Ruby 中创建一个守护进程我想将守护程序的输出添加到日志文件中我想知道重定向的最简单方法是什么puts从控制台到日志文件如果您需要捕获 STDERR 和 STDOUT 并且不想诉诸日志记录 s
.Net Excel Interop 删除工作表

我正在尝试使用互操作 Excel 类适用于 excel 2003 从 Net c 3 5 应用程序的 Excel 文档中删除工作表我尝试了很多事情例如 Worksheet worksheet Worksheet workbook Wo
如何在Supervisor服务中设置环境变量

如何在Supervisor执行的命令中导出环境变量我首先尝试 command export SITE domain1 python manage py command 但主管报告找不到命令然后我尝试了 command bin bash
在react中从json获取本地图像路径

如何选择图片的本地路径 Json avatarUrl avt1 jpg 所有图片都在下面来源 gt img文件夹我正在寻找 json 中的绝对路径图像名称我怎样才能实现这个目标reactJs img src width 60 包 js
在ubuntu上编译protobuf客户端代码，但找不到包含文件

我刚刚在我的 ubuntu1604 上安装了 google protocol buffer sudo apt install protobuf compiler 并尝试了快速测试 1个proto文件 1个cpp文件来使用它尝试查看编码解
Launch4J 插件创建一个 EXE（以及 JAR），但 EXE 在 Spring boot 中找不到主类

我编写了一个插件在 Launch4J 插件的帮助下为我的项目创建 EXE 和 JAR 但是在执行 EXE 文件时我收到错误 Error Could not find or load main class 但是我通过提供来运行 JAR
在 Android 上通过 bash 脚本启用/禁用 wifi

我正在尝试在 bash 脚本中启用禁用 Android 设备中的 wifi 设备我正在使用终端仿真器和程序脚本管理器在手机是 root 的 Nexus One 上执行 bash 脚本在linux中执行此操作的正常方法是这样的 ifc
我在哪里可以找到一些“hello world”-简单的美丽汤示例？

我想用 Beautiful Soup 做一个非常简单的替换假设我想访问页面中的所有 A 标记并将 foo 附加到它们的 href 中有人可以发布或链接到如何做这样简单的事情的示例吗 from BeautifulSoup import B
function_exists 返回 false 但声明抛出错误

在 PHP 5 3 6 中我有一个类其方法如下 public function chunkText if function exists unloadChunkText function unloadChunkText 其中 unloa
java中浮点数和双精度数有多少位有效数字？

float 是否有 32 位二进制数字 double 是否有 64 位二进制数字该文档太难理解了所有位都转换为有效数字吗还是小数点的位置占用了一些位 float 32 bits 4 bytes where 23 bits are us
Javascript 中“new”关键字的限制

我有这个JS代码 var A A new function n return new Array n 它在所有浏览器中都运行良好但是当我尝试用它来混淆它时混淆器 http javascriptobfuscator com 它显示一个错误
从另一个 Dart 程序运行交互式 Dart 程序

我有一个相当长的命令行程序需要用户输入参数然后使用这些参数进行处理我想做的是将程序分为交互式和非交互式我尝试这样做并打算让非交互式程序调用交互式程序并使用结果参数根据这些参数进行处理程序的非交互部分在处理时将结果显示在控
无法查看 Xcode 4.2 帮助“index.html”被锁定以进行编辑

当我尝试在 Xcode 中搜索文档时出现以下错误 index html 已被锁定进行编辑您可能无法保存更改你想解锁它吗 index html 目前已被锁定因为它不支持编辑文件 index html 无法解锁无法向该文件添加写入权
AWS RedShift - .NET Core（ODBC 支持？）

如何使用 NET Core 连接 AWS RedShift 并运行查询请提供代码示例我已经阅读了 AWS 文档和 Net Core 文档但没有运气这个答案是针对特定时间点的不会过时 EntityFramework Core 项目是
Google Map APi 缩放栏未显示

Google 地图 api 没有完全显示缩放栏和图像类型而是仅显示用于放大和缩小的加减按钮以及用于选择地图类型的下拉按钮网址是http booking smanager net design index php lv 2 http bo
Python - 获取浏览器重定向到的url

我正在尝试使用 API 验证应用程序就是这样我正在使用打开一个 URLwebbrowser open 用户对应用程序进行身份验证并被重定向到另一个 URL 即 https stackexchange com oauth login s
递归下降解析器和函数式编程

所以最近我一直致力于编写一个简单的编译器以更好地理解编译器概念作为 stackoverflow 的忠实读者似乎有一个共识用函数式语言编写编译器比命令式语言更容易为此我想尝试一下杀两只鸟用 F 编写一个编译器既学习函数式语言

递归下降解析器和函数式编程

递归下降解析器和函数式编程 的相关文章

随机推荐

热门标签

递归下降解析器和函数式编程的相关文章