实现类 Markdown 语言的解析器

2024-04-25

我有类似于 markdown 和 SO 使用的标记语言。

遗留解析器基于正则表达式，维护起来简直是噩梦，因此我提出了自己的基于 EBNF 语法的解决方案，并通过 mxTextTools/SimpleParse 实现。

但是，某些令牌可能存在相互包含的问题，并且我没有看到“正确”的方法来做到这一点。

这是我的语法的一部分：

newline          := "\r\n"/"\n"/"\r"
indent           := ("\r\n"/"\n"/"\r"), [ \t]
number           := [0-9]+
whitespace       := [ \t]+
symbol_mark      := [*_>#`%]
symbol_mark_noa  := [_>#`%]
symbol_mark_nou  := [*>#`%]
symbol_mark_nop  := [*_>#`]
punctuation      := [\(\)\,\.\!\?]
noaccent_code    := -(newline / '`')+
accent_code      := -(newline / '``')+
symbol           := -(whitespace / newline)
text             := -newline+
safe_text        := -(newline / whitespace / [*_>#`] / '%%' / punctuation)+/whitespace
link             := 'http' / 'ftp', 's'?, '://', (-[ \t\r\n<>`^'"*\,\.\!\?]/([,\.\?],?-[ \t\r\n<>`^'"*]))+
strikedout       := -[ \t\r\n*_>#`^]+
ctrlw            := '^W'+
ctrlh            := '^H'+
strikeout        := (strikedout, (whitespace, strikedout)*, ctrlw) / (strikedout, ctrlh)
strong           := ('**', (inline_nostrong/symbol), (inline_safe_nostrong/symbol_mark_noa)* , '**') / ('__' , (inline_nostrong/symbol), (inline_safe_nostrong/symbol_mark_nou)*, '__')
emphasis              := ('*',?-'*', (inline_noast/symbol), (inline_safe_noast/symbol_mark_noa)*, '*') / ('_',?-'_', (inline_nound/symbol), (inline_safe_nound/symbol_mark_nou)*, '_')
inline_code           := ('`' , noaccent_code , '`') / ('``' , accent_code , '``')
inline_spoiler        := ('%%', (inline_nospoiler/symbol), (inline_safe_nop/symbol_mark_nop)*, '%%')
inline                := (inline_code / inline_spoiler / strikeout / strong / emphasis / link)
inline_nostrong       := (?-('**'/'__'),(inline_code / reference / signature / inline_spoiler / strikeout / emphasis / link))
inline_nospoiler       := (?-'%%',(inline_code / emphasis / strikeout / emphasis / link))
inline_noast          := (?-'*',(inline_code / inline_spoiler / strikeout / strong / link))
inline_nound          := (?-'_',(inline_code / inline_spoiler / strikeout / strong / link))
inline_safe           := (inline_code / inline_spoiler / strikeout / strong / emphasis / link / safe_text / punctuation)+
inline_safe_nostrong  := (?-('**'/'__'),(inline_code / inline_spoiler / strikeout / emphasis / link / safe_text / punctuation))+
inline_safe_noast     := (?-'*',(inline_code / inline_spoiler / strikeout / strong / link / safe_text / punctuation))+
inline_safe_nound     := (?-'_',(inline_code / inline_spoiler / strikeout / strong / link / safe_text / punctuation))+
inline_safe_nop        := (?-'%%',(inline_code / emphasis / strikeout / strong / link / safe_text / punctuation))+
inline_full           := (inline_code / inline_spoiler / strikeout / strong / emphasis / link / safe_text / punctuation / symbol_mark / text)+
line                  := newline, ?-[ \t], inline_full?
sub_cite              := whitespace?, ?-reference, '>'
cite                  := newline, whitespace?, '>', sub_cite*, inline_full?
code                  := newline, [ \t], [ \t], [ \t], [ \t], text
block_cite            := cite+
block_code            := code+
all                   := (block_cite / block_code / line / code)+

第一个问题是，剧透、强项和强调项可以以任意顺序相互包含。以后我可能需要更多这样的内联标记。

我当前的解决方案涉及为每个组合（inline_noast、inline_nostrong 等）创建单独的标记，但显然，随着标记元素数量的增加，此类组合的数量增长得太快。

第二个问题是，这些强/强调的前瞻在某些不良标记的情况下表现非常糟糕，例如__._.__*__.__...___._.____.__**___***（许多随机放置的标记符号）。解析这样几 kb 的随机文本需要几分钟的时间。

我的语法有问题吗？或者我应该使用其他类型的解析器来完成此任务？

如果一件事包含另一件事，那么通常您将它们视为单独的标记，然后将它们嵌套在语法中。莱普 (http://www.acooke.org/lepl http://www.acooke.org/lepl我写的）和 PyParsing（这可能是最流行的纯 Python 解析器）都允许您递归地嵌套事物。

所以在 Lepl 中你可以编写如下代码：

# these are tokens (defined as regexps)
stg_marker = Token(r'\*\*')
emp_marker = Token(r'\*') # tokens are longest match, so strong is preferred if possible
spo_marker = Token(r'%%')
....
# grammar rules combine tokens
contents = Delayed() # this will be defined later and lets us recurse
strong = stg_marker + contents + stg_marker
emphasis = emp_marker + contents + emp_marker
spoiler = spo_marker + contents + spo_marker
other_stuff = .....
contents += strong | emphasis | spoiler | other_stuff # this defines contents recursively

然后你可以看到，我希望，内容如何匹配“strong”、“emphasis”等的嵌套使用。

对于您的最终解决方案，要做的事情远不止这些，而且效率可能是任何纯 Python 解析器中的一个问题（有一些解析器是用 C 实现的，但可以从 Python 调用。这些解析器会更快，但使用起来可能会比较棘手；我不能推荐任何东西，因为我没有使用过它们）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

实现类 Markdown 语言的解析器的相关文章

多重处理：如何从子进程重定向标准输出？

注意我见过multiprocessing Process 的日志输出 https stackoverflow com questions 1501651 log output of multiprocessing process 不幸的是
在 python 的 Visual Studio 工具中按下 ctrl+F5 后，控制台窗口立即关闭

我已经安装了 Visual Studio 的 Python 工具但在控制台窗口中看不到输出就像我在 Visual Studio 中运行 C 控制台应用程序时按以下快捷键时看到的输出一样 F5 开始调试程序并关闭 C 和 Python 中
根据 pandas 中的条件交换列值

我想按条件重新定位列如果国家地区是日本我需要将姓氏和名字反向重新定位 df pd DataFrame France Kylian Mbappe Japan Hiroyuki Tajima Japan Shiji Kagawa Eng
如何在算术表达式的结果上添加 SQLAlchemy 标签？

我如何将这样的东西翻译成 SQLAlchemy select x y as difference 我知道该怎么做 x label foo 但我不确定在哪里放置下面的 label 方法调用 select table c x table c y
蟒蛇 |如何将元素随机添加到列表中

有没有一种方法可以将元素随机添加到列表中内置函数 ex def random append lst a lst append b lst append c lst append d lst append e return print ls
对打开文件的脚本进行单元测试

我编写了一个脚本它打开一个文件读取内容并进行一些操作和计算并将它们存储在集合和字典中我该如何为这样的事情编写单元测试我的问题具体是我会测试文件是否打开文件很大这是unix字典文件我如何对计算进行单元测试我真的必须手动计算
为 PyCharm 中的所有配置设置相同的环境变量

我有一个与 Celery 和很多不同的工作人员一起的项目如何避免每次将 PyCharm 中的环境变量复制粘贴到每个运行调试配置有什么方法可以在项目设置中设置它们吗找到解决方案here https stackoverflow com
远程控制或脚本打开 Office 从 Python 编辑 Word 文档

我想最好在 Windows 上在特定文档上启动 Open Office 搜索固定字符串并将其替换为我的程序选择的另一个字符串我该如何从外部 Python 程序中做到这一点 OLE 什么原生 Python 脚本解决方案 The doc
基于 True/False 值的 Python 优雅赋值

我想根据三个布尔值中的值设置一个变量最直接的方法是 if 语句后跟一系列 elif if a and b and c name first elif a and b and not c name second elif a and not
使用 Python 抓取维基百科数据

我正在尝试从以下内容中检索 3 列 NFL 球队球员姓名大学球队维基百科页面 http en wikipedia org wiki 2008 NFL draft 我是 python 新手一直在尝试使用 beautifulsoup 来
我有一个 Employee 类，我想返回“姓名”列表

我有一个 Employee 类我想返回姓名列表雇员 py class Employee object def init self id name members None self id id self name name self
熊猫记忆

我有冗长的计算我重复了很多次因此我想使用记忆诸如jug http packages python org Jug and joblib http packages python org joblib memory html 与Pan
如何像在浏览器中一样检索准确的 HTML

我正在使用 Python 脚本来呈现网页并检索其 HTML 它适用于大多数页面但对于其中一些页面检索到的 HTML 不完整我不太明白为什么这是我用来废弃此页面的脚本由于某种原因每个产品的链接不在 HTML 中 Link http
如何将同步函数包装在异步协程中？

我在用着aiohttp https github com aio libs aiohttp构建一个 API 服务器将 TCP 请求发送到单独的服务器发送 TCP 请求的模块是同步的对于我来说是一个黑匣子所以我的问题是这些请求阻塞了整
从 python 中的缩进文本文件创建树/深度嵌套字典

基本上我想迭代一个文件并将每行的内容放入一个深层嵌套的字典中其结构由每行开头的空格数量定义本质上目标是采取这样的事情 a b c d e 并将其变成这样的东西 a b c d e Or this apple colours red
PermanentTaskFailure：“模块”对象没有属性“迁移”

我在 google appengine 上使用 Nick Johnson 的批量更新库 http blog notdot net 2010 03 Announcing a robust datastore bulk update utili
python 中的基本矩阵转置

我尝试了 python 中矩阵转置的最基本方法但是我没有得到所需的结果接下来是代码 A 1 1 1 1 2 2 2 2 3 3 3 3 4 4 4 4 print A def TS A B A for i in range len A
Windows 与 Linux 文本文件读取

问题是我最近从 Windows 切换到 Ubuntu 我的一些用于分析数据文件的 python 脚本给了我错误我不确定如何正确解决我当前仪器的数据文件输出如下 Header 有关仪器等的各种信息 Data 状态代码温度字段等 0
Python列表对象属性“append”是只读的

正如标题所说在Python中我试图做到这一点以便当有人输入一个选择在本例中为Choice13 时它会从密码列表中删除旧密码并添加新密码 passwords mrjoebblock mrjoefblock mrjoegblock m
如何将 Pandas Dataframe 中的字符串转换为字符列表或数组？

我有一个名为的数据框data 其中一列包含字符串我想从字符串中提取字符因为我的目标是对它们进行一次性编码并使之可用于分类包含字符串的列存储在预测因子如下 predictors pd DataFrame data columns Seq

随机推荐

Laravel mix，在resources中调用app.js

我有一个带有 laravel 和 vuejs 的网络应用程序我使用 laravel mix 并且在我的 webpack mix js 中我有 mix js resources assets js app js public js 在我看来
我收到来自 php 和 js 的空白电子邮件

请帮助我解码真正的问题是什么问题是尽管我对此代码进行了所有调整和研究但我仍然收到一封空白电子邮件下面是我的 html javascript ajax 和 php 代码 HTML 代码名为 contact html 的文件
PHP echo 与 PHP 短 echo 标签

它们的安全性相同吗我被告知使用或者当在 JavaScript 内回显数据时它必须是 JavaScript 编码的
SQL Server 的 mysqldump 等效项

SQL Server 是否有与 MySQL 具有 mysqldump 等效的模式和数据导出转储工具试图重新定位旧的 ASP 站点但我对在 Windows 服务器上工作感到很不高兴注意 DTS 导出实用程序自己似乎可以导出数据而无需
高效生成所有小于 N 的合数（及其因式分解）

我想构建一个高效的 Python 迭代器生成器它会产生所有小于 N 的合数连同他们的质因数分解我将其称为 composites with factors 假设我们已经有小于 N 的素数列表或者可以执行相同操作的素数生成器请注意
根记录器忽略记录器级别

根记录器在我认为应该记录时不会记录 import logging NOTE I make sure to set the root logger level to logging DEBUG logging basicConfig fo
在 SPSS 18 中指定相对路径

在 SPSS 11 中可以指定相对路径例子 FILE HANDLE myfile data current txt LRECL 533 DATA LIST FILE myfile 这之所以有效是因为 SPSS 11 将工作文件夹设置为源
操作员 '？？'不能应用于类型“T”和“T”的操作数

我有以下通用方法但 VS 给了我一个编译错误运算符不能应用于 T 和 T 类型的操作数 public static T Method
Google 地图 - 未捕获 InvalidValueError：初始化不是函数

当我加载 Google 地图显示的页面时我总是在控制台中看到以下错误未捕获的 InvalidValueError 初始化不是函数js 传感器假回调初始化 94 将鼠标悬停在文件名上时这显示为源自谷歌地图窗口和地图显示得非常好
在RequiredFieldValidator 触发后调用JavaScript 方法？

表单元素被视为无效后是否可以触发 JavaScript 方法这是我的场景 ASPX 页面上有 2 个选项卡用户必须在两个选项卡上填写信息用户在选项卡 2 上单击提交按钮但是第一个选项卡上有一个必填字段需要注意我是否需要创建自定义
无法使用 conda 安装 mpi4py 并指定预安装的 mpicc 路径

我已经尝试安装mpi4py with env MPICC path to openmpi bin mpicc conda install c anaconda mpi4py 但我收到这样的消息 The following NEW packa
无法播种用户和角色

我正在尝试将用户和角色植入我的数据库中目前在 C MVC4 中使用具有自动迁移功能的 Code First 实体框架每当我打电话更新数据库强制我收到以下错误运行种子方法 System InvalidOperationExcept
B 样条线混淆

我意识到这个板上有关于 B 样条主题的帖子但这些帖子实际上让我更加困惑所以我想有人可能能够帮助我我有 x 值范围从 0 到 1 的模拟数据我想用三次样条拟合我的数据 degree 3 结为 0 0 1 0 2 0 9 1 我还想使用
从日期选择器小部件中隐藏年份

我试图从日期选择器小部件中隐藏年份字段这可能看起来像一个重复的问题但之前问题给出的答案并不能帮助我隐藏年份字段这是我的代码 Override protected void onCreate Bundle savedInstanceSt
为什么没有像 ruby 的 capybara for java 这样的无头 BDD 测试引擎？

为什么没有 java 版本的 ruby capybara https github com jnicklas capybara https github com jnicklas capybara 这可以与 tomcat 或其他东西一起使用
如何在 PyGame 中加载多个图像？

我需要在 pygame 中加载大约 200 个图像以便在游戏中的各个点进行位块传输我尝试为此编写一个函数但总是回来NameError name tomato is not defined 所有图像名称都是加载图像的变量存储的名称 to
设置分组条形图之间的间距

我正在尝试按照图库中的示例在 matplotlib 中制作分组条形图我使用以下内容 import matplotlib pyplot as plt plt figure figsize 7 7 dpi 300 xticks 0 1 1 1
本地播放 mp3 时 Android MediaPlayer 错误(1, -2147483648)

Android 4 4 发布后不久我的代码自 2 2 以来一直正常工作突然出现了错误我的代码将查询音乐数据库中给定的音乐文件该路径在查询中返回然后该路径被传递到 MediaPlayer Code String uri conten
在reactjs中以编程方式取消选中复选框

我正在弄乱复选框我想知道有没有一种方法可以通过调用函数来取消选中单击按钮时的复选框如果是这样我怎样才能做到这一点
实现类 Markdown 语言的解析器

我有类似于 markdown 和 SO 使用的标记语言遗留解析器基于正则表达式维护起来简直是噩梦因此我提出了自己的基于 EBNF 语法的解决方案并通过 mxTextTools SimpleParse 实现但是某些令牌可能存在相互

实现类 Markdown 语言的解析器

实现类 Markdown 语言的解析器 的相关文章

随机推荐

热门标签

实现类 Markdown 语言的解析器的相关文章