raku 语法的标记不会命中文档的第一次出现，但会命中类似的后续出现

2024-01-20

我想处理希伯来语的整个 Tanach 文件。为此，我选择了 Raku 语言，因为它的一些功能（语法和 unicode 支持）。

因此，我定义了一些标记来选择相关数据。

grammar HEB {
        token TOP {'<hebrewname>'<t_word>'</hebrewname>'}
        token t_word {<graph>+}
};

grammar CHA {
        token TOP {'<c n="'<t_number>'">'}
        token t_number {\d+}
};

grammar VER {
        token TOP {'<v n="'<t_number>'">'}
        token t_number {\d+}
};

grammar WOR {
        token TOP {'<w>'<t_word>'</w>'}
        token t_word {<graph>+}
};

这里，文档的一小部分（XML 格式的 Tanach）足以说明问题：

<names> <name>Genesis</name> <abbrev>Gen</abbrev> <number>1</number> <filename>Genesis</filename> <hebrewname>בראשית</hebrewname> </names> <c n="1"> <v n="1"> <w>בְּ/רֵאשִׁ֖ית</w> <w>בָּרָ֣א</w> <w>אֱלֹהִ֑ים</w> <w>אֵ֥ת</w> <w>הַ/שָּׁמַ֖יִם</w> <w>וְ/אֵ֥ת</w> <w>הָ/אָֽרֶץ׃</w> </v> <v n="2"> <w>וְ/הָ/אָ֗רֶץ</w> <w>הָיְתָ֥ה</w> <w>תֹ֙הוּ֙</w> <w>וָ/בֹ֔הוּ</w> <w>וְ/חֹ֖שֶׁךְ</w> <w>עַל־</w> <w>פְּנֵ֣י</w> <w>תְה֑וֹם</w> <w>וְ/ר֣וּחַ</w> <w>אֱלֹהִ֔ים</w> <w>מְרַחֶ֖פֶת</w> <w>עַל־</w> <w>פְּנֵ֥י</w> <w>הַ/מָּֽיִם׃</w> </v>

问题是代码无法识别两个第一 words (<w>בְּ/רֵאשִׁ֖ית</w> <w>בָּרָ֣א</w>）但似乎与以下单词配合得很好...... 有人可以向我解释一下出了什么问题吗？

主循环是：

for $file_in.lines -> $line {
    $memline = $line.trim;

    if HEB.parse($memline) {
          say "hebrew name of book is "~ $/<t_word>;
          next;
    }
    if CHA.parse($memline) {
        say "chapitre number is "~ $/<t_number>;
        next;
    }
    if VER.parse($memline) {
        say "verse number is "~ $/<t_number>;
        next;
    }
    if WOR.parse($memline) {
        $computed_word_value = 0;
        say "word is "~ $/<t_word>;
        $file_out.print("$/<t_word>");
        say "numbers of graphemes of word is "~ $/<t_word>.chars;
        @exploded_word = $/<t_word>.comb;
        for @exploded_word {
                say $_.uniname;
        };
        next;
    }
    say "not processed";
}

输出文件：

请注意，之后诗节编号为1，前 2 个单词不被处理。不要关注扭曲的希伯来语（Windows 控制台）！

not processed
not processed
not processed
not processed
not processed
hebrew name of book is ׳‘׳¨׳׳©׳™׳×
not processed
chapitre number is 1
verse number is 1
not processed
not processed
word is ׳ײ±׳œײ¹׳”ײ´ײ‘׳™׳
numbers of graphemes of word is 5
HEBREW LETTER ALEF
HEBREW LETTER LAMED
HEBREW LETTER HE
HEBREW LETTER YOD
HEBREW LETTER FINAL MEM
word is ׳ײµײ¥׳×
numbers of graphemes of word is 2
HEBREW LETTER ALEF
HEBREW LETTER TAV
not processed
word is ׳•ײ°/׳ײµײ¥׳×
numbers of graphemes of word is 4
HEBREW LETTER VAV
SOLIDUS

我希望我的问题能够得到明确的解答。

我无法重现你的问题。
我唯一能猜测的是您没有使用正确的编码打开文件。

或者更糟糕的是，您从 STDIN 获取文件，但没有选择正确的代码页。（这是有道理的，因为你的输出也是 mojibake。）
Rakudo 并不真正执行代码页，因此如果您未将环境设置为 utf8，则必须更改$*STDIN (and $*STDOUT) 来匹配任何内容。

我现在将假装您已将帖子发布到 CodeReview.StackExchange.com。

首先，我不知道为什么你要为如此小的东西创建一个完整的语法，而这可以通过简单的正则表达式轻松完成。

my token HEB {
  '<hebrewname>'
  $<t_word> = [<.graph>+]
  '</hebrewname>'
}
my token CHA {
 '<c n="' $<t_number> = [\d+] '">'
}
my token VER {
  '<v n="' $<t_number> = [\d+] '">'
}
my token WOR {
  '<w>' $<t_word> = [<.graph>+] '</w>'
}

老实说，这仍然比您似乎需要的要多，因为每个正则表达式只处理一个元素。

这也忽略了我真的不喜欢你给元素命名，比如t_word and t_number。这是毫无意义的，因为它们在里面$/，并且 Grammar 也没有任何此类类似命名的方法，因此它们不会干扰任何其他名称空间。如果必须给它们起名字，请给它们起描述性的名字。

你可以只限制$/仅对您关心的部分进行字符串化<(…)>。（它在这里起作用是因为你只捕获一件事。）

<(意味着忽略之前的一切，并且)>意味着忽略之后的一切。

my token HEB {
  '<hebrewname>'
  <( <.graph>+ )> # $/ will contain only what <.graph>+ matches
  '</hebrewname>'
}
my token CHA {
 '<c n="' <( \d+ )> '">'
}
my token VER {
  '<v n="' <( \d+ )> '">'
}
my token WOR {
  '<w>' <( <.graph>+ )> '</w>'
}

您正在解析它，就好像它只是一个面向行的文件一样。
这确实具有一定的意义，因为它被格式化为一个，并且这会导致更少的内存使用。

为此使用命名正则表达式，更不用说整个语法了，有点大材小用了。当对于这种简单的匹配来说并不真正需要逻辑时，它还会分离逻辑。

以下是我如何以面向行的方式解析该文件：

my $in-names = False;
my %names;
my @chapters;
my @verses;
my @current-verse;

for $file_in.lines {
  when /'<names>' / { $in-names = True  }
  when /'</names>'/ { $in-names = False }

  # chapter
  when /'<c n="' <( \d+ )> '">'/ {
    @verses := @chapters[ +$/ - 1 ] //= [];
  }
  when /'</c>'/ {
    # finalize this chapter
    # for example print out statistics
    # (only needed if you don't want `default` to catch it)
  }

  # verse
  when /'<v n="' <( \d+ )> '">'/ {
    @current-verse := @verses[ +$/ - 1 ] //= [];
  }
  when /'</v>'/ {
    # finalize this verse
  }

  # word
  when /'<w>' <( <.graph>+ )> '</w>'/ {
    push @current-verse, ~$/;
  }

  # name tags
  # must be after more specific regexes
  when /'<' <tag=.ident> '>' $<value> = [<.ident>|\d+] {} "</$<tag>>"/ {
    if $in-names {
      %names{~$<tag>} = ~$<value>
    } else {
      note "not handling $<tag> => $<value> outside of <names>"
    }
  }

  default { note "unexpected text '$_'" }
}

注意when让你不必做next.
因为我们只是使用$_代替$line，这样我们就可以直接使用正则表达式作为这些条件的条件when声明。

我懒得用^ or $所以也没有必要trim or use ^\s* and \s*$.
它确实使它变得更加脆弱，所以如果它成为问题，您可能需要更改它。

如果您真的只想像现在一样进行简单的线路处理，我相信您可以更改上述内容以满足您的需求。

我想让这对将来遇到这个问题的人更有用。因此，我从文件创建了一个数据结构，而不是遵循您正在做的事情。

真的，如果我要的话，我可能只会接触语法.parse()一次性完成整个文件。

这就是这样的语法。

grammar Book {
  rule TOP {
    <names>
    <chapter> +
    # note that there needs to be a space between <chapter> and +
    # so that whitespace can be between <c…>…</c> elements
  }

  rule names {
    '<names>'  ~  '</names>'
    <name> +
  }

  token name {
    '<' <tag=.ident> '>'
    $<name> = [<.ident>|\d+]
    {}
    "</$<tag>>"
  }

  rule chapter {
    # note space before ]
    ['<c n="' <number> '">' ]  ~  '</c>'
    <verse> +
  }
  rule verse {
    ['<v n="' <number> '">' ]  ~  '</v>'
    <word> +
  }

  token number { \d+ }
  token word { '<w>' <( <.graph>+ )> '</w>' }
}

进行与您一直在做的类似的处理

class Line-Actions {
  has IO::Handle:D $.file-out is required;
  has $!number-type is default<chapter>;

  method name ($/) {
    if $<tag> eq 'hebrewname' {
      say "hebrew name of book is $<name>";
    }
  }

  # note that .chapter and .verse will run at the end
  # of parsing them, which is too late for when .word is processed
  # so we do it in .number instead
  method number ($/) {
    say "$!number-type number is $/";
    $!number-type = 'verse';
  }
  method chapter ($/) {
    # reset to default of "chapter"
    # as the next .number will be for the next chapter
    $!number-type = Nil;
  }

  method word ($/) {
    say "word is $/";
    $!file-out.print(~$/);
    say "number of graphemes in word is $/.chars()";
    .say for "$/".comb.map: *.uninames.join(', ');
  }
}


Book.parsefile(
  $filename,
  actions => Line-Actions.new( 'outfile.txt'.IO.open(:w) )
);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

raku 语法的标记不会命中文档的第一次出现，但会命中类似的后续出现的相关文章

具有挑战性的问题 - 使用 PHP 对 XML 数据进行排序

我有 xml 文件其中包含大量产品数据我需要根据我的字段 ProductRange 的数据对我的产品进行排序 ProductRange urldecode GET Range XML 文件数据
以 UTF8 而不是 UTF16 输出 DataTable XML

我有一个 DataTable 我正在使用 WriteXML 创建一个 XML 文件尽管我在以 UTF 16 编码导出它时遇到问题并且似乎没有明显的方法来更改它我了解 NET 在字符串内部使用 UTF 16 这是正确的吗然后我通过
为 XSD 中的元素指定命名空间

我有一个 XML 需要为其生成 XSD 我的 XML 如下实例
将巨大的模式编译成Java

有两个主要工具提供了将 XSD 模式编译为 Java 的方法 xmlbeans 和 JAXB 问题是 XSD 模式确实很大 30MB 的 XML 文件大部分模式在我的项目中没有使用所以我可以注释掉大部分代码但这不是一个好的解决方案目
使用批处理解析 XML 文件以从某些特定节点获取值

对于每个节点列表有Lists作为其父节点我想获取保存前三个节点的变量值即entry output and token 我知道如何使用 vbscript 来做到这一点但对我来说批量解决方案更有趣请问可以做吗
VBA XML V6.0 如何让它等待页面加载？

我一直在努力寻找答案但似乎找不到任何有用的东西基本上我是从一个网站上拉取的当您在该页面上时该网站会加载更多项目我希望我的代码在加载完成后提取最终数据但不知道如何让 XML httprequest 等待 Edited Sub p
在线性布局内的 ScrollView 内并排对齐 TextView

我有一个带有滚动视图的线性布局我想保留它的当前格式但只需将 textView2a 和 textView3a 并排放置而不会破坏我当前的布局格式我已经包含了我最近的尝试但它们似乎不正确提前致谢 Java菜鸟当前有效的 XML
xsi:type 属性搞乱了 C# XML 反序列化

我使用 XSD exe 根据 XML 架构 xsd 文件自动生成 C 对象我正在反序列化 OpenCover 输出但其中一个部分类未正确生成这是导致异常的行
Android：默认 XML 编辑器不再打开 [不支持的内容类型错误]

我使用 Eclipse 在 Android 中开发应用程序已经有一段时间了我最近将Android SDK平台更新到3 0 API 11 现在我无法通过双击打开 AndroidManifest xml 或 Layout 文件夹中的任何其他
使用 Jackson 使用不带注释的属性来序列化 xml

我目前正在使用 Jackson 编写一些代码将遗留 POJO 序列化为 XML 但我需要使用属性而不是子元素来序列化它们有没有办法使用 Jackson 来做到这一点而不需要向遗留类添加注释有没有办法使用 Jackson 来做到这一点
REXX 或 JCL 中的 XML 处理

在 PS 文件中我有如下 XML 数据 For ex
使用 sed 更新 xml 属性（Windows + cygwin 和 Linux）？

我需要使用 sed 命令对 xml 文件进行更新但我在这方面遇到了麻烦它需要在 Windows 使用 cygwin 和 Linux 上运行 XML 具有以下元素
将 XSD 文件转换为 C# 可序列化类

我尝试遵循以下答案这个问题 https stackoverflow com questions 87621 how do i map xml to c objects 但无法让 xsd exe 愉快地获取 XSD 文件并将它们转换为类此处
如何使用XPath选择非空段落？

我想要抓取的网页具有类似的结构每个都有一个段落是一个问题一个段落是一个答案我想抓取每个问题和答案并将它们存储在两个项目中问题是在某些页面上问题和答案分别是 xxx p 1 and xxx p 2 但在其他页面上 xxx p 1
Java 中的 XPath 节点集

我在 eclipse 中有这段代码 NodeSet nodes NodeSet xPath evaluate expression inputSource XPathConstants NODESET 它给我 NodeSet 上的编译时错误
在 bash 脚本中提取 XML 值 [重复]

这个问题在这里已经有答案了我正在尝试从 xml 文档中提取一个值该文档已作为变量读入我的脚本中原始变量 data is
如何更换HXT中的节点？

给定一个示例 xml 文件
Ebay api GetSellerList，解析响应 XML

我正在使用 eBay 交易 api 来获取当前列出的卖家股票我正在使用 GetSellerList 调用我在解析 xml 时遇到问题然后将其插入到网站商店中这是 xml 请求
基于xsd模式生成xml（使用.NET）

我想根据我的 xsd 架构 cap xsd 生成 xml 文件我找到了这篇文章并按照说明进行操作使用 XSD 文件生成 XML 文件 https stackoverflow com questions 6530424 generatin
JAXB - 列表<可序列化>？

我使用 xjc 制作了一些课程 public class MyType XmlElementRefs XmlElementRef name MyInnerType type JAXBElement class required false

随机推荐

修改类以封装而不是继承

我所使用的代码库具有一个继承自的数据库类MDB2 http pear php net package MDB2 这构成了正在使用的 MVC 框架自定义构建的事务的基础而模型又继承自 db 我相信你们中的一些人已经注意到这会导致一个相
如何安全地检查节点是否为空？（Symfony 2 爬虫）

当我尝试从页面中获取一些不存在的内容时我发现了此错误 The current node list is empty 500 Internal Server Error InvalidArgumentException 如何安全地检查该内容
制作文件有问题吗？

为什么当我用 makefile 编译程序时我得到 gcc Wall pedantic src main c o wk main o src main c 9 11 warning C style comments are not allow
如何在 IE 和 Firefox 中解析 JavaScript 中的 XML？

我正在尝试编写一段代码来解析 IE 和 Firefox 中的 javascript 以下在 IE 中有效在 Firefox 中也能正常运行 function XmlDom sXml var oXml if window ActiveXOb
在 Flask-migrate ValueError 中：位置 15 处的连接字符串中的插值语法无效

我在用flask migrate使用flask sqlalchemy 在flask 中创建和迁移数据库一切都工作正常直到我更改了包含的数据库用户密码然后它停止工作所以我根据以下内容更新了我的代码当密码包含特殊字符时写入连接字符串
在Python中使用递归和map

我正在尝试学习函数式编程概念练习使用 map reduce 展平嵌套列表我的代码 lists 1 2 3 4 5 6 7 8 9 def flatten lists return map lambda x flatten x if i
Rails 服务器启动后退出

我想开始使用 Rails 我正在使用 git bash 当我尝试启动 Rails 服务器时出现此错误我已经尝试到处搜索但找不到这个问题的解决方案我为此下载了 ruby 3 0 0 谢谢 gt Booting Puma gt Rail
QSqlDatabase：Ubuntu 15.04 64 位上未加载 QMYSQL 驱动程序

在 Ubuntu 15 04 64 位中我安装了 Qt5 6 在线安装程序在尝试将开发环境从 Windows 7 迁移到 Linux 时我遇到了以下问题 SqlDatabase QMYSQL driver not loaded 下列的
泛型类型的签名约束

struct S int a int b void fun T T t I want fun跟共事S仅有的签名约束是什么样的我做不到fun的成员S 与void fun T T t if is T S I get Error struc
Postgres 跨阵列频率计数

我有一列文本如何获取列中所有对象的频率计数例子 col a a b a b a 输出应该是 col a count a 3 b 2 我的查询 with all tags as select array agg c from select
通过 RStudio 使用 RMySQL 的 SSH 隧道

我是使用 Mac OS X 使用 RStudio 的 R 新手我成功地使用sequel Pro来查看DB 就像这样我将 dbConnect 与 RMySQL 一起使用将 DBI 下面的代码与 RStudio 一起使用 library
如何从嵌套对象字面量访问外部成员？

在下面的代码中可以从嵌套对象字面量访问 x 成员吗 var outer x 0 inner a x 1 x is undefined b outer x 1 outer is undefined c this x 1 This doesn
Kubernetes 部署。如何更改容器环境变量以进行滚动更新？

以下是我在 google 上使用 kubernetes 的方式我有一个节点应用程序比方说图书门户节点应用程序正在使用配置的环境变量 Step1 我创建了 docker 文件并推送 gcr io
如何在 Typescript/Webpack 的 Bitbucket Pipelines 中增加 NodeJS 堆（--max-old-space-size）？

我在无服务器 TypeScript 项目中的 webpack 打包步骤中遇到内存问题我努力了增加内存限制 npm 包无济于事从 npm run 脚本调用以下命令通过bitbucket pipelines yml直接调用以下命令 no
取消选择所有 jquery 选项卡时遇到问题

我设置了一些 jQuery 选项卡一开始没有选择任何选项卡如下所示 tabs tabs selected 1 然后我还有一个单独的链接按下该链接需要取消选择所有选项卡 deselectButton click function tab
从另一个进程访问 mmap 内存

我开始玩 mmap 了我正在尝试创建一个示例工作区然后将其扩展到实际案例这就是我想要实现的目标流程1 mmap一个文件实际上是一个设备但是用文本文件生成一个例子是可以的进程2 不是从进程1复制而来只是一个独立的进程读取进程
在Python中编辑文本文件中的特定行

假设我有一个文本文件其中包含 Dan Warrior 500 1 0 有没有办法可以编辑该文本文件中的特定行现在我有这个 usr bin env python import io myfile open stats txt r dan
重复的 ID。日本科学基金会

我的 JSF 有问题谁能说为什么这不起作用
在 matlab GUI 中创建选项卡

如何在 matlab gui 中创建选项卡我不久前做了这样的事情我的意思是我在 GUI 顶部创建了一些菜单然后按每个菜单将设置某些控件的可见属性而其他控件则关闭这种方式对于小型 GUI 很有用但在 beag GUI 中会遇到问题
raku 语法的标记不会命中文档的第一次出现，但会命中类似的后续出现

我想处理希伯来语的整个 Tanach 文件为此我选择了 Raku 语言因为它的一些功能语法和 unicode 支持因此我定义了一些标记来选择相关数据 grammar HEB token TOP

raku 语法的标记不会命中文档的第一次出现，但会命中类似的后续出现

raku 语法的标记不会命中文档的第一次出现，但会命中类似的后续出现 的相关文章

随机推荐

热门标签

raku 语法的标记不会命中文档的第一次出现，但会命中类似的后续出现的相关文章