将字符集转换为 nfa/dfa 的高效算法

2023-11-26

我目前正在研究扫描仪生成器。发电机已经工作正常。但是当使用字符类时，算法会变得非常慢。

扫描仪生成器生成 UTF8 编码文件的扫描仪。应支持完整范围的字符（0x000000 到 0x10ffff）。

如果我使用大字符集，例如任何运算符“.”或 unicode 属性 {L}，nfa（以及 dfa）包含许多状态（> 10000）。因此，nfa 到 dfa 的转换并创建最小 dfa 需要很长时间（即使输出最小 dfa 仅包含几个状态）。

这是我当前创建 nfa 字符集部分的实现。

void CreateNfaPart(int startStateIndex, int endStateIndex, Set<int> characters)
{
transitions[startStateIndex] = CreateEmptyTransitionsArray();
foreach (int character in characters) {
    // get the utf8 encoded bytes for the character
    byte[] encoded = EncodingHelper.EncodeCharacter(character);
    int tStartStateIndex = startStateIndex;
    for (int i = 0; i < encoded.Length - 1; i++) {
        int tEndStateIndex = transitions[tStartStateIndex][encoded[i]];
        if (tEndStateIndex == -1) {
           tEndStateIndex = CreateState();
               transitions[tEndStateIndex] = CreateEmptyTransitionsArray();
        }                   
        transitions[tStartStateIndex][encoded[i]] = tEndStateIndex;
        tStartStateIndex = tEndStateIndex;
    }
    transitions[tStartStateIndex][encoded[encoded.Length - 1]] = endStateIndex;
}

有谁知道如何更有效地实现该功能以仅创建必要的状态？

EDIT:

更具体地说，我需要一个类似的函数：

List<Set<byte>[]> Convert(Set<int> characters)
{
     ???????
}

将字符 (int) 转换为 UTF8 编码 byte[] 的辅助函数定义为：

byte[] EncodeCharacter(int character)
{ ... }

有多种方法可以处理它。它们都归结为在数据结构中一次处理字符集，而不是枚举整个字母表。这也是在合理的内存量中制作 Unicode 扫描仪的方法。

关于如何表示和处理字符集，您有多种选择。我目前正在研究一种解决方案，该解决方案保留边界条件和相应目标状态的有序列表。如果您必须在每个时刻扫描整个字母表，那么您可以更快地处理这些列表上的操作。事实上，它的速度足够快，可以以可接受的速度在 Python 中运行。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将字符集转换为 nfa/dfa 的高效算法的相关文章

在 OSX 和 GNU 中使用“find”删除带有数字的文件名

我正在尝试搜索一个文件并删除名称中包含数字的类似文件我的文件 txt from myfile 00 04 version txt myfile 00 txt find E iregex myfile 0 9 1 txt 删除 myfile
URL路径相似度/字符串相似度算法

我的问题是我需要比较 URL 路径并推断它们是否相似下面我提供了要处理的示例数据 GROUP 1 robots txt GROUP 2 bot html GROUP 3 phpMyAdmin 2 5 6 rc1 scripts setup
多行 C# 正则表达式在空行后匹配

我正在寻找一个多行正则表达式它将匹配空行后出现的情况例如给定下面的示例电子邮件我想匹配发件人 Alex From s 可以匹配任何 From 行但我希望它仅限于正文中的行第一个空白行之后的任何行 Received from a
需要 RegEx 返回第一段或前 n 个单词

我正在寻找一个正则表达式来返回段落中的前 n 个单词或者如果该段落包含少于 n 个单词则返回完整的段落例如假设我最多需要前 7 个单词 p one two p
生成所有多集大小为 n 的分区的算法

我一直在试图找出一种方法来生成多重集的所有不同的大小为 n 的分区但到目前为止却空手而归首先让我展示一下我想要实现的目标假设我们有一个输入向量uint32 t std vector
使用 Python 从网站下载所有 pdf 文件

我遵循了几个在线指南试图构建一个可以识别并从网站下载所有 pdf 的脚本从而避免我手动执行此操作到目前为止这是我的代码 from urllib import request from bs4 import BeautifulSoup
如何使用 sed 仅删除双空行？

我找到了这个问题和答案 https stackoverflow com questions 4651591 howto use sed to remove only triple empty lines关于如何删除三重空行但是我只需要对
如何在 sed 中转义方括号[重复]

这个问题在这里已经有答案了我正在使用 grep 和 sed 解析遗留的 C 代码当尝试替换方括号时发生了一些奇怪的事情以下代码替换方括号效果很好 echo xyx xzx xyx sed s g 结果是 xyx xzx xyx 当我
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
为什么这个没有特殊字符的正则表达式会匹配更长的字符串？

我正在使用此方法来尝试查找匹配项例如 Regex Match A2 TS OIL TS OIL RegexOptions IgnoreCase Success 我得到了真实的结果我很困惑我认为这应该返回 false 因为模式中没有特殊
直接选择排序与交换选择排序

有什么区别直接选择排序 vs 交换选择排序今天我陷入了一场争论我的教授在他的讲义中使用了这两个术语维基百科和任何教科书或网站都会为您提供的选择排序就是他所说的交换选择排序我以前从未听说过交换选择排序这个术语仅选择排序并且
你能挽救我的负面回顾示例来传达数字吗？

在高级正则表达式一章中掌握 Perl http oreilly com catalog 9780596527242 我有一个损坏的示例我无法找到一个很好的修复方法这个例子可能为了自己的利益而试图变得太聪明但也许有人可以帮我解决它
数学组合的完美最小哈希

首先定义两个整数N and K where N gt K 两者都在编译时已知例如 N 8 and K 3 接下来定义一组整数 0 N or 1 N 如果这使答案更简单并调用它S 例如 0 1 2 3 4 5 6 7 的子集数量S wi
选择前 n 个字符相等的行（MySQL）

我有一张带有玩家句柄的桌子如下所示 1 N Laka 2 N James 3 nor Brian 4 nor John 5 Player 2 6 Spectator 7 N Joe 从那里我想选择第一个 n 字符匹配的所有玩家但我不知道
子序列和

给定一个整数数组例如 1 2 3 1 查找是否存在总和为0并返回它例如 1 2 3 or 2 3 1 检查每个子序列是O n 2 这效率太低了有改进的想法吗创建一个新数组其中每个元素等于前一个元素加上该元素的总和 Input 1
具有 2 个属性的背包算法。如何在 3d 数组中实现它？

当有超过 1 个属性时我无法理解背包问题当有 1 个属性时我必须编写一个使用具有 2 个属性的背包算法的程序老师告诉我们它必须在 3d 数组中完成错误的实现将导致 O 2 n 处理时间我无法想象这样的数组会是什么样子假设这是
git 匹配多个单词的标签

我们可以得到最后一个 git 标签它以一个单词例如 TEST 开头如下所示 git describe tag dirty match TEST 我想知道如何获得最后一个以 word1 开头的标签orword2 例如测试OR跑步我尝试
PHP 中的 Preg_replace

我想替换中包含的字符串中的内容content 它是多行等 preg replace 函数应该删除整个 com 没有垫子蒙特尝试这个 result preg replace s replacement content subject
从正则表达式对象中提取允许字符串的最大长度

一旦加载到 C 中是否可以从正则表达式模式中提取允许的字符串的最大长度Regex object 如果我有一个正则表达式字符串定义为 A Z0 9 0 20 我可以使用字符串操作来获取最大允许长度20 但是有没有一种方法可以更轻松地实现这
如何从字符串中删除所有数字？

我想删除字符串 0 9 中的所有数字我写了这段有效的代码 words preg replace 0 words remove numbers words preg replace 1 words remove numbers words

随机推荐

pygraphviz ValueError：在路径中找不到程序点[重复]

这个问题在这里已经有答案了问题是我使用的是 Windows7 并且安装了 pygraphviz 库和 Graphviz 应用程序 Graphviz 应用程序位于 C Program Files 中当我在 python 上运行程序时出
是否有跨浏览器的方式来压缩页面上的文本？

我正在寻找一种方法来压缩页面上相对较小的文本区域以模仿使用非标准字体完成的图形按钮理想情况下只有字母会被压扁或变薄而单词之间的间距或多或少相同我知道有一些 CSS 属性可以做这样的事情但它们更关注字母之间的间距而不是字母本身的
HTML 格式的 Python 单元测试报告

如何生成 HTML 格式的 python 单元测试报告再次返回答案报告可以使用 HTMLTestRunner 生成例如 import random import unittest import HTMLTestRunner class
如何在引导程序中制作固定位置行？

我有一个类似表格的结构其中第一个 div class row 充当表的标题我正在尝试修复它因此当我向下滚动页面时用户仍然可以看到列标题我给它定位固定这实现了这一点但现在列的宽度被丢弃了 div class containe
如何从匿名类返回值？

我有以下代码正如你所看到的方法postTestResults应该返回一个布尔值现在的问题是在postTestResults我创建一个内部类AsyncHttpResponseHandler我覆盖onSuccess and onFailur
如何使用 WiX Burn MBA 捆绑包在主要升级期间检测当前安装的功能？

我正在使用 WiX 3 7 的刻录托管引导程序应用程序功能来创建基于 MBA 的自定义安装程序对于我的捆绑包链中的每个软件包在执行 MinorUpdate 时我可以轻松检测到哪些软件包功能已安装以确保在升级过程中通过使用引导程序的
ImportError：没有名为 sklearn.feature_extraction.text 的模块

我使用来自python 2 7 and pacman包管理器并用它安装 sclearn 但是当我遇到导入错误时 gt gt gt from sklearn feature extraction text import TfidfVecto
替换单词列表中字符串中的多个单词

我有一个单词列表 string BAD WORDS xxx o2o My list is actually a lot bigger about 100 words 我有一些文本通常很短最多 250 个单词我需要删除所有BAD WOR
我们可以在不同域的两个页面之间使用 IndexedDB 吗？

我在我的一页中创建了一个 IndexedDB 对象存储让对象存储名称为 ShopStore 现在我想从不同的页面打开相同的对象存储是否可以我的两个网页位于不同的域中根据MDN您不能对indexedDB进行跨域访问出于安全原因您不
我如何知道一个 STL 对象占用了多少内存？

我需要收集有关程序中内存使用情况的统计数据我的代码大部分是用STL编写的有什么方法可以了解 STL 对象消耗了多少内存例如 string s1 hello string s2 hellohellohellohellohellohell
shell中如何处理超过10个参数

我在 Linux 上使用 bash shell 想要在 shell 脚本中使用超过 10 个参数使用花括号将它们分开 echo 10 任何位置参数都可以保存在变量中以记录其使用并使后面的语句更具可读性 city name 10 如果传递的
确定更改的事件是否因用户输入而发生

在 C 中无论该值是由用户直接更改还是由于某些其他事件而以编程方式更改控件例如 numericupdown 的 Changed 事件都会被触发有没有办法确定事件是否是由于用户输入而发生的例如手动更改 numericUpDown1
当块位于初始值设定项中时捕获块中的变量

考虑一下 id observer NSNotificationCenter defaultCenter addObserverForName MyNotification object nil queue nil usingBlock NS
正则表达式模式用于检查字符串中每个单词的第一个字母在 Javascript 中是否为大写

例如我的字符串是Foo Bar 该字符串应该与模式匹配如果字符串是Foo bar 该字符串不应匹配如果字符串是福巴福巴字符串应该匹配如果字符串是Foo 它也应该匹配到目前为止我只有这个模式 A Z 1 s 基本上我只会接受每个单词
WPF：如何通过 XAML 将整个 Control 作为 CommandParameter 传递？

我正在使用 MVVM 自定义 ICommand 对象由 ViewModel 层提供一个 ViewModel 对象可以同时通过 DataContext 属性附加到许多 View 对象窗口页面等在 ICommand CanExecute
SqlDependency 与 EntityFramework 6（异步）

我正在使用 EF 6async查询特征例如 var list await cx Clients Where c gt c FirstName Length gt 0 ToListAsync 我还想启动对这些查询的 SQL 依赖项以便在数
如何更改 WCF 中的 SOAP 信封架构？

我正在通过 WCF 连接到第三方端点但遇到一个问题 WCF 生成的 SOAP 信封架构与端点不兼容目前 WCF 正在生成
滚动到特定 div

我有几个divs posts其中有一个attr data id这对应于mysql DB id div class posts div div class posts div 现在如果我想滚动到特定的div只有我知道data id 我将如何滚
RX Observable.TakeWhile 检查每个元素之前的条件，但我需要在之后执行检查

Observable TakeWhile 允许您在条件为真时运行序列使用委托以便我们可以对实际序列对象执行计算但它会在每个元素之前检查此条件如何在每个元素之后执行相同的检查下面的代码演示了这个问题 void RunIt List
将字符集转换为 nfa/dfa 的高效算法

我目前正在研究扫描仪生成器发电机已经工作正常但是当使用字符类时算法会变得非常慢扫描仪生成器生成 UTF8 编码文件的扫描仪应支持完整范围的字符 0x000000 到 0x10ffff 如果我使用大字符集例如任何运算符或 uni

将字符集转换为 nfa/dfa 的高效算法

将字符集转换为 nfa/dfa 的高效算法 的相关文章

随机推荐

热门标签

将字符集转换为 nfa/dfa 的高效算法的相关文章