解析文本最快的方法是什么？

2024-01-06

假设我想提取在某个文本文件中找到的给定字符串后面的第一个单词（或浮点数）（请参阅如何提取字符串后面的第一个单词？ https://stackoverflow.com/questions/3549877/how-to-extract-the-first-word-that-follows-a-string）。我知道您可以使用 perl 或 sed 以及可能还有许多其他方式来完成此操作。我正在寻找性能。最快的解析方法是什么？

If you're looking for a fixed string, you probably want to search for it using something like Boyer-Moore or Boyer-Moore-Horspool (for the latter, I'd recommend Ray Gardner's implementation). Note that B-M and B-M-H are both sublinear. Regular expressions, by contrast, are linear at best¹, and many implementations (those that use backtracking) are quadratic.

下一步是确保尽快将数据读入内存。事实上，这通常会成为瓶颈。不幸的是，为了很好地处理瓶颈，您通常必须使用一些不可移植的代码。在Linux下，mmap往往是你最好的选择，而在 Windows 下你是usually最好一次读取大块，然后调用CreateFile与FILE_FLAG_NO_BUFFERING旗帜。还值得使用 I/O 完成端口 (IOCP) 来执行读取，这样您就可以并行执行搜索和读取。

¹In theory it would be possible to write an RE engine that did sublinear searching for the right kinds of patterns -- but if there's any that actually does, I'm not aware of it.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

string

Parsing

解析文本最快的方法是什么？的相关文章

为什么 Parsec 的 sepBy 停止并且不解析所有元素？

我正在尝试解析一些逗号分隔的字符串该字符串可能包含也可能不包含具有图像尺寸的字符串例如 hello world 300x300 good bye world 我写了下面的小程序 import Text Parsec import qua
如何使用 Unicode 十六进制值 (UTF-16) 在 Swift 中表达字符串

我想在 Swift 中使用十六进制值编写 Unicode 字符串我已阅读文档 https developer apple com library prerelease ios documentation Swift Conceptual
自动解析 PHP，将 PHP 代码与 HTML 分离

我正在开发一个大型 PHP 代码库我想将 PHP 代码与 HTML 和 JavaScript 分开我需要对 PHP 代码进行多次自动搜索和替换对 HTML 进行不同的搜索和替换对 JS 进行不同的自动搜索和替换有没有一个好的解析器
如何计算文件中单词的长度？爪哇

我正在尝试编写一个代码来计算文件中特定长度的单词数例如 How are you 会打印 Proportion of 3 letter words 100 3 words 我想计算长度为 1 2 3 4 5 6 7 8 9 10 11 12
Java 9 中紧凑字符串和压缩字符串的区别

有什么优点紧凑的字符串 http openjdk java net jeps 254JDK9 中的压缩字符串压缩字符串 Java 6 和紧凑字符串 Java 9 都有相同的动机字符串通常实际上是 Latin 1 因此浪费了一半的空间和
使用 js-xlsx 解析 Excel 工作表

我正在尝试解析用户指定的目录中的所有 Excel 文件但js xlsx我正在使用的库似乎需要手动导航 var url test files test xlsx lt Located in the project directory var
非法转义字符“\”

我想在链接末尾获取名称所以我这样做了 if invName substring j k equals copyf invName substring 0 j Eclipse 说字符串文字没有用双引号正确关闭如何将字符串与此字符进行比较
如何在 C++ 中对静态缓冲区执行字符串格式化？

我正在处理一段对性能要求非常高的代码我需要执行一些格式化的字符串操作但我试图避免内存分配甚至是内部库的内存分配在过去我会做类似以下的事情假设是 C 11 constexpr int BUFFER SIZE 200 char bu
如何用C++解析复杂的字符串？

我试图弄清楚如何使用解析这个字符串sstream 和C 其格式为 string int int 我需要能够将包含 IP 地址的字符串的第一部分分配给 std string 以下是该字符串的示例 std string 127 0 0 1 1
C 中什么函数可以替换字符串中的子字符串？

给定一个 char 字符串我想查找所有出现的子字符串并将其替换为备用字符串我没有看到任何简单的函数可以实现这一点
用于冒号分隔标签的 XML 解析器？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
“单词的正则表达式”（语义替换）-任何示例语法和库吗？

我正在寻找在给定过程语言的情况下对单词而不是字符进行正则表达式样式转换的常用技术的语法示例例如为了追踪复制人们可能想要创建一份具有相似含义但具有不同单词选择的文档我希望能够简洁地定义这些可以应用于文本流的可能的转换例如快速地no
strlen - 字符串的长度有时会增加 1

我正在做一些 C 智力题在大多数情况下我能够找到正确的答案但我遇到了问题我通过使用编译器知道正确的答案但我不知道原因看一下代码 char c abc 012 0x34 什么会strlen c 返回使用标准 C 编译器我的编译
使用起始字符串和结束字符串从长字符串中提取子字符串？

我有这个长字符串它是一个长的连续字符串 Home address H NO 12 SECTOR 12 GAUTAM BUDH NAGAR NOIDA 121212 UTTAR PRADESH INDIA 911112121212 Last
将 Python 输入字符串限制为特定字符和长度

我刚刚开始学习我的第一种真正的编程语言 Python 我想知道如何限制用户输入raw input特定字符和特定长度例如如果用户输入包含除字母之外的任何内容的字符串我想显示一条错误消息a z 我想显示超过 15 个字符的用户输入之一第
检查子字符串是否在字符串列表中？

我之前已经找到了这个问题的一些答案但它们对于当前的Python版本来说似乎已经过时了或者至少它们对我不起作用我想检查字符串列表中是否包含子字符串我只需要布尔结果我找到了这个解决方案 word to check or wordlis
R：如何根据规范更改数据框中的列名称

我有一个数据框它的开头如下 SM H1455 SM V1456 SM K1457 SM X1461 SM K1462 ENSG00000000419 8 290 270 314 364 240 ENSG00000000457 8 252
为什么该字符串的长度比其中的字符数长？

这段代码 string a abc string b A C Console WriteLine Length a 0 a Length Console WriteLine Length b 0 b Length outputs Lengt
Objective-C 使用字符串池吗？

我知道Java https stackoverflow com questions 3801343 what is string pool in java and C http msdn microsoft com en us librar
C# 中单个 & 符号的第二个含义是什么？

我在 C 中使用了单个与号来表示检查second条件语句即使第一个是false 但以下似乎是不同的意思 of 总而言之谁能解释一下如何i 1在下面的例子中有效吗 List

随机推荐

对我的应用程序的大小感到困惑？

我对我的应用程序的大小有点困惑该文件夹和所有内容的大小为 25 9MB 在 Xcode 中存档后它显示估计 App Store 大小 49 8MB 有人知道这是为什么吗 Thanks 您是否正在为armv6和armv7进行编译如果您
CSS 边框内的边框

在的帮助下CSS 三角形教程 http css tricks com snippets css css triangle 我学会了创建三角形 arrow down width 0 height 0 border left 20px sol
PostgreSQL - 使用子查询更新多个列值

我需要能够使用子查询的结果更新表上的多个列一个简单的例子如下所示 UPDATE table1 SET col1 col2 SELECT MIN ship charge MAX ship charge FROM orders WHERE c
在 ASP.NET 中隐藏文本框

我正在使用 ASP NET 3 5 和 C 在我的页面上我需要有一个文本框该文本框必须对用户不可见但当您查看页面源代码时它必须在那里原因是另一个名为 Eloqua 的程序将查看页面源代码并且它必须获取该文本框的值该文本框的值将
如何调用辅助构造函数中的方法？

class foo val x Int def convertToInt z string do somthing to convert a string to an integer def this y string this conve
Java：如何从泛型类型获取类文字？

通常我见过人们像这样使用类文字 Class
AutoEventWireUp 页面属性是什么意思？

我不明白什么是AutoEventWireUppage属性负责我已读完本文 http support microsoft com kb 324151 但即便如此我也不明白当请求页面时它会引发各种事件这些事件被视为其一部分生命周期 ht
使用网络摄像头拍照给出黑色输出[Unity3D]

我在 Stackoverflow 问题中使用了 Bart 给出的代码我可以使用设备的相机在 Unity 中拍照吗 https stackoverflow com questions 24496438 can i take a photo i
Asp.Net 5 中的 ADO.Net

当我在 ASP Net 5 应用程序中使用连接字符串生成器时出现以下错误错误 CS0012 类型 DbConnectionStringBuilder 是在未引用的程序集您必须添加对程序集的引用 System Data 版本 4 0
在哪里可以找到 Microsoft.Office.Interop.Word.dll (2010)？

我获得了我正在尝试编译的 NET 项目的源代码尽管如此该项目使用了 Office 2010 中的引用命名空间 Microsoft Office Interop Word 但我在任何地方都找不到我能够下载该文件microsoft of
MySQL #1243 给 EXECUTE 的未知预准备语句处理程序 (stmt)

我正在关注这个tutorial http buysql com mysql 14 how to automate pivot tables html在我安装的 MySQL 版本上但它抛出一个错误 SET sql NULL SELECT G
使用 gcc 将 C 中的 float 转换为 unsigned int

我正在使用 gcc 来测试 float 到 unsigned int 之间的一些简单转换下面这段代码给出的结果是 0 const float maxFloat 4294967295 0 unsigned int a unsigned in
Intellij：如何为 javax.annotation.PostConstruct 添加 java.annotation 模块

我将项目使用的SDK升级到Java 10 以下导入语句导致错误导入 javax annotation PostConstruct 包 javax annotation 在模块 java xml ws annotation 中声明但模块
Mac 上的临时端口范围是多少？

我正在尝试对 Web 框架进行基准测试并发现没有足够的免费临时端口可能会伪造结果不幸的是我还没有找到我的 Mac 上的临时端口范围或者如何显示它基准测试者请注意临时端口限制 https web archive org web 2
Maven Eclipse 多模块阴影依赖

在多模块 Maven 项目中其中一个模块是阴影模块例如没有源但生成一个jar during package阶段其他模块将此模块作为依赖项引用全部位于同一父模块下有没有办法让 Eclipse 将着色模块识别为依赖项 Eclips
java.lang.NullPointerException：尝试在空对象引用上调用虚拟方法dispatchCancelPendingInputEvents

遇到一个问题我的 Android 应用程序在尝试启动活动时不断崩溃我无法重现该问题这只是从发生此问题的多个设备的日志中获取的堆栈跟踪 2020 03 08 14 58 28 717 5449 5449 I MonoDroid End
Android 使用 openssl 构建 PJSIP

我正在尝试在 Android 上构建具有 SSL TLS 支持的 PJSIP 我成功构建了 OpenSSL 以下这个答案 https stackoverflow com a 11170629 1274789 没有 fips 作为共享 so
在 Pandas 中结合 FacetGrid 和双 Y 轴

我试图绘制两个不同的变量通过因果关系链接 delai jour and date sondage在单个 FacetGrid 上我可以用这段代码做到这一点 g sns FacetGrid df verif sum col prefectu
多行 python 正则表达式

我有一个结构如下的文件 A some text B more text even more text on several lines A and we start again B more text more multiline text
解析文本最快的方法是什么？

假设我想提取在某个文本文件中找到的给定字符串后面的第一个单词或浮点数请参阅如何提取字符串后面的第一个单词 https stackoverflow com questions 3549877 how to extract the firs

解析文本最快的方法是什么？

解析文本最快的方法是什么？ 的相关文章

随机推荐

热门标签

解析文本最快的方法是什么？的相关文章