C++ 中分类字符串文字的高效内存存储和检索

2023-12-28

注：这是后续这个问题 https://stackoverflow.com/questions/3738092/c-string-literal-storage-between-multiple-copies-of-process-or-library.

我有一个“遗留”程序，它可以对大块 HTML 进行数百个字符串匹配。例如，如果 HTML 匹配 20 多个字符串中的 1 个，则执行某些操作。如果它与其他 4 个字符串中的 1 个匹配，则执行其他操作。有 50-100 组这些字符串与这些 HTML 块（通常是整个页面）进行匹配。

我正在努力重构这些混乱的代码，并试图想出一个好的方法来完成所有这些匹配。

这段代码的性能要求相当严格。在进行这些匹配时，它不需要等待 I/O，因此它们需要位于内存中。此外，该进程可能有 100 多个副本同时运行，因此启动时的大量 I/O 可能会导致其他副本的 I/O 缓慢。

考虑到这些要求，如果这些字符串的一个副本仅存储在 RAM 中，那么效率将是最高的（请参阅上面链接的我的上一个问题）。

该程序目前在带有 Microsoft 编译器的 Windows 上运行，但我希望解决方案尽可能跨平台，因此我认为我不想使用 PE 资源文件或其他东西。

映射外部文件可能会起作用，但我会遇到保持程序版本和数据版本同步的问题，一个版本通常不会在没有另一个版本的情况下发生更改。此外，这还需要一些文件“格式”，这增加了我不想拥有的复杂性。

因此，在完成所有这些前言之后，似乎最好的解决方案是拥有一堆字符串数组，然后我可以对其进行迭代。这看起来有点混乱，因为我大量混合了代码和数据，但是根据上述要求，有没有更好的方法来处理这种情况？

我不确定当前的实施有多慢。因此，在不知道需要什么级别的优化的情况下，很难推荐优化。

然而，鉴于此，我可能建议采用两阶段方法。获取你的字符串列表并将其编译成基数树 http://en.wikipedia.org/wiki/Radix_tree，然后将此树保存为某种自定义格式（XML 可能足以满足您的目的）。

然后你的进程启动应该包括读取基数树和匹配。如果您想要/需要优化树的内存存储，可以作为一个单独的项目来完成，但在我看来，改进匹配算法将更有效地利用时间。在某些方面，这是一个“推出你自己的正则表达式系统”的想法。与使用解析器生成器的建议非常相似。

编辑：我使用了与此类似的东西，作为预编译步骤，自定义脚本生成某种程度优化的结构并将其保存到大型 char* 数组中。（显然它不能太大，但这是另一种选择）

这个想法是将列表保留在那里（使维护相当容易），但预编译步骤可以加快运行时的访问速度。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

C++ 中分类字符串文字的高效内存存储和检索的相关文章

如何在 Unity 中从 RenderTexture 访问原始数据

问题的简短版本我正在尝试访问 Unity 中 RenderTexture 的内容我一直在使用 Graphics Blit 使用自己的材质进行绘制 Graphics Blit null renderTexture material 我的材
Func 方法参数的首选命名约定是什么？

我承认这个问题是主观的但我对社区的观点感兴趣我有一个缓存类它采用类型的缓存加载器函数Func
C++ 求二维数组每一行的最大值

我已经设法用这个找到我的二维数组的每一行的最小值 void findLowest int A Cm int n int m int min A 0 0 for int i 0 i lt n i for int j 0 j lt m j if
如何在C++中实现模板类协变？

是否可以以这样一种方式实现类模板如果模板参数相关一个对象可以转换为另一个对象这是一个展示这个想法的例子当然它不会编译 struct Base struct Derived Base template
替换打字稿中字符串中字符的所有实例？

我正在尝试用 x 字符替换电子邮件中的所有句号例如电子邮件受保护 cdn cgi l email protection 将变为 myxemail emailxcom 电子邮件设置为字符串我的问题是它不只是替换句号而是替换每个字符所
C# 中可空类型是什么？

当我们必须使用nullable输入 C net 任何人都可以举例说明可空类型何时使用可空类型 https web archive org web http broadcast oreilly com 2010 11 understand
c 中的错误：声明隐藏了全局范围内的变量

当我尝试编译以下代码时我收到此错误消息错误声明隐藏了全局范围内的变量无效迭代器节点根我不明白我到底在哪里隐藏或隐藏了之前声明的全局变量我怎样才能解决这个问题 typedef node typedef struct node
为什么模板不能位于外部“C”块内？

这是一个后续问题一个答案 https stackoverflow com questions 4866433 is it possible to typedef a pointer to extern c function type wit
使用向量的 merge_sort 在少于 9 个输入的情况下效果很好

不知何故我使用向量实现了合并排序问题是它可以在少于 9 个输入的情况下正常工作但在有 9 个或更多输入的情况下它会执行一些我不明白的操作如下所示 Input 5 4 3 2 1 6 5 4 3 2 1 9 8 7 6 5 4 3
网络参考共享类

我用 Java 编写了一些 SOAP Web 服务在 JBoss 5 1 上运行其中两个共享一个类 AddressTO Web 服务在我的 ApplycationServer 上正确部署一切都很顺利直到我尝试在我的 C 客户端中使用
可空属性与可空局部变量

我对以下行为感到困惑Nullable types class TestClass public int value 0 TestClass test new TestClass Now Nullable GetUnderlyingType
什么是 C 语言的高效工作流程？ - Makefile + bash脚本

我正在开发我的第一个项目该项目将跨越多个 C 文件对于我的前几个练习程序我只是在中编写了我的代码main c并使用编译gcc main c o main 当我学习时这对我有用现在我正在独自开展一个更大的项目我想继续自己进行编译
将日期参数传递给对 MVC 操作的 ajax 调用的安全方法

我有一个 MVC 操作它的参数之一是DateTime如果我通过 17 07 2012 它会抛出一个异常指出参数为空但不能有空值但如果我通过01 07 2012它被解析为Jan 07 2012 我将日期传递给 ajax 调用DD MM
EPPlus Excel 更改单元格颜色

我正在尝试将给定单元格的颜色设置为另一个单元格的颜色该单元格已在模板中着色但worksheet Cells row col Style Fill BackgroundColor似乎没有get财产是否可以做到这一点或者我是否必须在互联
如何构建印度尼西亚电话号码正则表达式

这些是一些印度尼西亚的电话号码 08xxxxxxxxx 至少包含 11 个字符长度 08xxxxxxxxxxx 始终以 08 开头我发现这个很有用 Regex regex new Regex 08 0 9 0 9 0 9 0 9 0 9
GDK3/GTK3窗口更新的精确定时

我有一个使用 GTK 用 C 语言编写的应用程序尽管该语言对于这个问题可能并不重要这个应用程序有全屏gtk window与单个gtk drawing area 对于绘图区域我已经通过注册了一个刻度回调gtk widget add ti
窗体最大化时自动缩放子控件

有没有办法在最大化屏幕或更改分辨率时使 Windows 窗体上的所有内容自动缩放我发现手动缩放它是正确的但是当切换分辨率时我每次都必须更改它 this AutoScaleDimensions new System Drawing Siz
更改显示的 DPI 缩放大小使 Qt 应用程序的字体大小渲染得更大

我使用 Qt 创建了一些 GUI 应用程序我的 GUI 应用程序包含按钮和单选按钮等控件当我运行应用程序时按钮内的按钮和字体看起来正常当我将显示器的 DPI 缩放大小从 100 更改为 150 或 200 时无论分辨率如何控件的
C++ 成员函数中的“if (!this)”有多糟糕？

如果我遇到旧代码if this return 在应用程序中这种风险有多严重它是一个危险的定时炸弹需要立即在应用程序范围内进行搜索和销毁工作还是更像是一种可以悄悄留在原处的代码气味我不打算writing当然执行此操作的代码相反
不同类型的指针可以互相分配吗？

考虑到 T1 p1 T2 p2 我们可以将 p1 分配给 p2 或反之亦然吗如果是这样是否可以不使用强制转换来完成或者我们必须使用强制转换首先让我们考虑不进行强制转换的分配 C 2018 6 5 16 1 1 列出了简单赋值的约束

随机推荐

我如何调用laravel Passport的忘记密码并使用Angular 8验证API？

我正在尝试使用 Laravel Passport 在 Angular 8 中实现验证电子邮件并忘记密码但我找不到他们的 api 我手动编写了一些 api 但这些都不起作用 Route get email verify Auth Verif
Team Foundation Server 2010 / MSBuild：解析解决方案文件中的嵌套项目部分时出错

我正在尝试为我公司的一款产品设置夜间构建当我执行构建时它会在 45 秒左右后失败并给出错误解析解决方案文件中的嵌套项目部分时出错这是构建的日志删除二进制目录 00 17 删除工作区 00 00 删除源目录 00 00 创建工作区
使用 OpenMP 并行化 C++ 代码，并行计算实际上更慢

我有以下想要并行化的代码 int ncip int dim double R int i int r int floor R if dim 1 return 1 2 r int n ncip dim 1 R last coord 0 pra
使用 imagettftext 为文本添加下划线

我的问题是如何在图像中的所有文本下划线 Code function createImage text text n text wordwrap text 40 n newlines substr count text n if newli
为什么更改复制数组中的对象也会影响原始数组中的对象？

在这段代码中我复制了obj使用展开运算符copiedObj 然后修改了checked财产价值为false 然而当我console log obj checked 0 它返回 false 而不是 true 看起来就像是checked值在co
PasswordHasher 方法的用户参数有何用途？

在 Identity 的非核心版本中密码哈希器 https msdn microsoft com en us library microsoft aspnet identity passwordhasher v vs 108 aspx是非
理解一维向量上的 np.matmul

a 1 2 3 b 10 10 10 np matmul a b 给出的结果是 60 numpy 如何将 3 和 3 维度相乘并返回点积而不是外积 3 3 或抛出错误维度不匹配这直接来自文档numpy matmul https docs
根据值填充曲线下面积

我们正在尝试使用 ggplot2 绘制面积图其中 x 轴上方的正区域是一种颜色负区域是另一种颜色给定这个数据集我想要一个面积图来在轴的每一侧绘制不同颜色的阴影我可以看到一种将数据集分为两个子集的方法一个是正数其中所有负值均为零
Emacs 禁用 *Messages* 缓冲区

有没有办法禁用Messages缓冲我知道我可以杀死它但它又出现了我知道我可以滚动浏览缓冲区而无需经过Messages 但是有什么办法可以禁用它的创建吗谢谢根据上面的答案将其放入您的 emacs 中以完全禁用messages Fo
仅使用 SAS 令牌在 PowerShell 中上传

我有一个SAS 令牌 https learn microsoft com en us azure storage common storage sas overview形式为 https name blob core windows net
依赖属性回调后调用自定义控件 OnApplyTemplate

我正在开发我的第一个 WPF 自定义控件但遇到了一些问题这是我当前使用的代码的简化版本 using System Windows using System Windows Controls namespace MyControls Te
如何让DIV不换行？

我需要创建一个包含多个其他 DIV 的容器 DIV 样式要求如果浏览器窗口的大小调整得较窄这些 DIV 不会换行我试图让它像下面一样工作 div class container div class slide something di
Visual Studio 输出窗口中的有趣字符

我写了一个外部工具使用plink exe执行gcc在 Linux 系统上然后在 VS 的输出窗口中捕获输出工具外部工具使用输出窗口中有一个复选标记但是 Linux 使用 UTF 8 输出所以我得到了一些垃圾有没有办法让 VS
Dreamweaver CS5 自动格式源代码像 VS2010 中的 CTRL+K、CTRL+D 一样吗？

Does Dreamweaver CS5 support auto formatting feature similar to Visual Studio 2010 CTRL K CTRL D Thanks 是的它确实我不认为它有键盘快
为什么我应该使用 AppCompatActivity 而不是独立的工具栏来创建活动的应用栏？

使用工具栏为 API 21 中的活动创建应用栏有两种主要方法创建一个扩展 AppCompatActivity 的活动然后按照说明进行操作here http developer android com training appbar se
当选择 tabBar 项时如何以模态方式呈现 viewController

我有一个应用程序UITabBarController and 5 UITabBarItems 我想以模式方式为第三个选项卡栏项目相机控制器启动视图控制器我尝试了这段代码 override func viewDidLoad super
如何增加代码内控制台的大小

我正在使用 lazarus IDE v1 8 4 在 pascal 中编写一些代码正如问题所说我需要能够在代码中编辑控制台大小我最好还需要获取它们可以拥有的最大可能控制台宽度如果您知道如何使用请也让我知道您使用的用途谢谢假设您
使用innerHTML连接HTML时防止HTML元素重新加载

我有一个有两个输入字段的表单
视频输入上的 TFLite 推理

我有一个 SSD tflite 检测模型正在台式计算机上使用 Python 运行就目前而言我的下面的脚本将单个图像作为推理的输入并且运行良好 Load TFLite model and allocate tensors interp
C++ 中分类字符串文字的高效内存存储和检索

注这是后续这个问题 https stackoverflow com questions 3738092 c string literal storage between multiple copies of process or libr

C++ 中分类字符串文字的高效内存存储和检索

C++ 中分类字符串文字的高效内存存储和检索 的相关文章

随机推荐

热门标签

C++ 中分类字符串文字的高效内存存储和检索的相关文章