如何加快 R 中的文本搜索速度？

2023-11-26

我有一个很大的文本向量，我想搜索特定的字符或短语。正则表达式需要很长时间。怎样才能快速搜索到呢？

样本数据：

R <- 10^7
garbage <- replicate( R, paste0(sample(c(letters[1:5]," "),10,replace=TRUE),collapse="") )

如果确实需要正则表达式，通常可以通过使用 PCRE 库（通过设置perl=TRUE）。还有其他性能提示?grep:

性能考虑：

如果您正在进行大量正则表达式匹配，包括非常长的字符串，您需要考虑使用的选项。一般来说 PCRE 会比默认的正则表达式更快引擎，并且“fixed = TRUE”更快（特别是当每个模式仅匹配几次）。

如果您在单字节语言环境中工作并标记了 UTF-8 在该语言环境中可表示的字符串，首先将它们转换为仅一个 UTF-8 字符串将强制所有匹配在 Unicode，默认 POSIX 的惩罚大约是 3 倍 1003.2 模式。

如果您可以使用“useBytes = TRUE”，则字符串将不会匹配前检查一下，实际匹配会更快。经常基于字节的匹配在 UTF-8 语言环境中就足够了，因为字节模式一个字符永远不会匹配另一个字符的一部分。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

Optimization

如何加快 R 中的文本搜索速度？的相关文章

优化 tribool 数组的空间

让我从一些背景开始通过 tribool 我理解一个可以保存以下值之一的变量 true false or null 有问题复制整数数组与布尔指针数组 https stackoverflow com questions 4350041 cop
如何不显示 ggplot 轴上的所有标签？

I m trying to using ggplot2 to plot this But as you can see on the x axis you can t read anything 那么如何在 x 轴上显示每 10 年的值呢
连接树状图和热图

我有一个heatmap 一组样本的基因表达 set seed 10 mat lt matrix rnorm 24 10 mean 1 sd 2 nrow 24 ncol 10 dimnames list paste g 1 24 sep p
R 获取子字符串和正则表达式？

我有一组文件名字符串我想提取符号之后但文件扩展名之前的所有字符例如文件名之一是 HelloWorld you txt 我想返回字符串you 这是我的代码 hashPos grep name fixed TRUE dotPos len
R ggplot2 分面保持比率但覆盖/定义输出图大小

我目前正在使用 ggplot2 来比较不同组的统计数据每个组属于不同的区域这是通过运行 R 脚本的 Web 应用程序 tikiwiki CMS 插件 R 完成的每个区域我可以有 2 到 30 个或更多组相同的 R 脚本针对唯一网页中
ggplot2 + 使用比例 X 的日期结构

我真的需要帮助因为我已经迷路了我正在尝试创建一个折线图显示几个团队一年来的表现我将一年分为几个季度 2012 年 1 月 1 日 2012 年 4 月 1 日 2012 年 8 月 1 日 12 1 12 并将 csv 数据帧加载到
ggplot 按因子和梯度颜色

我正在尝试绘制一个对两个变量一个因子和一个强度进行着色的图我希望每个因素都是不同的颜色并且我希望强度是白色和该颜色之间的渐变到目前为止我已经使用了诸如对因子进行分面等技术将颜色设置为两个变量之间的相互作用并将颜色设置为因子并
ggplot：类似于scale_color_steps()的有序因子的色标

With scale color steps 我们可以通过设置low和high争论一个例子 df lt data frame x rnorm 99 y rnorm 99 col rnorm 99 ggplot df aes x y col
在 R 中读入原始二进制数据并将其转换为整数

我有一个二进制文件其中包含编码为不同长度主要是 2 4 字节的有符号或无符号整数的数值为了处理这些数据我将文件的所需部分读取为raw向量与readBin 然后尝试将其转换为十进制问题是 R的内置函数有限制我不太明白比如没有l
如何在有条件的情况下获得R中多列的中位数（根据另一列）

我是 R 初学者我想知道如何完成以下任务我想用数据集所有列的中位数替换数据集的缺失值但是对于每一列我想要某个类别的中位数取决于另一列我的数据集如下 structure list Country structure 1 5 La
R xts 对象中从每日时间序列到每周时间序列

我正在使用 Zoo 和 xts 包来分析财务数据 ts 包不太合适因为金融系列有周末没有可用数据我读到了 xts 包中可用的 apply 函数 apply daily x FUN apply weekly x FUN apply mo
为特定 ID 重新编码列中的观察结果

我有一个数据集称为调查其中有行是个人 ID 列中有许多问题我需要将 1 列中的值重新编码为 NA 并将观察结果移至另一列例如 ID Fruit Vegetable aaa NA grape bbb NA tomato ccc ap
关于在 LyX 中生成和交叉引用 knitr 图的意见

我的目标是在 LyX 中包含一个knitr图我可以在我的文档中交叉引用我插入了浮动图像添加了标题和标签在浮动图像中插入了 ERT 而不是图像我所做的图片如下我在这里检查过类似的问题但没有人做我所做的事情所以我在这里问有没
xtable 中的 Cox 回归输出 - 选择行/列并添加置信区间

我不想将 cox 回归的输出导出到一个表中然后将其放入我的文章中我想最好的方法是使用 xtable library survival data pbc fit pbc lt coxph Surv time status 2 age ed
如何比较数据框1的每一行与数据框2的每一行？

我有两个数据框如下所示 x data frame Name c 200003 200260 400826 400863 500710 Chr c chr1 chr1 chr2 chr3 chr3 Position c 11880 1441
R 中 optim() 的优化（L-BFGS-B 需要“fn”的有限值）

我在 R 中使用 optim 来求解涉及积分的可能性时遇到一些问题我收到一条错误消息 optim par c 0 1 0 1 LLL method L BFGS B lower c 0 L BFGS B 需要 fn 的有限值中的错误下
使用 glmnet 纠正 n 个数据集上的 n 个 LASSO 回归的输出（严格来说是所选的特征/变量）

注意这是对上一个问题 https stackoverflow com questions 75006466 how to replicate my results from running n lassos iteratively usi
有什么方法可以禁用 PDF/Postscript 输出中的“减号破解”吗？

在 R 中将绘图保存到 PDF 或 Postscript 文件时轴标签中的连字符会变成减号显然这是设计使然根据 postscript 设备的文档正常编码规则有一个例外字符 45 始终设置为负号其在 Adob e ISOLa
R ggplot：加权 CDF

我想使用绘制加权 CDFggplot 一些旧的非 SO 讨论例如this https stat ethz ch pipermail r help 2012 October 337288 html从 2012 年起建议这是不可能的但我想
使用 numpy 加速 for 循环

下一个 for 循环如何使用 numpy 获得加速我想这里可以使用一些奇特的索引技巧但我不知道是哪一个这里可以使用 einsum 吗 a 0 for i in range len b a numpy mean C d e f b i

随机推荐

全屏视频切换 HTML

HTML 5 中的视频标签确实令人着迷我需要知道是否可以让用户切换全屏播放我不想使用任何其他视频插件我只需要使用视频标签那么这可能吗请帮帮我您可以使用以下代码创建一个按钮使视频进入全屏模式 JavaScript 代码
GC.SuppressFinalize 是否有保证？

我在实践中的观察是GC SuppressFinalize并不总是抑制对终结器的调用尽管如此终结器仍可能被调用因此我想知道是否GC SuppressFinalize具有以下性质request而不是一个保证通过系统更多信息如果需要以
如果间接调用sied方法则不会调用Sinon Spy

Problem 在我们的代码库中我们遇到了 sinon 的问题可以使用下面的代码片段来重现该问题问题是这似乎是间接的所谓间谍还击力量false the console log明确指出该方法被调用但spy called遗迹false
Jython 不会导入用户定义的类；导入错误：没有名为 ****** 的模块

这几天我一直在用头撞墙试图解决这个问题我已经开始使用 Jython 进行快速原型设计我遇到了一个看似非常基本的问题但我似乎无法克服它我是在JythonBook 的第 10 章当我尝试编写和使用 Beach 类时遇到了问题从标记为
通过文本转语音朗读时暂停电话铃声，然后恢复

我正在制作一个来电者语音应用程序它使用 TTS 说出来电者姓名我想在 TTS 说话时暂停铃声然后恢复铃声根据我的研究我们可以使用AudioFocus 希望如此无论如何我正在使用以下代码 Update 我现在正在使用这段代码 pu
Java：如何将java.util.logging的语言更改为英语？

我有 java util logging 将输出打印到文件效果很好然而这些消息包含对应于日志级别以及记录消息的时间如何让它打印英文而不是中文这就是当前消息的样子 11月 08 2016 8 28 03 下午 mySamples t
取消 Afnetworking 2.0 中的 Post 请求

您好我正在使用 AFnetworking 2 0 发出发布请求我的请求看起来像这样 AFHTTPRequestOperationManager manager AFHTTPRequestOperationManager manager
无法打开另一个 Excel 文件（当通过 .net 打开一个 Excel 时）

我设计了一个 net 应用程序它将在登录时打开 Excel 文件并用它来打印报告当用户注销时它将被关闭我将 Excel 文件的可见设置为 false 以便用户不知道后台进程但是如果任何人在此期间打开任何其他 Excel 文件我的
有没有办法使用javascript检测网络连接类型？ [复制]

这个问题在这里已经有答案了我想知道是否有任何方法可以检查用户是否使用 javascript 从 2G 3G 4G 或 WiFi 连接据我所知只有 Mozilla 提供了网络信息 API 它有助于检测一般连接类型如 wifi 蜂窝等
如何在 Caliburn.Micro 中绑定按键手势？

如何让 Caliburn Micro 将按键手势映射到 ViewModel 上的操作方法例如我想实现一个选项卡式界面并且希望我的 ShellViewModel 有一个 NewTab 方法用户应该能够通过按键盘上的 Ctrl T 来调
如何通过我的网站分享 Facebook 活动？

我想在我的网站上分享活动有按钮喜欢它但没有像加入活动这样的按钮有任何想法吗 None
如何使用C++流优雅地读取整数？

我有一个充满以下格式行的文件 1 2 3 我只想使用 C 流加载数字最优雅的方法是什么我只考虑了 cin get 并检查每个字符是否是数字我认为这将是最快但又优雅的方式 int a b c scanf d d d a b c
“成功但有错误”的 HTTP 状态代码？

我查了一下但没有看到请求成功时的 HTTP 状态代码但在不返回点之后出现错误例如假设您处理一个请求将其提交给数据库但是在返回结果时您耗尽了内存或者遇到了 NPE 或者发生了什么它would曾经是200响应但现在在内部
iOS 7 的持久 UDID 等效项？ [复制]

这个问题在这里已经有答案了首先我想说我完全清楚uniqueIdentifier已被弃用并且有identifierForVendor advertisingIdentifier 我的问题是是否有办法完全持久设备标识符在重启应用程序卸载
我有一个可执行文件的核心转储，该可执行文件不是使用调试符号构建的。我可以恢复 argv 内容吗？

我有一个可执行文件的核心转储该可执行文件不是使用调试符号构建的我可以恢复 argv 内容以查看命令行是什么吗如果我运行 gdb 我可以看到回溯并且可以导航到 main 框架一旦到达那里有没有办法在不知道其确切地址的情况下恢复 a
Boost单元测试主要功能？

我该如何定义自己main 使用 boost 进行测试时的功能 Boost 使用它自己的 main 函数但我使用自定义内存管理器并且需要在分配任何内存之前对其进行初始化否则我会收到错误我不相信你真的需要你自己的主要我认为你的情况要好
如何从 Homebrew 重新安装 python@2？

我在使用 openssl 和 python 2 时遇到了问题这里已经解释了未解决记录的重新安装 Python 和 openssl 的解决方法不起作用因此我决定卸载并重新安装 Python 问题是当您尝试使用brew 安装Pytho
java Callable FutureTask Excecuter：如何监听已完成的任务

我对执行者服务很陌生喜欢自己做所有事情但我认为是时候信任这些服务了我想手过去Executer a Runnable 执行器将其包装在一个FutureTask然后把它还给我现在我称之为民意调查done 方法但我希望届时得到通知don
如何获取目录中的所有文件并跳过未经授权的文件？

我需要获取 C 盘中允许的所有文件的列表writing and reading 所以我尝试这样 string files Directory GetFiles C SearchOption AllDirectories foreach st
如何加快 R 中的文本搜索速度？

我有一个很大的文本向量我想搜索特定的字符或短语正则表达式需要很长时间怎样才能快速搜索到呢样本数据 R lt 10 7 garbage lt replicate R paste0 sample c letters 1 5 10 rep

如何加快 R 中的文本搜索速度？

如何加快 R 中的文本搜索速度？ 的相关文章

随机推荐

热门标签

如何加快 R 中的文本搜索速度？的相关文章