R 中近似子串匹配的位置

2023-12-08

我正在使用 R 进行字符串处理。我有一个带有一列字符串的数据框，例如：

 df <- data.frame(textcol=c("In this substring would like to find the position of this substring",
 "I would also like to find the position of thes substring",
 "No match here","No mention of this substrangy thing"))

 matchPattern <- "this substring"

我正在寻找一个函数（取决于某种距离参数，例如 Jarro-Winkler）将采用我的 matchPattern，将其与数据框文本列的每一行进行比较，并返回匹配项中匹配项的确切位置字符串，即第一个元素为 36（除非我数错），第二个元素（可能）为 43，第三个元素为 NA，第四个元素为 14（？）。

你可以使用aregexec

## Get positions (-1 instead of NA)
positions <- aregexec(matchPattern, df$textcol, max.distance = 0.1)
unlist(positions)
# [1] 38 43 -1 15

## Extract matches
regmatches(df$textcol, positions)
# [[1]]
# [1] "this substring"
# 
# [[2]]
# [1] "thes substring"
# 
# [[3]]
# character(0)
# 
# [[4]]
# [1] "this substrang"

Edit

## A possibilty for replacing matches, or maybe `regmatches<-`
res <- regmatches(df$textcol, positions)
res[lengths(res)==0] <- "XXXX"  # deal with 0 length matches somehow
df$out <- Vectorize(gsub)(unlist(res), "Censored", df$textcol)
df$out
# [1] "I would like to find the position of Censored"     
# [2] "I would also like to find the position of Censored"
# [3] "No match here"                                     
# [4] "No mention of Censoredy thing"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

fuzzycomparison

R 中近似子串匹配的位置的相关文章

使用变量在 r 中像 aes_string 一样选择轴

我试图提供一个带有列名的变量来创建一个plotly图表类似于ggplot2 aes string 不知怎的我被困住了 plot ly iris x Sepal Length y Sepal Width works as expected
如何减小 R Plot 中图例的大小，同时仍使其可读？

我试图用 R 中的两个 y 轴绘制多年来的一些数据但是每当我尝试包含图例时图例就会主导我的绘图当我使用其他地方建议的解决方案时例如keyword和或使用cex论据在另一篇文章中建议here https stackoverflo
ggplot：按组自动化的百分位线

我找到了dplyr gt 运算符有助于简单的 ggplot2 转换无需求助于ggproto 这是必需的ggplot2 扩展 http docs ggplot2 org dev vignettes extending ggplot2 htm
计算级别内的值

我在 R 中生成了一组级别cut 例如假设 0 到 1 之间的小数值分为 0 1 个区间 gt frac lt cut c 0 1 breaks 10 gt levels frac 1 0 001 0 1 0 1 0 2 0 2 0 3
在 for 循环中绘制的多个 ggplot2 绘图的网格

作为一个新的 ggplot2 用户我对可能性的数量感到有点迷失并且很难在网上找到我认为简单问题的简单答案我想在同一张纸上显示 ggplot2 的多个图但知道这些图来自 for 循环以下示例无法编译仅用于说明 for i in c
udunits2 R 安装：找不到 udunits2.h

我正在尝试在 R 中安装 udunits2 以满足对ggforce包裹但是安装程序在检查 udunits2 时始终失败我已经尝试过中的说明this https stackoverflow com questions 47059517
使用 ggplotly（ggplot2 withplotly）时可以去掉注释中的跟踪标签吗？

使用ggplotly时是否可以删除注释中的跟踪标签例如 library ggplot2 library plotly g lt ggplot iris aes Sepal Width Sepal Length geom point ann
按绝对值排序

有谁知道如何按绝对值对 R 中的向量进行排序所以 2 3 1 gt 1 2 3 etc 如果我在 python 中这样做我会创建一对每个值及其符号按绝对值对对列表进行排序然后重新应用符号但我对 R 很陌生所以不知道如何执行此操作
通过 RSelenium 单击按钮

我正在尝试使用 Rselarium 和 Rvest 来抓取 REI 的评论吊床我想点击底部的按钮 x 次这样我就可以抓取所有评论我有点失落这是我到目前为止所拥有的如果您也知道如何在取景器中预览您正在做的事情而不是屏幕打印那就
如何在R中逐行写入文件

我正在尝试逐行读取 csv 文件并且仅选择左侧的第二个和第三个单元格以及右侧的第三个单元格例如如果这一行中有 17 个单元格我将选取第 15 个单元格然后我想合并这 3 个单元格用逗号分隔然后将此行写入一个新的 csv 文件
在ggplot2中创建部分虚线

我正在 R 中创建一个图并且需要创建一条线其中某些值是投影投影用虚线表示这是代码 df data frame date c rep 2008 2013 by 1 value c 303 407 538 696 881 1094 gg
当子集长度为零时，如何简洁地处理子集？

从向量中排除元素x x lt c 1 4 3 2 我们可以减去位置向量 excl lt c 2 3 x excl 1 1 2 这也是动态工作的 excl lt which x which max x gt quantile x 25 1 2
如何在multilist中设置xlim？

以下代码创建 3 个向量并将它们显示为交错直方图 a lt c 1 2 3 b lt c 1 1 2 c lt c 1 1 1 l lt list a b c multhist l col c red green blue xlim c
分割单个 SpatialPolygons 对象的多边形部分

在 R 中我有一个SpatialPolygons包含数百个多边形的对象即多个多边形我想分割这个SpatialPolygons对象放入列表中Polygons 即孔应保持连接到父多边形知道如何做到这一点吗 EDITED 使用以下提供的示
使用亚毫秒日期时间从字符->POSIXct->字符准确转换

我的文件中有一个字符日期时间列我加载文件到data table 并执行需要将列转换为的操作POSIXct 然后我需要写POSIXct值返回文件但日期时间不会相同因为打印不正确这个打印格式问题是众所周知的并且已经被讨论过多次我
根据共同值对两个数据帧求和

我有一个看起来像的数据框 day of week count 1 0 3 2 3 1 3 4 1 4 5 1 5 6 3 另一个喜欢 day of week count 1 0 17 2 1 6 3 2 1 4 3 1 5 4 5 6 5
如何制作一连串的ggplots并在它们之间绘制箭头？

对于一个项目我需要绘制一些图并在它们之间放置箭头作为序列的指示我想知道我是否可以用 ggplot 来做到这一点是否可以使用 ggplot2 绘制一个干净的大箭头并将其添加到最终的多重图中作为示例我使用此代码来绘制绘图 librar
替换rmarkdown/knitr/pdf中字幕的自动编号

我正在使用 Rmarkdown 生成 PDF 文档我想在其中手动定义图号下面是一个块的示例 r chunk26 fig cap Fig 5 3 My figure caption plot 1 1 我使用特殊的编号来遵循文档的章节问题
一次评论多个对象

假设您有一个变量 a 到 j 的列表 for x in 1 10 assign letters x x 您将如何评论那些最近创建的对象我尝试过类似的事情 for x in 1 10 comment get letters x lt pas
当在另一行中找到元素逗号分隔时合并行

您好我有一个数据框例如 species family Events groups 1 SP1 A 10 22 G1 2 SP1 B 7 G2 3 SP1 C D 4 5 6 1 3 G3 G4 G5 G6 4 SP2 A 22 10 G

随机推荐

Spring JPA/Hibernate EmptyInterceptor 不注入 Entitymanager/Spring beans

专家大师朋友我们正在使用 Spring 3 2 JPA 2 Hibernate 4 2 组合并在尝试将任何带有 Spring 注解的 bean 注入到实现如下所示的 EmtyInterceptor 时面临这个奇怪的空指针问题我们尝
Ansible 不会转义 Windows 路径第一个参数

我在额外参数中有带有 Windows 路径名的剧本第一个参数不转义驱动器号和斜杠 ansible playbook d yaml extra vars ainstalldir c test stagedir D packages outd
Delphi - X 个组件后的 TScrollBox 问题

我注意到在我的一个测试应用程序中在将如此多的 TPanels 添加到 TScrollBox 后我遇到了绘制超过一定数量的 TPanels 的问题我在绘制之前禁用滚动框并且它总是在绘制之前被清除因此不存在相对位置问题最初我以为我可
MPI 缓冲发送/接收顺序

我正在使用 MPI 使用 fortran 但问题比任何给定语言都更具体地针对 MPI 标准并且特别使用缓冲发送接收函数 isend 和 irecv 现在如果我们想象以下场景进程0 isend stuff1 isend stuff2
无法在地图内使用 emmeans

这有效 testmodel glm breaks wool data warpbreaks emmeans emmeans testmodel wool 这有效 warpbreaks gt group by tension gt do mo
如何在 php app/console 中处理捆绑包生成：doctrine：crud

在我的 symfony 2 项目中我有一个捆绑包 src Cinergy Bundle PeopleServiceBundle 现在我想生成一个基于学说实体的 CRUD 控制器但我总是无法为实体参数输入正确的字符串我尝试过类似的事情
Python中简单的while循环直到break

什么会是一个非常简单的while循环语句会继续下面的程序直到用户输入 exit 例如 while response exit continue file else break print Thank you good bye I know
Collection.toArray() 与 Collection.stream().toArray()

考虑以下代码 List
Rails 4 / Bootstrap 3：如何在不同页面上显示不同的导航栏？

这里是 header html erb我们的 Rails 4 应用程序使用 Bootstrap 3 组件制作
如何借助 PHP 擦除文本中的 html 特殊字符（如和其他字符）？

如何擦除 html 特殊字符例如 nbsp 以及其他在 PHP 的帮助下从文本中获取的内容 newtext html entity decode your text 你必须删除 nbsp 分别地 newtext str replace n
GAMS 中的循环用于在 Excel 中生成场景

我有一个优化模型我尝试针对不同的输入文件求解该模型我将其准确地称为在不同场景下求解模型因此我需要一个循环来从 Excel 中读取每个不同工作表的数据让我说清楚例如在下图中我们有一个包含 4 个场景的数据每个场景的工作表名
随时间序列滚动事件计数

我正在尝试计算一系列时间范围内按组出现的滚动计数总和我有一个数据框其中包含一些示例数据如下所示 dates as Date c 2011 10 09 2011 10 15 2011 10 16 2011 10 18 2011 10
yadcf - custom_select 选择奇怪的行为

尝试将 custom select 与 selectize 一起使用我看到了奇怪的行为选择字段和重置按钮一样被复制当我选择其中一个选项时字段会增加初始化选择 var selectize yadcf initSelectPlugin
在浏览器上使用 javascript 在 Google API 上发送 post 请求

我在 Google API 中的 ajax 请求收到 404 错误我有这些代码 var asyncLoad require react async loader var CLIENT ID
将不同的行属性转置/透视为列并将另一个属性分组？ [复制]

这个问题在这里已经有答案了可能的重复 SQL Server动态PIVOT查询是否可以对下表执行查询 Game Player Goals Game1 John 1 Game1 Paul 0 Game1 Mark 2 Game1 Luke
调整jqGrid页面编辑框的大小

在我的 ASP NET MVC 3 应用程序中我在 jqGrid 上启用了寻呼机如下图所示 Page 的文本框图像的中心其中有数字 1 非常宽比它需要的宽得多有谁知道如何调整这个盒子的大小当我的网格比这个窄时这尤其是一个问题
Laravel API 连接多个数据库

我正在使用 Laravel Lumen 构建 REST API 这个 API 的想法是为多个订餐网站提供后端它们共享相同的后端逻辑模型控制器等这样每个网站只需要它自己的前端应用程序我计划为此使用 Angular 每个网站都有自己的
尝试使用 PDO 连接访问数据库

我正在尝试连接到 C 驱动器上的访问数据库我在 INI 文件中取消了访问扩展 pdo 的注释我运行了驱动程序测试它显示 odbc 驱动程序已安装我正在将 wamp 与 apache 服务器一起使用但我不断收到此错误 SQLSTAT
与 Typescript 一起使用的 ThemeProvide 出现错误

我想创建一个组件 const StyledDiv styled div width 10rem height 3rem border radius 0 2rem background color theme colorVariant col
R 中近似子串匹配的位置

我正在使用 R 进行字符串处理我有一个带有一列字符串的数据框例如 df lt data frame textcol c In this substring would like to find the position of this

R 中近似子串匹配的位置

Edit

R 中近似子串匹配的位置 的相关文章

随机推荐

热门标签

R 中近似子串匹配的位置的相关文章