使用正则表达式提取 r ngram

2024-03-28

卡尔·布罗曼的帖子：https://kbroman.wordpress.com/2015/06/22/randomized-hobbit-2/ https://kbroman.wordpress.com/2015/06/22/randomized-hobbit-2/让我玩正则表达式和 ngram 只是为了好玩。我尝试使用正则表达式来提取 2-grams。我知道有解析器可以执行此操作，但对正则表达式逻辑感兴趣（即，这是我未能满足的自我挑战）。

下面我给出一个最小的例子和所需的输出。我的尝试中的问题有两个：

克（单词）被消耗掉并且无法用于下一次传递。我怎样才能使它们可用于第二次传递？（例如，我想要like可用于like toast在它之前已经被消耗之后I like)
我无法使单词之间的空格不被捕获（请注意输出中的尾随空格，即使我使用了(?:\\s*)). 我怎样才能不捕获第 n 个（在本例中是第二个）单词上的尾随空格？我知道这可以简单地通过以下方式完成："(\\b[A-Za-z']+\\s)(\\b[A-Za-z']+)"对于 2-gram，但我想将解决方案扩展到 n-gram。 PS我知道的\\w但我不认为下划线和数字是单词部分，但确实考虑'作为单词的一部分。

MWE:

library(stringi)

x <- "I like toast and jam."

stringi::stri_extract_all_regex(
    x,
    pattern = "((\\b[A-Za-z']+\\b)(?:\\s*)){2}"
)

## [[1]]
## [1] "I like "    "toast and "

期望的输出：

## [[1]]
## [1] "I like"  "like toast"    "toast and"  "and jam"

这是使用基本 R 正则表达式的一种方法。这可以轻松扩展以处理任意 n 元语法。诀窍是将捕获组放入积极的前瞻断言中，例如，(?=(my_overlapping_pattern))

x <- "I like toast and jam."
pattern <- "(?=(\\b[A-Za-z']+\\b \\b[A-Za-z']+\\b))"
matches<-gregexpr(pattern, x, perl=TRUE)
# a little post-processing needed to get the capture groups with regmatches
attr(matches[[1]], 'match.length') <- as.vector(attr(matches[[1]], 'capture.length')[,1])
regmatches(x, matches)

# [[1]]
# [1] "I like"     "like toast" "toast and"  "and jam"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

r

stringi

使用正则表达式提取 r ngram 的相关文章

如何在 R 组内的两个变量的组合上选择具有特定值的行

这是我之前提出的 R 问题的扩展如何在R中选择组内具有特定值的行 https stackoverflow com questions 55853841 how to select rows with certain values with
将选择标准添加到 read.table

让我们采用以下我导入的数据集的简化版本read table a lt as data frame c M M F F F b lt as data frame c 25 22 33 17 18 df lt cbind a b colname
是否可以在 R 中为 data.frame 命名别名

使用某些数据标准时使用多种方法来查看 data frame 的列会更简单作为一个具体示例在使用 SDTM 数据进行临床试验时每种数据类型如实验室或生命体征都有一列时间点实验室名称为 LBPT 生命体征名称为 VSTPT 理想情
在批处理模式下运行 R - 打印到屏幕？

跑步时 R CMD BATCH options filename r 我想控制输出的打印位置我可以使用以下命令抑制 Rout 文件的创建 R CMD BATCH options filename r dev null 但是否可以将输出直接
如何绘制两个 ggplot 密度分布之间的差异？

我想使用 ggplot2 来说明两个相似密度分布之间的差异这是我拥有的数据类型的玩具示例 library ggplot2 Make toy data n sp lt 100000 n dup lt 50000 D lt data fram
R 忽略空值的矩阵列的成对比较

我有一个数组我想获取它之间的相似度的度量values在每一列中我的意思是我希望比较数组的成对列之间的行并在它们的值匹配时增加一个度量对于两列来说所得的测量值最大值将完全相同本质上我的问题与这里讨论的相同 R 两两比较矩阵中的所有
如何在闪亮进度条的详细消息中添加换行符？

有没有办法在闪亮的进度条消息中添加换行符 n or br 似乎不起作用我正在尝试将我的一个旧代码转换为一个闪亮的应用程序该代码基本上是一个接一个地调用许多函数所有这些函数都需要一些时间来执行从应用程序中我想知道哪些功能已经执行以及
循环更改多个数据帧

例如我有这三个数据集就我而言它们更多并且有很多变量 data frame1 lt data frame a c 1 5 3 3 2 b c 3 6 1 5 5 c c 4 4 1 9 2 data frame2 lt data fra
正则表达式查找 Java 字符串中前 8 位数字的第一次出现

这是我的字符串20161011 我想得到第一个字符串20161011 我正在使用 s 0 9 s 但是它不起作用有人可以建议正确的用法吗顺便说一句我想检索的第一个字符串是格式的日期yyyymmdd 我不需要验证日期格式因为它已经过预
无法使用include_graphics在Rmarkdown中插入png（错误：文件不是PNG格式）

这个错误很奇怪当我编织文档时出现以下错误 Quitting from lines 42 43 sigminer doc Rmd Error in png readPNG path native TRUE info TRUE file i
使用 Visual Studio 构建 R 包 (C API)

我正在尝试使用 Visual Studio 构建一个简单的 R 包这是我的代码 include
如何在 dplyr 中使用切片来保留 R 中具有 NA 值的行

我有以下数据集我想知道每个组的最小单词如果没有最小单词它是 NA 我仍然想显示它 df data frame key c A A B B C word c 1 2 3 5 NA df gt group by key gt slice
列表列中的设置操作

我正在尝试做集合运算在存储在列表列中的向量之间例如this https stackoverflow com questions 38712196 text file to dataframe with a list column DT l
自动化 RStudio 处理 RMarkdown？

我有一个 RMarkdown 文件用于生成漂亮的 HTML 报告问题是我希望能够自动化它以便它可以在无头服务器上运行因此不会有人启动 Rstudio 并按下 knithtml 按钮而且 Rstudio 似乎正在做很多额外的魔法
不使用apply函数对data.table的每一行进行操作的方法

我在下面写了一个简单的函数 mcs lt function v ifelse sum diff sort v gt 6 gt 0 NA sd v 它应该采用一个向量对其进行排序然后检查每个连续差异中是否存在大于 6 的差异如果差值大于
使用 R 迭代读取、操作多个 Excel 文件并将它们附加到一个数据帧中

在一个目录下我有多个具有相似格式的excel文件您可以从以下位置下载示例文件 here https www dropbox com s ho3visres55kpoy test zip dl 0 我需要循环文件和read excel
运行 R.exe 会创建临时文件吗？

我在想是否启动 R exewindows创建临时文件并是否解释类似x lt 5写入那些临时文件如果创建了临时文件它们存储在哪里如果我启动多个 R exe 实例会发生什么情况他们会共享并覆盖彼此的临时文件吗 R 的每个实例都有自己
从 foreach 循环赋值

我想并行化一个循环例如 td lt data frame cbind c rep 1 4 2 rep 1 5 rep 1 10 2 names td lt c val id res lt rep NA NROW td for i in l
将值添加到 rCharts hPlot 工具提示

我想通过 rCharts 向标准 Highcharts 工具提示添加一些额外的值示例代码 require rCharts df lt data frame x c 1 5 y c 5 1 z c A B C D E name c K L
nginx 匹配位置中的特定单词

我在匹配 nginx request body 变量中的特定单词时遇到问题如果正文请求中有特殊单词我想代理传递所以我的方法是这样的 location php if request body proxy pass http test p

随机推荐

对列表列表进行排序并获取未排序列表中的索引

这些是我需要在列表列表上执行的逻辑步骤 a 5 2 7 4 0 3 以输出看起来像这样的方式对列表列表进行排序 7 5 4 3 2 0 获取原始列表中已排序元素的坐标在本例中应作为输出生成 1 0 0 0 1 1 2 1 0 1 2 0
您可以通过 TcpClient 发送大于 SendBufferSize 的文件吗？

我正在试验 NET 中的 Tcp 连接我想发送一些大于 TcpClient 对象的 SendBufferSize 比例的数据是否可以通过简单地写入网络流来发送数据或者我是否需要将其切成小块并发送这些数据然后在另一端再次创建它 Fro
MVC 使用 [HttpPost, ValidateInput(false)] 的副作用

我的强类型视图中有一个 TextArea 定义为 Html TextAreaFor x gt x Text 我的控制器操作最初看起来与此类似 HttpPost public ViewResult Index MyViewModel vm u
如何在Retrofit 2中同时调用多个请求

我有两个不同的 REST 方法我想同时调用它们我怎样才能在 Retrofit 2 中做到这一点我当然可以一一称呼它们但是改造中有什么建议的方法吗我期望类似的东西 Call lt gt call1 myService getCall
如何为 Ruby 永久修复“dyld：库未加载：/usr/local/opt/gmp/lib/libgmp.10.dylib”？

我大约两周前更新了操作系统从那时起我就遇到了这个问题 gt ruby v dyld Library not loaded usr local opt gmp lib libgmp 10 dylib Referenced from User
NASM 无法声明初始化数据[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案由于某种原因我无法编译 nasm 程序如果我尝试在 data 部分中放入某些内容则会出错 error comma expect
快速检测应用程序是在后台还是前台

有什么方法可以知道我的应用程序处于后台模式还是前台模式的状态谢谢 UIApplication sharedApplication applicationState将返回应用程序的当前状态例如 UI应用程序状态活动 UIApplicati
将 SVN 设置为最适合 Dev -> QA -> Prod

如果已经有人问过这个问题我很抱歉但我无法找到针对这种情况的答案对于我们的 Web 应用程序我们有 3 个系统开发 QA 和生产目前第三方正在维护代码但很快它就会交到我们手中我们将为每个阶段提供单独的构建环境此外我们使用
React-Native ProductFlavors（错误类型3：Activity类不存在）

我想用2productFlavors对于我的 Android 应用程序 live and staging In app build grandle我这样定义它们 defaultConfig applicationId com some id
spring boot webflux：避免处理程序中的线程阻塞方法调用

我刚刚开始使用WebFlux以及整个反应范式我坚持这一点 Component public class AbcHandler private ObjectMapper objectMapper new ObjectMapper publi
传递带有变量值作为参数的自定义属性

我创建了一个自定义属性类它将检查系统安全性并在存在安全错误时引发身份验证异常 public class EntityChecker System Attribute public EntityChecker int entityId d
Fetch / Axios 在 React Native 中严重崩溃（但仅限于某些 URL）

我的应用程序在执行时严重崩溃certainAPI 调用我将范围缩小到这一点这不是 HTTP 与 HTTPS 的问题我最终使用了两种不同的模拟 API 令我惊讶的是一种有效另一种则无效两者基本相同请参阅下面的片段 WIFI 或蜂
使用“是吗？”验证电话号码

我正在尝试使用 Yup 验证电话号码 phone Yup number typeError That doesn t look like a phone number positive A phone number can t start
Android：录制的视频似乎*失真*

我正在尝试使用 MediaRecorder 从相机录制视频这是一个代码片段 snip mr setAudioSource MediaRecorder AudioSource MIC mr setVideoSource MediaRecor
在 Apple Watch 模拟器（xCode 8、Swift 3、iOS 10）上的 watchOS 中运行 SpriteKit 游戏 - libswiftSwiftOnoneSupport 错误

我下载了xCode 8 0 beta并打开了一个最近写的项目swift 2然后我将其转换为swift 3使用 xCode 然后我添加了一个watchOS设置游戏以我的项目为目标文件 gt 新建 gt 目标我检查了 GameScene
如何限制字符串中的字母数量

我有一个程序要求用户输入问题然后程序回答它我想知道的是如何限制用户可以输入变量的字母数量蟒蛇的input函数不能直接执行此操作但您可以截断返回的字符串或重复直到结果足够短 method 1 answer input What s
SpringBoot - 解析HTTP请求头时出错

我在跑步SpringBoot Application刚刚检查了服务器日志发现了几个这样的错误我不明白是什么原因导致的因为每天 12 24 小时后都会出现该错误 Tomcat 版本运行于8 5 11 2018 03 04 17 03 2
以编程方式旋转 UITextView

有一个奇怪的问题如果你创建一个UITextView创建后立即旋转它某些线条或字符将不可见尝试这个 myTextView font UIFont boldSystemFontOfSize 20 myTextView text Hello
MySQL 更新触发器 - 查找更改的列？

我有一个有 120 列的表我需要设置审计跟踪如果发生更改它将记录任何列就像现在一样我想我必须为每一列设置一个具有如下条件的触发器 IF NEW columnName OLD columnName THEN log the old
使用正则表达式提取 r ngram

卡尔布罗曼的帖子 https kbroman wordpress com 2015 06 22 randomized hobbit 2 https kbroman wordpress com 2015 06 22 randomized h

使用正则表达式提取 r ngram

使用正则表达式提取 r ngram 的相关文章

随机推荐

热门标签