Skipgrams 上下文（kwic）中的关键字？

2024-01-08

我使用 Quanteda 对 ngram 和 token 进行上下文分析中的关键字，效果很好。我现在想对skipgrams 执行此操作，捕获“进入障碍”的上下文以及“[...] [和] 进入障碍。

下面的代码是一个空的 kwic 对象，但我不知道我做错了什么。 dcc.corpus 指的是文本文档。我也使用了标记化版本，但没有任何变化。

结果是：

“具有 0 行的 kwic 对象”

x <- tokens("barriers entry")
ntoken_test <- tokens_ngrams(x, n = 2, skip = 0:4, concatenator = " ")
twic_skipgram <-  kwic(doc.corpus, pattern = list(ntoken_test), window=20, valuetype= "glob")

twic_skipgram

也许最简单的方法是用通配符来表示“跳过”。

library("quanteda")
## Package version: 2.1.1

txt <- c(
  "There are barriers to entry.",
  "Also barriers against entry.",
  "Just barriers entry."
)

# for skip of 1
kwic(txt, phrase("barriers * entry"))
##                                                     
##  [text1, 3:5] There are |   barriers to entry    | .
##  [text2, 2:4]      Also | barriers against entry | .

# for skip of 0 and 1
kwic(txt, phrase(c("barriers * entry", "barriers entry")))
##                                                     
##  [text1, 3:5] There are |   barriers to entry    | .
##  [text2, 2:4]      Also | barriers against entry | .
##  [text3, 2:3]      Just |     barriers entry     | .

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

NLP

textmining

NGram

quanteda

Skipgrams 上下文（kwic）中的关键字？的相关文章

nltk 标记化和缩写

我用 nltk 对文本进行标记只是将句子输入到 wordpunct tokenizer 中这会拆分缩写例如 don t 到 don t 但我想将它们保留为一个单词我正在改进我的方法以实现更精确的文本标记化因此我需要更深入地研究
Java 中的自然语言处理 (NLP) [重复]

这个问题在这里已经有答案了可能的重复 Java 有没有好的自然语言处理库 https stackoverflow com questions 870460 java is there a good natural language pro
ess-rdired：我收到此错误“现在没有 ESS 进程与此缓冲区关联”

To use ess rdired为了浏览对象我按照 ESS 手册并将以下内容添加到我的 emacs autoload ess rdired ess rdired View R objects in a dired like buffer
从每小时中提取/子集分钟值

我的数据框包含以下格式的日期值YYYY MM DD HH MM SS跨越 125000 多行按分钟细分每行代表一分钟 1 2018 01 01 00 04 00 2 2018 01 01 00 05 00 3 2018 01 01 00
R：如何将描述小时、分钟和秒的非直观字符串转换为可行的 POSIXct 格式以执行标准算术？

我在 R 中有一个数据集其值采用小时分钟和秒格式然而有些值只有小时和分钟有些值只有分钟和秒有些值只有分钟有些值只有秒它的格式也不是很有利样本数据如下 example lt as data frame c 22h28m 17
tidyverse 干扰 ggplot2 吗？无法访问map_data

在控制台中运行这些命令输出为 gt cty0 ggplot2 map data county gt library tidyverse Loading tidyverse ggplot2 Loading tidyverse tibble
将文件夹中的多个 csv 文件读取到 R 中的单个数据帧中[重复]

这个问题在这里已经有答案了我有一个包含 332 个 csv 文件的文件夹文件名称如下 001 csv 002 csv 003 csv 330 csv 331 csv 332 csv 所有文件都具有相同数量的变量和相同的格式我需要读取一
根据 R 中的字符串模式选择行

假设我有以下数据 df lt data frame name c TO for Turnover for people HC people Hello world beenie man apple pears TO is number c
正则表达式提取美国邮政编码，但不提取假代码

使用 XML 包和 XPath 从网站上抓取地址有时我只能得到一个嵌入了我想要的邮政编码的字符串提取邮政编码很简单但有时会显示其他五位数字的字符串以下是 df 中问题的一些变体 zips lt data frame id seq 1
R正则表达式获取第二个下划线之前的所有文本

s lt 1 343 43Hello 2 323 14 fdh 99H 在 R 中我想使用正则表达式来获取第二个下划线之前的子字符串如何使用一个正则表达式来完成此操作另一种方法是用分割然后粘贴前两个一些东西 paste sapp
使用神经网络包进行多项分类

这个问题应该很简单但文档没有帮助我正在使用 R 我必须使用neuralnet多项式分类问题的包所有示例均针对二项式或线性输出我可以使用二项式输出进行一些一对一的实现但我相信我应该能够通过使用 3 个单元作为输出层来做到这一点其中
使用faceting()时如何连接geom_point()和geom_line？

我有一个问题但我在互联网上没有找到任何相关信息我很高兴得到一些提示我有一个数据集其中 x 轴是离散的但我想将这些点相互连接我可以做到我的问题是当我添加分面选项时我无法再将这些点相互链接起来我找到了一个替代方案但看起来不太
在 R 的替换命令中取消引用字符串

我想知道是否可以unquote通过替换命令传递给表达式的字符串具体来说我使用 dplyr 从数据框中过滤和选择 gt w subject sex response 1 1 M 19 08 2 2 M 16 46 6 6 M 23 60
如何通过组度量的平均值在 df 内排列 dplyr:: 组？

借鉴吴卡拉的设计https stackoverflow com a 26555424 9350837 https stackoverflow com a 26555424 9350837答案我希望根据各个组汇总测量的平均值对分组 df 进
在 Windows / Linux 中创建 Mac 包

我自己努力制作一个 r 包我按照 stackoverflow 中上一个问题的说明进行操作如何为外行开发软件包 http cran r project org bin windows Rtools 以下是我根据上一个问题采取的步骤在新的
如何将数据从长格式重塑为宽格式

我在重新排列以下数据框时遇到问题 set seed 45 dat1 lt data frame name rep c firstName secondName each 4 numbers rep 1 4 2 value rnorm 8 d
使用 R Markdown 文档作为函数源

我正在研究 R Markdown 来记录我经常使用的功能我会将它们放入 R Markdown 文件中以记录它们然后如果我几个月后回来查看它就能够阅读我在函数背后的想法我的问题是如果我开始一个新的 R 项目是否可以获取 r mar
R 3.5 - read.csv 无法读取 UTF-16 csv 文件

我的代码如下 read csv http asic gov au Reports YTD 2018 RR20180420 001 SSDailyYTD csv skip 1 fileEncoding UTF 16 sep t header
R中具有特定条件的多列变异

我有这个数据 M1 M2 M3 UCL 1 2 3 1 5 我想在这种情况下创建新列如果M1大于UCL MM1将为 UP 否则为 NULL 如果M2大于UCL MM2将为 UP 否则为 NULL 如果M3大于UCL MM3将为 UP 否则
ggplot2 + 使用比例 X 的日期结构

我真的需要帮助因为我已经迷路了我正在尝试创建一个折线图显示几个团队一年来的表现我将一年分为几个季度 2012 年 1 月 1 日 2012 年 4 月 1 日 2012 年 8 月 1 日 12 1 12 并将 csv 数据帧加载到

随机推荐

在 Python 中使用列表理解查找最小/最大日期

所以我有这个清单 snapshots 2014 04 05 2014 04 06 2014 04 07 2014 04 08 2014 04 09 我想使用列表理解找到最早的日期这就是我现在所拥有的 earliest date snaps
Apache - 限制 IP 不起作用

我有一个子域我只想在内部访问我试图通过编辑该域的 VirtualHost 块来在 Apache 中实现此目的有人能看出我哪里出错了吗注意我这里的内部IP地址是192 168 10 xxx 我的代码如下
在 PyQt 应用程序上使用 cx_freeze 时出现语法错误

当尝试使用 PyQt4 从 Python 3 脚本构建 exe 文件时这是一个非常烦人的问题我认为这与使用有关uic动态加载模块 ui files cx freeze返回 File E Python32 32 lib site pack
使用 array_multisort() 对多维 PHP 数组进行不区分大小写的排序

经过大量搜索后我无法找到有关如何使用 array multisort 按一个字段不区分大小写地对多维数组进行排序的良好解释我发现在处理数据库查询信息时这是一个非常有用的功能因此我想分享一下我应该注意这仅适用于 php 5 4 Exa
ANDROID：不同尺寸的ImageView

我是 android studio 的新手因此如果问题很琐碎请原谅我的问题是理解布局我的布局和相应的值文件夹如下所示我的问题是没有选择正确的布局例如对于 Nexus 4 4 7 英寸 768x1280 xhdpi 在横向模式
R Shiny：删除 ggplot2 背景以使其透明

我想让 R Shiny Server 上的 ggplots 透明我的绘图 ui R 如下 plotOutput malPie width 95 在 server R 中我的绘图函数如下 c lt ggplot dataFrame aes
在pentaho中休息客户端

我对 pentaho 数据集成工具非常陌生我想从我的 pentaho 中使用一个安静的服务 post web 服务为此我发现我应该使用休息客户端但是当我给出网址和正文因为我想使用后期服务时它并没有在数据库中进行必要的更改谁能
Moment.js 包含日期格式中间的文本

我的格式为 2015 年 1 月 27 日上午 8 17 我需要使用 moment js 显示它我正在使用格式 moment format MMM D YYYY at h mm A z 除了 at 这个词之外一切都很好我怎样才能让这个
在oracle中创建密码字段

安全外部密码存储有什么用我可以使用安全外部密码存储在 Oracle 表中创建密码字段吗或者如何在不使用安全外部密码存储的情况下在 Oracle 表中创建密码字段一种不使用安全外部密码存储无论是什么的方法是将 RAW 1
休眠级联持续

我有一个关于 Hibernate 的一般性问题正在解决我有 A 类和 B 类其中 B 依赖于 A 在我的代码中当我调用 em persist objOfTypeA 时我希望插入并插入到表 AAA 和 BBB 中如果我手动保留 A
Powershell：递归移动文件

我正在尝试将所有构建输出文件和文件夹复制到Bin文件夹输出目录 Bin 除了一些保留在输出目录 The Bin文件夹永远不会被删除初始条件 Output config log4net file1 txt file2 txt file3
删除 R 图形设备中的所有边距

所以我在摆脱图形设备的整个边距时遇到了一些麻烦我已将 mar 设置为 0 但边缘周围仍然存在一些持久空间例如 plot new par mar c 0 0 0 0 plot window c 0 1 c 0 1 points c 1 1
如何使用 foreachPartition 在 Spark 中为每个分区高效构建一个 ML 模型？

我正在尝试为数据集的每个分区拟合一个 ML 模型但我不知道如何在 Spark 中执行此操作我的数据集基本上是这样的按公司划分 Company Features Target A xxx 0 9 A xxx 0 8 A xxx 1 0 B
C2DM实现PHP代码

我正在创建使用 C2DM 推送通知的 Android 应用程序但我在创建 php 代码以使用 c2dm 发送消息时遇到问题请指导我如何使用 php 代码发送消息实际上存在一个问题即如何获取客户端身份验证令牌我见过http code
ASP.NET MVC：如何设置 web.config 进行 LDAP 身份验证？

我有一个正在运行的 LDAP 服务器其参数如下 OU users OU mydomain O this domain LDAP myhost 389 I 成功地 access 使用通用 LDAP 客户端就像 Jarek Gawor 的
在 LINQ 中实现“不在”（又名“不存在”）逻辑

Setup 我有两个List
Objective C 的 iPhone 开发中的“委托”是什么？ [复制]

这个问题在这里已经有答案了 Objective C 的 iPhone 开发中的委托是什么委托是一个指向对象的指针该对象具有委托持有者知道如何调用的一组方法换句话说就是启用特定回调的机制来自后来创建的对象 A 很好的例子是UIAl
过滤二维数组并从中间返回坐标

我有一个由零组成的二维数组在 1 6 和 2 7 处有一些正整数 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0
Laravel 4 控制器测试 - 太多 $this->call() 后出现 ErrorException - 为什么？

我非常感谢有关我遇到的 Laravel 4 问题的帮助我正在测试控制器路由特别是负责路由调查问卷响应的控制器我正在测试以下场景用户尝试跳过问题用户请求不存在的问题等等到目前为止我为所有场景编写的测试都可以使用 PHPunit
Skipgrams 上下文（kwic）中的关键字？

我使用 Quanteda 对 ngram 和 token 进行上下文分析中的关键字效果很好我现在想对skipgrams 执行此操作捕获进入障碍的上下文以及和进入障碍下面的代码是一个空的 kwic 对象但我不知道我做错了什么

Skipgrams 上下文（kwic）中的关键字？

Skipgrams 上下文（kwic）中的关键字？ 的相关文章

随机推荐

热门标签

Skipgrams 上下文（kwic）中的关键字？的相关文章