R 文本挖掘 - 处理复数

2023-12-12

我正在学习 R 中的文本挖掘，并且取得了相当大的成功。但我对如何处理复数感到困惑。即我希望“nation”和“nations”被算作同一个词，理想情况下“dictionary”和“dictionaries”被算作同一个词。

x <- '"nation" and "nations" to be counted as the same word and ideally "dictionary" and "dictionaries" to be counted as the same word.'

一种可能的解决方案。这里我使用 pacman 包来使解决方案自包含：

if (!require("pacman")) install.packages("pacman"); library(pacman)
p_load_gh('hrbrmstr/pluralize')
p_load(quanteda)

x <- '"nation" and "nations" to be counted as the same word and ideally "dictionary" and "dictionaries"'
singularize(unlist(tokenize(x)))

##  [1] "\""         "nation"     "\""         "and"        "\""         "nation"     "\""        
##  [8] "to"         "be"         "counted"    "a"          "the"        "same"       "word"      
## [15] "and"        "ideally"    "\""         "dictionary" "\""         "and"        "\""        
## [22] "dictionary" "\""

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

textmining

R 文本挖掘 - 处理复数的相关文章

有什么方法可以访问 makeActiveBinding 安装的函数吗？

标题基本上说明了一切如果我这样做 makeActiveBinding x function runif 2 GlobalEnv x 1 0 7332872 0 4707796 x 1 0 5500310 0 5013099 那我有什么办法
在另一列的字符串中搜索一列中的文本

这里是 R 新手一直在搜索此论坛尝试找到一种在同一行数据的字符串中搜索文本的方法我以前使用过 grepl 但无法让它向下查找列并对每一行应用检查我觉得这是一个简单的解决方案但我花了几个小时但似乎无法得到它基本上我有类似下面第
R + ggplot2 - 无法分配大小为 128.0 Mb 的向量

我有一个 4 5MB 9 223 136 行的文件其中包含以下信息 0 0 0 0147938 3 67598e 07 0 0226194 7 35196e 07 0 0283794 1 10279e 06 0 033576 1 470
是否有 R 函数可以将这些数据从长形重塑为宽形？

数据现在看起来如何 Coach ID Student score 1 A 8 1 B 3 2 A 5 2 B 4 2 C 7 看起来像这样 Coach ID Student score student 2 score 2 student 3
dplyr::mutate 添加多个值

网上有几个与此相关的问题dplyr Github 存储库 https github com hadley dplyr已经并且至少有一个相关的问题但没有一个问题完全涵盖了我的问题我认为在 dplyr mutate 调用中添加多列 ht
挖泥机子集 (MuMIn) - 如果存在主效应，则必须包括交互作用

我正在使用 dredge MuMIn 进行一些探索性工作在此过程中我想将两个变量设置为仅当它们之间存在相互作用时才允许一起出现即它们不能仅作为主要效果一起出现使用样本数据我想挖掘模型 fm1 尽管它可能没有意义如果变量 GNP
如何为 nls 函数找到良好的起始值？

我不明白为什么我不能对这些数据使用 nls 函数我尝试过很多不同的起始值但总是出现相同的错误这是我一直在做的事情 expFct2 function x a b c a 1 exp x b c vec x lt c 77 87 87 7
R 中自定义函数的等高线图

我正在使用一些自定义函数我需要根据参数的多个值为它们绘制轮廓这是一个示例函数我需要画这样的等高线图任何想法 Thanks 首先你构造一个函数 fourvar它将这四个参数作为参数在这种情况下您可以使用 3 个变量来完成此操作其
在 r 中使用 SSasymp

我想我不知道如何在 r 中使用 SSasymp 函数我想为我的项目创建一个渐近函数我试过这个 c lt seq 0 200 0 5 d lt SSasymp c 500 0 log 50 plot c d type l log 50 应
R中不重复的组合

我试图获取变量元素长度为 3 的所有可能组合虽然它部分地与combn 一起工作但我没有完全得到我正在寻找的输出这是我的例子 x lt c a b c d e t combn c x x 3 我得到的输出看起来像这样 1 2 3 1 a
R 比较所有列对的每个值[重复]

这个问题在这里已经有答案了我有一个 18x18 的数据框我想将所有可能的列对相互比较以便对于每对两列 18 行中的值相互比较由于我的数据太大无法放在这里我写了一个小例子来说明到目前为止我所想到的 gt a lt c 1 18 g
将整数“20160119”转换为“日”“年”“月”的不同列

如何将一列整数转换为日期 DATE PRCP 1 19490101 25 2 19490102 5 3 19490118 18 4 19490119 386 5 19490202 38 到这样的表 days month years PRCP
R 如何按行值进行分组、拆分或子集

这是上一个问题的延续R 如何按行值分组分裂 https stackoverflow com questions 64602607 r how to group by row value split 输入数据帧的变化是 id str c x
将日期刻度添加到 R 中的 ggplot

我试图在此图中的 x 轴上添加刻度以显示一年中的所有月份我的代码如下 library ggplot2 library scales p lt ggplot df test aes time reading p geom point alp
Quanteda 包，朴素贝叶斯：如何预测不同特征的测试数据？

I used quanteda textmodel NB创建一个模型将文本分类为两个类别之一我将模型拟合到去年夏天的训练数据集上现在我今年夏天尝试使用它对我们在工作中收到的新文本进行分类我尝试这样做并收到以下错误 Error in
寻找一种有效的方法来计算两个表中间隔集之间的重叠数量？

注意为了方便起见我使用上一篇文章中的示例数据集假设有两个数据集 ref and map 他们是 ref lt data table space rep nI 3 t1 c 100 300 500 t2 c 150 400 600 id
错误：列索引必须最多为 1，如果... heatmap.2

我在 heatmap 2 中收到错误我在这里发现了类似的错误R knnImputation 给出错误 https stackoverflow com questions 45117125 r knnimputation giving er
如何将xtable对象放置在页面左侧

问题如何将 xtable 对象放置到页面左侧或如何全局禁用居中我正在努力弄清楚如何将 xtable 对象放置在左侧我有一个 Rmd 文件所有这些都转到相关的 r 块 require xtable df lt data frame x
在r中的数据框中循环线性回归输出

我有一个下面的数据集我想在其中对每个国家和州进行线性回归然后绑定数据集中的预测值添加另外三列后的最终数据框我已经对一个国家和一个地区进行了此操作但想对每个国家和地区进行此操作并将预测值上限值和下限值放回到cbind的数据集中
包含多行 LaTeX 方程的 R 帮助页面

我正在编写 R 包文档roxygen2 我想将以下多行方程插入到帮助页面中但我的 LaTeX 代码没有被渲染 hello2 description deqn F t begin cases alpha t f L t 1 alpha t

随机推荐

.gitattributes：merge=我们的策略与快进合并

如果我处于这样的 git 情况 da6a750 A Further in A okay for merging back into master bf27b58 Merge branch master into A 86294d1 HEAD
无法使用沙盒帐户

我真的需要你们的帮助两个小时以来我遇到了一个与 Paypal Sandbox 相关的非常奇怪的问题我在堆栈溢出上阅读了很多答案但没有一个对我有帮助我将尝试解释我的问题当我创建一个新的沙箱帐户尊重密码强度负载平衡等所有规则时
序列化数组以将它们存储在数据库中的意义是什么？

我看到人们存储数组的方式如下 a 6 i 0 s 5 11148 i 1 s 5 11149 i 2 s 5 11150 i 3 s 5 11153 i 4 s 5 11152 i 5 s 5 11160 为什么他们不能是 11148 11
Cython 中数组的总和

我正在尝试找到使用 Cython 水平求和 numpy 数组数组的最快方法首先假设我有一个随机浮点数 10 x 100 000 的二维数组我可以创建一个object数组每一列作为数组中的值如下所示 n 10 5 a np rand
如果名称变量以下划线为前缀，则 Bean 验证不起作用

我正在尝试一些 bean 验证但我偶然发现了奇怪的行为我正在使用 Glassfish 和 Primefaces 作为前端如果有什么区别的话在我的项目的其他地方我使用 Hibernate validator 我不确定它是否正在验
垃圾收集器 C#，有关“清除”对象的问题

我阅读了一些有关垃圾收集的信息它是如何工作的等我尝试通过我的示例了解它是如何工作的但我认为我有问题我知道垃圾收集器在以下情况下运行内存不够你调用GC Collect 这是我的代码 public partial class For
为什么 trySend 会发出假数据？

我需要在 MVVM 中获取用户身份验证状态在存储库中我这样做 override fun getAuthResponse callbackFlow val listener AuthStateListener Log d TAG curre
在数据库中保存塞尔维亚拉丁字符

我在数据库中保存塞尔维亚拉丁字符时遇到问题但只有当我从 jsf 应用程序保存它时才会出现问题当我直接使用 SQLyog 在数据库中插入一些行时一切都很好当我尝试从应用程序插入某些内容而不是字符时 and 在数据库中插入问号另一方面
jqgrid服务器异常错误消息

有没有办法在我的 jqGrid 中显示从服务器发送的自定义异常消息我的一个函数执行 throws 子句并抛出一些异常我需要显示与此抛出的异常相关的错误消息有没有办法在 jqGrid 中做到这一点您没有指定在哪个 jqGrid 操作中
START_STICKY 和 START_NOT_STICKY

有什么区别START STICKY and START NOT STICKY在android中实现服务时谁能指出一些标准示例这两个代码仅在手机内存不足并在服务完成执行之前终止服务时才相关 START STICKY告诉操作系统在有足够的内
在scala中序列化优先级队列

我正在尝试序列化一个可变的PriorityQueue在 scala 2 10 中我得到了NotSerializableException将对象写入 ObjectOutputStream 时我做了一个简单的测试用例 import java
如何在 Zend Framework 2 中访问路由、发布、获取等参数

zf2中如何获取与页面请求相关的各种参数像 post get 参数正在访问的路由发送的标头和上传的文件最简单的方法是使用参数插件在 beta5 中引入它具有实用方法可以轻松访问不同类型的参数一如既往读书测试对于理解某物应该
我应该使用事件、信号量、锁、条件或其组合来管理安全退出多线程 Python 程序吗？

我正在编写一个多线程Python程序其中主线程和它生成的其他线程作为守护进程运行但不是Thread daemon True 它们在某些目录中查找某些文件并在它们存在时对其执行操作一个任何线程中可能会发生错误这将需要整个程序退出
如何使用 MASM 在控制台上进行输入/输出？ [关闭]

Closed 这个问题需要多问focused 目前不接受答案我用谷歌搜索了又搜索但没有发现任何有用的东西如何将输出发送到控制台并通过程序集接受来自控制台的用户输入我正在使用 MASM32 正如 filofel 所说使用 Win3
比较在 Three.js 中创建天空盒材质的方法

当谈到在 Three js 中制作天空盒时我看到了两种不同的思想流派假设我们有代码 var imagePrefix images mountains var directions xpos xneg ypos yneg zpos zne
反应改变数组中的状态（for循环）

我有一个有航班的州并且有一个滑块可以更改最高价格以更改航班元素的可见性 maxpriceFilter var flightOffer this state flightOffer var sliderPrice this state sl
如何在 C++ 中将加载到内存中的图像文件转换为 ID2D1Bitmap

我正在尝试将刚刚从压缩文件提取到内存中的图像文件 png 但可以是任何东西转换为 ID2D1Bitmap 以便使用 Direct 2D 进行绘制我试图寻找一些文档但我只能找到接收 const char path 或询问我图像的宽度和高
解析 URI 参数和关键字值对

我想解析文本文件中 URI L 的参数和关键字值还应包括没有值的参数 Python 很好但我愿意接受使用其他工具的建议例如 Perl 或单行代码也可以解决这个问题示例来源 www domain com folder page php
使用 VB .Net 和 UI Automation 从 Google Chrome 中所有打开的选项卡获取 url

您好我有这段代码可以获取 Chrome 上的当前 url 但只能获取活动选项卡 url 我需要使用 UI 自动化从所有打开的选项卡获取 url 我的工作代码 Function GetChromeUrl ByVal proc As Proc
R 文本挖掘 - 处理复数

我正在学习 R 中的文本挖掘并且取得了相当大的成功但我对如何处理复数感到困惑即我希望 nation 和 nations 被算作同一个词理想情况下 dictionary 和 dictionaries 被算作同一个词 x lt nati

R 文本挖掘 - 处理复数

R 文本挖掘 - 处理复数 的相关文章

随机推荐

热门标签

R 文本挖掘 - 处理复数的相关文章