StemDocument R 文本挖掘

2023-12-29

我的数据是一个txt文件，如下所示：
字数_doc
概述1
客户1
store 1
marge 1
price 2
stock 2
经济学2

文档的编号已排序（从最小到最大）。现在我想要每个文档属于该文档的所有单词。现在它们站在一列中，但我想要文本文档中的所有单词（来自包 tm，因为它对于该包中的某些功能是必需的）。我这样做如下：

 data <- read.table("poging.txt", header = TRUE)
 data

 doc <- c()
 #I paste all the words from a document together:
 doc[1] <- paste(data[1:4,1], collapse = ' ')
 doc[2] <- paste(data[1:4,1], collapse = ' ')

 #Make a data.frame of it
 doc_df <- data.frame(docs = doc, row.names = 1:2)

 #Install package
 install.packages("tm")
 library(tm)

 #Make a Dataframesource of it so that each row is seen as a document
 ds <- DataframeSource(doc_df)
 inspect(VCorpus(ds))

 #Now I want to stem for example document number 1
 stemDocument(ds[[1]])

但是通过使用ds[[1]]作为论证，它不起作用。他找不到 1 号文件。有人能帮我吗？

在包的例子中tm他们使用数据crude。我希望我的数据与来自的数据格式相同crude.

Silke

stemDocument()旨在与 TextDocument 一起使用，而不是与 DataSource 一起使用。您想要使用数据源创建一个语料库，然后您可以从那里提取文档。

ds <- DataframeSource(doc_df)
corpus <- VCorpus(ds)
stemDocument(corpus[[1]])

注意stemDocument将返回一个新文档，并且不会永久更新语料库。因此，如果您想对输出执行任何操作，请务必将其保存在某个地方。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

tm

stemming

StemDocument R 文本挖掘的相关文章

如何使用 R 将每个文件的数据添加为附加行，从而将不同的 .csv 文件合并为一个完整的文件？

我有几个不同的文件夹它们都包含一个 csv 文件所有这些 csv 文件都有一个单独的列其中包含实验的一种条件的数据我想以将每个文件的数据添加为新列的方式合并这些 csv 文件目前它看起来像这样 C1 csv 102 106 15
dplyr 返回每个组的全局平均值，而不是每个组的平均值

有人可以解释一下我在这里做错了什么 library dplyr temp lt data frame a c 1 2 3 1 2 3 1 2 3 b c 1 2 3 1 2 3 1 2 3 temp gt group by temp 1 g
一段 R 代码会影响 foreach 输出中的随机数吗？

我使用运行模拟foreach and doParallel并与随机数名为random在代码中简而言之我模拟一个足球联赛随机生成所有比赛的获胜者以及相应的结果在dt base没有比赛进行在dt ex1 and dt ex24场比赛
使用字符串中的变量名称访问变量值，R

Intro 一个数据集有大量的age year变量 age 1990 age 1991 etc 我有一个字符串值数组length age years 表示这些变量使得age years 1 回报 age 1990 etc Need 我想搜
rpart“as.character(x) 中的错误：无法强制类型 'builtin' 为类型 'character' 的向量”消息是什么意思？

我一直在用头撞rpart几天了尝试为我拥有的这个数据集制作分类树我认为现在是时候询问生命线了我确信这是我没有看到的愚蠢的事情但这里是我一直在做什么 EuropeWater lt read csv file paste Users a
从 n,k 维矩阵数组中减去 n,k 维矩阵

如果我有一个数组A A lt array 0 c 4 3 5 for i in 1 5 set seed i A i lt matrix rnorm 12 4 3 如果我有矩阵 B set seed 6 B lt matrix rnorm
如何在 R 中合并同名列表中的数据框？

我有一个包含很多数据框的列表如果它们具有相同的名称我想合并它们即合并所有具有相同名称 a 和 b 的数据框像这样 a lt aaaaa b lt bbbbb c lt ccccc g lt list df1 lt data fram
如何对数字进行四舍五入并使其显示零？

R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是如果该数字的前两位小数位为零则 R 会在显示中抑制零 gt a 14 0034 gt
将字符串列拆分为多个虚拟变量

作为 R 中 data table 包的相对缺乏经验的用户我一直在尝试将一个文本列处理为大量指示符列虚拟变量每列中的 1 表示特定的子字符串是在字符串列中找到例如我想处理这个 ID String 1 a b 2 b c 3 c 进入
R中的重叠矩阵

我有以下数据框 id channel 1 a 1 b 1 c 2 a 2 c 3 a 我想创建并重叠矩阵它基本上是一个方阵行和列标签为 a b c 表中的每个条目显示每个通道共有多少个 id 例如在上面的例子中矩阵看起来像 a b
R - 计算 bin 中特定值的数量

我有一个如下所示的数据框 df Value lt c 1 1 0 2 1 3 4 0 0 1 2 0 3 0 4 5 2 3 0 6 Sl lt c 1 20 df lt data frame Sl Value gt df Sl Value
R 中两个时间戳之间的左连接

我的目标是执行左连接intervals哪里的bike id比赛和created at时间戳在records在之间start and end in the intervals table gt class records 1 data ta
警告消息 - 来自 dummies 包的 dummy

我正在使用 dummies 包为分类变量生成虚拟变量其中一些变量具有两个以上类别 testdf lt data frame A as factor c 1 2 2 3 3 1 B c A B A B C C C c D D E D D E
如何按时间间隔匹配数据帧？

这是我从数据记录器导入原始数据时经常出现的问题温度记录仪设置为每十分钟记录一次温度单独的气体记录仪设置为记录最后十分钟间隔内使用的气体我想将这两个记录器的数据合并到一个数据框中进行绘图和分析但时间并不完全一致我希望每十分钟的时间段
R Shiny：如何将无功值从闪亮模块返回到主服务器功能？

我有一个简单的玩具示例它使用 add removeBtn 模块在第一个模块中添加和删除 UI 我需要跟踪单击添加删除的次数如果我不使用模块这很容易但我试图在嵌套模块的上下文中执行此操作代码如下但基本上我似乎无法访问主
更新 R6 对象实例中的方法定义

如何更新 R6 类实例的方法定义正如我所期望的 S3 使用当前的方法定义对于 R5 参考类我可以使用 myInstance myInstance copy 在 R6 中我尝试了 myInstance myInstance clone
sapply - 保留列名称

我试图总结数据集中许多不同列变量的平均值标准差等我已经编写了自己的汇总函数以准确返回我需要和正在使用的内容sapply立即将此函数应用于所有变量它工作正常但是返回的数据帧没有列名我似乎甚至无法使用列号引用重命名它们也就是说
在 R 中提取 data.frames 列表的名称以及 data.frame 中的值

在下面的代码中 j是 data frames 的命名列表我想知道是否有办法 a 提取变量的数值即one short and one long 在 data frames 内并附加它们的相关名称即 AAA or BBB or CCC 到
data.table 抛出“找不到对象”错误[重复]

这个问题在这里已经有答案了我有一个数据表 library data table mydt lt data table index 1 10 当我在全局环境中尝试它时我可以让它工作但当我在调试器中或在包测试中使用它时却无法工作问题是我
如何为自定义 S3 类实现提取/取子集 ([ [<-, [[ [[<-)] 函数？

我有一个自定义的 S3 类foo 它在正常的基础上添加了一些自定义行为data frame foo object lt data frame class foo object lt c foo data frame 对于这个类还应该有一个

随机推荐

无法找到“org.springframework.mail.javamail.JavaMailSender”类型的 bean

我在用spring boot 2 0 7 Release and spring boot starter mail 2 0 7 Release 我正在自动装配javaMailsender在尝试部署时在 Windows 上工作正常的类内部U
如何在 C#.NET 4.0 中编写 WMI 提供程序？

任何人都可以帮助我使用 C net 4 0 编写电池的 WMI 提供程序吗有一个旧的 C 示例here http www c sharpcorner com uploadfile falkor wmiproviderguide112620
Python 用户定义的数据类型

我正在用 Python 编写一个 Rogue like 游戏并定义我的Tile班级瓷砖可以是块状的墙壁的或地板的我希望能够写一些类似的东西 self state Blocked 类似于如何使用布尔值但具有三个值有没有一种好方法可
更改 Android 录音默认输入源

我目前正在编写一个需要录制和实时处理音频数据的应用程序为此我使用 AudioRecord 类这一切都很好除了我的主要测试设备 Galaxy Nexus 上录制音频的默认设置是从后置扬声器录制我假设大多数手机的默认录音源是背面或底部
GHC 中自动专业化的传递性

From the docs http www haskell org ghc docs 7 6 3 html users guide pragmas html idp49866112对于 GHC 7 6 你通常甚至一开始就不需要 SPEC
JQuery IE 生涩幻灯片动画

我有以下代码来动画显示隐藏 div headerClosed headerOpen live click function this next slideToggle slow 这将显示并隐藏具有以下标记的 div div class d
登录失败。请检查您的网络连接并重试

我正在尝试使用 Google Play 游戏服务制作简单的游戏但无法登录 Google Play 游戏我明白了error 登录失败请检查您的网络连接然后重试我有 MainActivity 和三个片段 MainFragment Ga
使用 5 个表生成查询

我已经创建了我的表我正在尝试创建一个查询将已售表中的 sell quantity 和 on sale 表中的 sale price 相乘并相加暂时将其称为 R1 将产品表中的 Retail price 和已售表中的 sell quan
获取 Promise.race 中完成的 Promise

上下文我需要进行大量可并行的异步调用想想大约 300 到 3000 个 ajax 调用但是我不想同时调用所有浏览器或服务器从而给浏览器或服务器带来压力我也不想按顺序运行它们因为完成需要很长时间我决定一次运行五个左右并派生了
Windows Azure 服务总线队列重复检测如何工作？

我知道您可以设置重复检测以在一段时间内使用天蓝色服务总线队列进行工作但是有谁知道这是否基于队列中的对象起作用因此如果我有一个 id 为 SO 1 的对象该对象被放入队列并随后被消耗重复检测是否仍然有效我想我要问的是是时间范围
“yield”在这个排列生成器中如何工作？

def perm generator lst if len lst 1 yield lst else for i in range len lst for perm in perm generator lst i lst i 1 yield
在 gdb 中显示解引用的 STL 迭代器

我有一个映射元素的迭代器我希望 gdb 显示该迭代器的第一个和第二个元素的值例如 std map
修复非线性最小二乘 GSL 中拟合函数的参数

我正在编写一些代码这些代码使用 GNU 科学库 GSL 1 的非线性最小二乘算法进行曲线拟合我已经成功地获得了一个工作代码该代码使用来自的 C 包装器从拟合分析中估计了正确的参数https github com Eleobert gs
呼叫 IVR 时动词记录超时的问题

我们正在尝试使用 Twilio 为这些 IVR 创建自动化测试框架我们从 Twilio 向 IVR 发出出站呼叫使用动词 Say Play 与 IVR 进行交互并使用 Record 来捕获 IVR 所说的内容然后我们将其转录并做出断
C# 二进制数据转换为字符串

这是交易我找到了一个源代码并对其进行了一些更改以便我可以从 com6 上的接收器检索数据我收到的数据是二进制的我想要的是将其转换为字符串以便我可以剪切字符串的一部分并单独解码它们我怎样才能做到这一点源代码如下 using Sy
在 Android 上将 mp3 转换为 wav

关于 wav 到 mp3 的反向转换似乎有很多问题但没有一个问题是相反的我的情况是我可以使用隐写术将数据嵌入到 wav 文件中我可以将它们转换为 ogg 并返回隐写术与格式无关并且可以在格式转换后继续存在我现在想做的是构建 Au
如何加载libandroid_runtime

我正在开发一个项目该项目被编译成 JAR 然后使用 javaws 进行部署在我的一门课程中我需要加载设备上目录 system lib 中找到的 libandroid runtime so 我该怎么做呢 System load liba
当 alpha =0 时画布会损坏 RGB

我正在使用 HTML 画布来投影图像当我尝试操纵图像数据的 Alpha 通道时我发现只要将其归零像素中的其他值就会发生变化即使设置为较低的数字它们似乎也会发生变化从控制台执行此操作 canvas document getElem
CXF BusException 命名空间没有 DestinationFactory http://cxf.apache.org/transports/http

我正在尝试支持 basic cxf rs example 1 但使用我自己的服务impl这更简单我的所有方法都返回字符串当我尝试运行该服务器时出现此异常我建立了一个干净的项目所以我要重新开始大师 pom http maven a
StemDocument R 文本挖掘

我的数据是一个txt文件如下所示字数 doc概述1客户1 store 1 marge 1 price 2 stock 2经济学2 文档的编号已排序从最小到最大现在我想要每个文档属于该文档的所有单词现在它们站在一列中但我想要文本文

StemDocument R 文本挖掘

StemDocument R 文本挖掘 的相关文章

随机推荐

热门标签

StemDocument R 文本挖掘的相关文章