我的数据是一个txt文件,如下所示:
字数_doc
概述1
客户1
store 1
marge 1
price 2
stock 2
经济学2
文档的编号已排序(从最小到最大)。现在我想要每个文档属于该文档的所有单词。现在它们站在一列中,但我想要文本文档中的所有单词(来自包 tm,因为它对于该包中的某些功能是必需的)。我这样做如下:
data <- read.table("poging.txt", header = TRUE)
data
doc <- c()
#I paste all the words from a document together:
doc[1] <- paste(data[1:4,1], collapse = ' ')
doc[2] <- paste(data[1:4,1], collapse = ' ')
#Make a data.frame of it
doc_df <- data.frame(docs = doc, row.names = 1:2)
#Install package
install.packages("tm")
library(tm)
#Make a Dataframesource of it so that each row is seen as a document
ds <- DataframeSource(doc_df)
inspect(VCorpus(ds))
#Now I want to stem for example document number 1
stemDocument(ds[[1]])
但是通过使用ds[[1]]
作为论证,它不起作用。他找不到 1 号文件。
有人能帮我吗?
在包的例子中tm
他们使用数据crude
。我希望我的数据与来自的数据格式相同crude
.
Silke
stemDocument()
旨在与 TextDocument 一起使用,而不是与 DataSource 一起使用。您想要使用数据源创建一个语料库,然后您可以从那里提取文档。
ds <- DataframeSource(doc_df)
corpus <- VCorpus(ds)
stemDocument(corpus[[1]])
注意stemDocument
将返回一个新文档,并且不会永久更新语料库。因此,如果您想对输出执行任何操作,请务必将其保存在某个地方。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)