我正在从数据帧创建 Copus。我将其作为VectorSource
因为我只想将一列用作文本源。这可以找到,但是我需要语料库中的文档 ID 来匹配数据帧中的文档 ID。文档 ID 存储在原始数据框中的单独列中。
df <- as.data.frame(t(rbind(c(1,3,5,7,8,10),
c("text", "lots of text", "too much text", "where will it end", "give peas a chance","help"))))
colnames(df) <- c("ids","textColumn")
library("tm")
library("lsa")
corpus <- Corpus(VectorSource(df[["textColumn"]]))
运行此代码会创建一个语料库,但文档 ID 的范围是 1-6。有没有办法创建文档 ID 为 1,3,5,7,8,10 的语料库?
我知道对于 @user1098798 来说可能已经晚了,但是有一种方法可以在创建语料库时直接指定 ids。您需要将数据加载为DataframeSource()
并将映射添加到列:
corpus = VCorpus(DataframeSource(df), readerControl = list(reader = readTabular(mapping = list(content = "textColumn", id = "ids"))))
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)