如何使用 R 将语料库中的复数文本转换为单数
我正在尝试“tm”包,但我找不到任何功能。
我尝试过这个函数,但这不能应用于语料库。
aggregate.plurals <- function (v) {
aggro_fen <- function(v, singular, plural) {
if (! is.na(v[plural])) {
v[singular] <- v[singular] + v[plural]
v <- v[-which(names(v) == plural)]
}
return(v)
}
for (n in names(v)) {
n_pl <- paste(n, 's', Sep='')
v <- aggro_fen(v, n, n_pl)
n_pl <- paste(n, 'es', Sep='')
v <- aggro_fen(v, n, n_pl)
}
return(v)
}
如果您正在进行文本分析,您可能会在更广泛的上下文中寻找单词转换,而不仅仅是单数-复数。这将是词干提取,您可以通过“tm_map”函数直接在 tm 语料库上使用“SnowballC”中的“stemDocument”函数
reut21578 <- system.file("texts", "crude", package = "tm")
reuters <- VCorpus(DirSource(reut21578, mode = "binary"), readerControl = list(reader = readReut21578XMLasPlain))
tm_map(reuters, stemDocument)
来源:tm介绍论文https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)