In this question我问如何分割一个巨大的数据框来创建一个语料库。感谢答案,我能够从数据帧创建一个列表。
我的问题仍然是从我创建的列表中获取语料库为了进行一些文本挖掘并根据搜索词对数据进行聚类。
为了解决这个问题,我只是将 tm 包的 as.VCorpus 函数应用到我之前创建的列表中:
new_corpus <- as.VCorpus(new_list)
检查新对象是否是语料库:
class(new_corpus)
[1] "VCorpus" "Corpus"
因此我创建了一个“不稳定的语料库”。正如 R 文档中所写:
易失性语料库完全保存在内存中,因此所有更改仅影响相应的 R 对象。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)