tm

如何使用 R 提取包含特定人名的句子

我正在使用 R 来提取包含特定人名的句子来自文本这是一个示例段落在蒂宾根他作为改革家遭到反对但在他的叔公约翰罗伊克林的推荐下他接受了马丁路德的召唤进入维滕贝格大学梅兰希顿 21 岁时成为维滕贝格的希腊语教授他研究圣经尤

regex r tm opennlp

将语料库转换为R中的data.frame

我正在使用 tm 包来应用词干提取并且需要将结果数据转换为数据框可以在这里找到解决方案R tm包vcorpus 将语料库转换为数据帧时出错 https stackoverflow com questions 24703920 r tm

r DataFrame tm corpus

从包含多个文档的语料库中删除行

我的语料库中有 4000 个文本文档作为数据清理的一部分我想从每个文档中删除包含特定单词的行例如 library tm doc corpus lt VCorpus DirSource C TextMining Prototype pa

r tm

组合常见搭配的 NLP 流程

我有一个语料库我在 R 中使用 tm 包并且还在 python 中的 NLTK 中镜像相同的脚本我正在使用一元组但希望某种解析器能够将通常位于同一位置的单词组合成一个单词即我不想再在我的单词中分别看到 New 和 York 当它

python r NLP NLTK tm

将分隔字符串拆分为 R 数据框中的不同列

我需要一种快速而简洁的方法将数据框中的字符串文字拆分为一组列假设我有这个数据框 data lt data frame id c 1 2 3 tok1 c a b c a a d b d e tok2 c alpha bravo alpha

r Substring tokenize tm

以编程方式在 R 中查找股票代码

我有一个包含公司名称的数据字段例如 company lt c Microsoft Apple Cloudera Ford gt company Company 1 Microsoft 2 Apple 3 Cloudera 4 Ford 等

r tm webmining

tidytext、quanteda 和 tm 返回不同的 tf-idf 分数

我正在尝试研究 tf idf 加权语料库我希望 tf 是按文档划分的比例而不是简单的计数我希望所有经典文本挖掘库都会返回相同的值但我得到了不同的值我的代码中是否存在错误例如我是否需要转置对象或者 tf idf 计数的默认参数

r textmining tm quanteda tidytext

R tm包：utf-8文本

我想为 utf 8 中的非英语文本创建一个词云实际上它是哈萨克语文本在 tm 包的检查功能中显示得绝对正确但是当我搜索词频时所有内容都显示不正确问题在于文本显示为编码字符而不是单词西里尔字符显示正确结果词云变得一团糟是

r UTF8 tm

使用 R 文本挖掘包保留土耳其语字符

首先我要说的是我仍然是 R 的初学者目前我正在使用 tm 包尝试土耳其语文本的基本文本挖掘技术然而我在 R 中显示土耳其语字符时遇到了问题这就是我所做的 docs lt VCorpus DirSource DIRECTORY e

r encoding UTF8 tm

R：为文字云图形/png添加标题

我有一些有效的 R 代码可以从术语文档矩阵生成标签云现在我想从许多文档创建一大堆标签云并在稍后进行可视化检查要知道标签云图片属于哪个文档语料库我想为生成的图形添加标题我怎么做也许这是显而易见的但我仍然是 R 图形的初学者

r graphics tm WordCloud

R 中带有 tm 包的计数器 ngram

我使用 R 中的对象和字典 documentTermMatrix 创建了一个用于记录文档中单词频率的脚本该脚本适用于单个单词而不适用于复合词 es 富酒吧富酒吧这是代码 require tm my docs lt c foo ba

r Dictionary Frequency textmining tm

如何从 csv 文件读取表格中的文本

我是新使用 tm 包我想读取一个 csv 文件其中一列包含 2000 个文本第二列包含因子变量 yes no 到语料库中我的目的是将文本转换为矩阵并使用因子变量作为预测目标我还需要将语料库划分为训练集和测试集我阅读了一些文档例

r textmining tm

tm.package：findAssocs 与 Cosine

我是新来的我的问题是数学问题而不是编程性质我想就我的方法是否有意义获得第二意见我试图使用该函数在我的语料库中找到单词之间的关联findAssocs 来自tm包裹尽管它在通过该包提供的数据例如纽约时报和美国国会上表现得相当不错

r Math textmining tm cosinesimilarity

如何使用stemCompletion函数（tm包）从字典中完成词干语料库

我在 R 的 tm 包中遇到问题我使用的是 0 6 2 版本以下问题 2个不同的错误已得到解答here https stackoverflow com questions 24191728 documenttermmatrix err

r tm

每个术语的频率 - R TM DocumentTermMatrix

我对 R 非常陌生无法完全理解 DocumentTermMatrix 我有一个使用 TM 包创建的 DocumentTermMatrix 它包含术语频率和其中的术语但我不知道如何访问它们理想情况下我想要 Term the 200 i

r tm termdocumentmatrix

将字符串中的数字范围替换为单个数字

有没有办法将字符串中的数字范围替换为单个数字数字的范围可以是 n n 最有可能是 1 15 也可以是 4 10 范围可以用 a 表示 a lt I would like to buy 1 3 cats 或与单词 b 一起使用例如 to

r Text replace tm tidytext

使用哈希字典的词形还原函数不适用于 R 中的 tm 包

我想使用大型外部词典格式如下面的 txt 变量所示对波兰语文本进行词形还原我并不幸运无法使用流行的文本挖掘包来选择波兰语答案https stackoverflow com a 45790325 3480717 https stac

r textmining tm quanteda text2vec

ngram 的 dict 函数

我有这样的文字 library dplyr glimpse text chr 1 11 Welcome to Wikipedia bla Discover Ekopedia the practical encyclopedia about

r tm

tm 自定义删除除主题标签之外的标点符号

我有一个来自 Twitter 的推文语料库我清理了这个语料库 removeWords tolower 删除 URls 最后还想删除标点符号这是我的代码 tweetCorpus lt tm map tweetCorpus removePu

r customization textprocessing tm punctuation

R tm：将“PCorpus”后端文件哈希数据库重新加载为语料库（例如在重新启动的会话/脚本中）

从这个网站上的答案中学到了很多东西谢谢终于是时候问我自己的问题了我使用 R tm 和 lsa 包来创建清理和简化大约 15 000 个文本文档的语料库然后运行 LSA 潜在语义分析我在 Mac OS X 10 6 下的 R 3

database r textmining corpus tm