Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何使用 R 提取包含特定人名的句子
我正在使用 R 来提取包含特定人名的句子来自文本 这是一个示例段落 在蒂宾根 他作为改革家遭到反对 但在他的叔公约翰 罗伊克林的推荐下 他接受了马丁 路德的召唤 进入维滕贝格大学 梅兰希顿 21 岁时成为维滕贝格的希腊语教授 他研究圣经 尤
regex
r
tm
opennlp
将语料库转换为R中的data.frame
我正在使用 tm 包来应用词干提取 并且需要将结果数据转换为数据框 可以在这里找到解决方案R tm包vcorpus 将语料库转换为数据帧时出错 https stackoverflow com questions 24703920 r tm
r
DataFrame
tm
corpus
从包含多个文档的语料库中删除行
我的语料库中有 4000 个文本文档 作为数据清理的一部分 我想从每个文档中删除包含特定单词的行 例如 library tm doc corpus lt VCorpus DirSource C TextMining Prototype pa
r
tm
组合常见搭配的 NLP 流程
我有一个语料库 我在 R 中使用 tm 包 并且还在 python 中的 NLTK 中镜像相同的脚本 我正在使用一元组 但希望某种解析器能够将通常位于同一位置的单词组合成一个单词 即 我不想再在我的单词中分别看到 New 和 York 当它
python
r
NLP
NLTK
tm
将分隔字符串拆分为 R 数据框中的不同列
我需要一种快速而简洁的方法将数据框中的字符串文字拆分为一组列 假设我有这个数据框 data lt data frame id c 1 2 3 tok1 c a b c a a d b d e tok2 c alpha bravo alpha
r
Substring
tokenize
tm
以编程方式在 R 中查找股票代码
我有一个包含公司名称的数据字段 例如 company lt c Microsoft Apple Cloudera Ford gt company Company 1 Microsoft 2 Apple 3 Cloudera 4 Ford 等
r
tm
webmining
tidytext、quanteda 和 tm 返回不同的 tf-idf 分数
我正在尝试研究 tf idf 加权语料库 我希望 tf 是按文档划分的比例 而不是简单的计数 我希望所有经典文本挖掘库都会返回相同的值 但我得到了不同的值 我的代码中是否存在错误 例如 我是否需要转置对象 或者 tf idf 计数的默认参数
r
textmining
tm
quanteda
tidytext
R tm包:utf-8文本
我想为 utf 8 中的非英语文本创建一个词云 实际上 它是哈萨克语 文本在 tm 包的检查功能中显示得绝对正确 但是 当我搜索词频时 所有内容都显示不正确 问题在于文本显示为编码字符而不是单词 西里尔字符显示正确 结果 词云变得一团糟 是
r
UTF8
tm
使用 R 文本挖掘包保留土耳其语字符
首先我要说的是 我仍然是 R 的初学者 目前 我正在使用 tm 包尝试土耳其语文本的基本文本挖掘技术 然而 我在 R 中显示土耳其语字符时遇到了问题 这就是我所做的 docs lt VCorpus DirSource DIRECTORY e
r
encoding
UTF8
tm
R:为文字云图形/png添加标题
我有一些有效的 R 代码 可以从术语文档矩阵生成标签云 现在 我想从许多文档创建一大堆标签云 并在稍后进行可视化检查 要知道标签云图片属于哪个文档 语料库 我想为生成的图形添加标题 我怎么做 也许这是显而易见的 但我仍然是 R 图形的初学者
r
graphics
tm
WordCloud
R 中带有 tm 包的计数器 ngram
我使用 R 中的对象和字典 documentTermMatrix 创建了一个用于记录文档中单词频率的脚本 该脚本适用于单个单词 而不适用于复合词 es 富 酒吧 富酒吧 这是代码 require tm my docs lt c foo ba
r
Dictionary
Frequency
textmining
tm
如何从 csv 文件读取表格中的文本
我是新使用 tm 包 我想读取一个 csv 文件 其中一列包含 2000 个文本 第二列包含因子变量 yes no 到语料库中 我的目的是将文本转换为矩阵并使用因子变量作为预测目标 我还需要将语料库划分为训练集和测试集 我阅读了一些文档 例
r
textmining
tm
tm.package:findAssocs 与 Cosine
我是新来的 我的问题是数学问题而不是编程性质 我想就我的方法是否有意义获得第二意见 我试图使用该函数在我的语料库中找到单词之间的关联findAssocs 来自tm包裹 尽管它在通过该包提供的数据 例如 纽约时报 和美国国会 上表现得相当不错
r
Math
textmining
tm
cosinesimilarity
如何使用stemCompletion函数(tm包)从字典中完成词干语料库
我在 R 的 tm 包中遇到问题 我使用的是 0 6 2 版本 以下问题 2个不同的错误 已得到解答here https stackoverflow com questions 24191728 documenttermmatrix err
r
tm
每个术语的频率 - R TM DocumentTermMatrix
我对 R 非常陌生 无法完全理解 DocumentTermMatrix 我有一个使用 TM 包创建的 DocumentTermMatrix 它包含术语频率和其中的术语 但我不知道如何访问它们 理想情况下 我想要 Term the 200 i
r
tm
termdocumentmatrix
将字符串中的数字范围替换为单个数字
有没有办法将字符串中的数字范围替换为单个数字 数字的范围可以是 n n 最有可能是 1 15 也可以是 4 10 范围可以用 a 表示 a lt I would like to buy 1 3 cats 或与单词 b 一起使用 例如 to
r
Text
replace
tm
tidytext
使用哈希字典的词形还原函数不适用于 R 中的 tm 包
我想使用大型外部词典 格式如下面的 txt 变量所示 对波兰语文本进行词形还原 我并不幸运 无法使用流行的文本挖掘包来选择波兰语 答案https stackoverflow com a 45790325 3480717 https stac
r
textmining
tm
quanteda
text2vec
ngram 的 dict 函数
我有这样的文字 library dplyr glimpse text chr 1 11 Welcome to Wikipedia bla Discover Ekopedia the practical encyclopedia about
r
tm
tm 自定义删除除主题标签之外的标点符号
我有一个来自 Twitter 的推文语料库 我清理了这个语料库 removeWords tolower 删除 URls 最后还想删除标点符号 这是我的代码 tweetCorpus lt tm map tweetCorpus removePu
r
customization
textprocessing
tm
punctuation
R tm:将“PCorpus”后端文件哈希数据库重新加载为语料库(例如在重新启动的会话/脚本中)
从这个网站上的答案中学到了很多东西 谢谢 终于是时候问我自己的问题了 我使用 R tm 和 lsa 包 来创建 清理和简化大约 15 000 个文本文档的语料库 然后运行 LSA 潜在语义分析 我在 Mac OS X 10 6 下的 R 3
database
r
textmining
corpus
tm
1
2
3
»