quanteda

ANEW 字典可以用于 Quanteda 中的情感分析吗？

我正在尝试找到一种方法来实施英语单词情感规范荷兰语以便使用 Quanteda 进行纵向情感分析我最终想要的是每年的平均情绪以显示任何纵向趋势在数据集中所有单词均由 64 名编码员按照 7 分李克特量表在四个类别上进行评分这提

r NLP sentimentanalysis quanteda

未使用参数 ngrams

我使用 Quanteda 进行文本分析我使用这个命令 corp df2 lt tokens df text remove punct TRUE remove numbers TRUE remove symbols TRUE gt toke

r quanteda

如何将 DFM 转换为数据帧但保留文档变量？

我正在使用 Quanteda 包和有关它的非常好的教程来对纸质文章进行各种操作我通过在 mainwordsDFM 中选择特定单词并使用textstat frequency mainwordsDFM group Date 然后将结果转换为数

r DataFrame quanteda

tidytext、quanteda 和 tm 返回不同的 tf-idf 分数

我正在尝试研究 tf idf 加权语料库我希望 tf 是按文档划分的比例而不是简单的计数我希望所有经典文本挖掘库都会返回相同的值但我得到了不同的值我的代码中是否存在错误例如我是否需要转置对象或者 tf idf 计数的默认参数

r textmining tm quanteda tidytext

R：从 Quanteda DFM、稀疏文档特征矩阵、对象中删除正则表达式？

Quanteda 包提供了稀疏文档特征矩阵 DFM 其方法包含删除功能 https rdrr io cran quanteda man removeFeatures html 我努力了dfm x removeFeatures b a z 1

r regex matrix sparsematrix quanteda

R：将 LIME 应用于 Quanteda 文本模型的问题

这是我的修改版本上一个问题 https stackoverflow com q 50273919 6327771 我正在尝试在我的设备上运行 LIMEquanteda依赖的文本模型特朗普和克林顿推文数据 https www kaggle c

r Text textclassification quanteda lime

使用哈希字典的词形还原函数不适用于 R 中的 tm 包

我想使用大型外部词典格式如下面的 txt 变量所示对波兰语文本进行词形还原我并不幸运无法使用流行的文本挖掘包来选择波兰语答案https stackoverflow com a 45790325 3480717 https stac

r textmining tm quanteda text2vec

Cholmod 错误“问题太大”到底意味着什么？将 dfm 转换为 df 时出现问题

这是发布的另一个问题的新版本现在有一个可重现的示例我正在尝试将文档特征矩阵从 29117 条推文转换为 R 中的数据帧但出现错误 asMethod object 中的错误 Cholmod 错误问题太大位于文件 Core cholm

r DataFrame memory quanteda DFM

Skipgrams 上下文（kwic）中的关键字？

我使用 Quanteda 对 ngram 和 token 进行上下文分析中的关键字效果很好我现在想对skipgrams 执行此操作捕获进入障碍的上下文以及和进入障碍下面的代码是一个空的 kwic 对象但我不知道我做错了什么

r NLP textmining NGram quanteda

QUANTEDA - 无效类“dfmSparse”对象

我收到此警告消息我使用这些数据 https github com kbenoit quanteda tree master data data char inaugural RData https github com kbenoit q

r quanteda

使用卡方检验在文档特征矩阵中进行特征选择

我正在使用自然语言处理进行短信挖掘我用了quanteda包生成文档特征矩阵 dfm 现在我想使用卡方检验进行特征选择我知道已经有很多人问过这个问题了但是我找不到相关的代码答案只是给出了一个简短的概念如下所示 https stat

r textmining featureselection quanteda fselector

如何使用 Quanteda 和 kwic 进行模糊模式匹配？

我有医生写的文本我希望能够突出显示上下文中的特定单词我在文本中搜索的单词之前 5 个单词和之后 5 个单词假设我想搜索自杀这个词然后我将使用 quanteda 包中的 kwic 函数 kwic 数据集模式自杀窗口 5 到目

r textmining quanteda

删除带有前导和尾随停用词的 ngram

我想识别一堆学术论文中的主要 n 元语法包括带有嵌套停用词的 n 元语法但不包括带有前导或尾随停用词的 n 元语法我有大约 100 个 pdf 文件我通过 Adob e 批处理命令将它们转换为纯文本文件并将它们收集在一个目录中从

r textmining tm quanteda

R：当情况并非如此时，LIME 在不同的特征编号上返回错误

我正在构建克林顿和特朗普推文的文本分类器数据可以在Kaggle 我正在使用 EDA 和建模quanteda包裹 library dplyr library stringr library quanteda library lime dat

r textclassification quanteda lime

如何计算文档中单词与特定术语的接近度

我正在尝试找出一种方法来计算文档中特定术语的单词接近度以及平均接近度按单词我知道 SO 上也有类似的问题但没有任何东西可以给我我需要的答案甚至没有给我指出一些有用的地方假设我有以下文本 song lt Far over the m

r tm quanteda

R构建文档术语矩阵如何匹配其值由空格分隔的短语组成的字典

当使用R进行文本挖掘时在对文本数据进行重新处理后我们需要创建一个文档术语矩阵以供进一步探索但是和中文类似英语也有一些特定的阶段比如语义距离机器学习如果把它们分词成词它的含义就完全不同了我想知道如何匹配预先定义的词典值由空

r Dictionary textmining termdocumentmatrix quanteda

使用常用词按行合并两个数据框[重复]

这个问题在这里已经有答案了 df1 lt data frame freetext c open until monday night one more time to insert your coin numid c 291 312 df2

r quanteda