corpus

如何在 nltk 中使用 hunpos 标记文本文件？

有人可以帮我解决在 nltk 中标记语料库的 hunpos 语法吗我要导入什么hunpos HunPosTagger module http nltk googlecode com svn trunk doc api nltk tag h

python NLTK corpus postagger

使用短语构建语料库

我的文件如下 doc1 very good very bad you are great doc2 very bad good restaurent nice place to visit 我想让我的语料库与这样我的最后DocumentT

r matrix tfidf corpus phrase

将语料库转换为R中的data.frame

我正在使用 tm 包来应用词干提取并且需要将结果数据转换为数据框可以在这里找到解决方案R tm包vcorpus 将语料库转换为数据帧时出错 https stackoverflow com questions 24703920 r tm

r DataFrame tm corpus

从 R 中的语料库创建单词子集

我使用 XML 包根据 Twitter 搜索创建了一个 1 500 行向量然后我将其转换为语料库以与 tm 包一起使用我希望最终使用其中一些最常见的单词创建一个词云因此我将其转换为 TermDocumentMatrix 以便能够找

r corpus WordCloud

基于WordNet测量语义相似度，Brown Corpus有什么用

我遇到了几种使用 WordNet 的结构和层次结构来测量语义相似性的方法例如Jiang and Conrath测度 JNC Resnik测度 RES 林测度 LIN 等使用 NLTK 测量它们的方式是 sim2 wn jcn simil

NLP similarity WordNet corpus semanticanalysis

虚假评论数据集

互联网上有包含常见垃圾邮件的数据集但我需要包含虚假评论的数据集来进行一些研究但我找不到任何数据集有人能给我关于在哪里可以获得虚假评论数据集的建议吗我们的数据集可以在我的康奈尔大学主页上找到 http www cs cornell e

NLP spam review corpus

nltk 函数计算某些单词的出现次数

nltk书中有一个问题使用 state union 语料库阅读器阅读国情咨文演讲的文本计算每个文档中男性女性和人物的出现次数随着时间的推移这些词的使用发生了什么变化我想我可以使用像 state union 1945 Truman

NLTK corpus

有人有 NLTK 的分类 XML 语料库阅读器吗？

有人为 NLTK 编写过分类 XML 语料库阅读器吗我正在使用带注释的纽约时报语料库它是一个 XML 语料库我可以用以下命令读取文件XML语料库阅读器 https stackoverflow com questions 6837566

python xml NLTK corpus

R tm：将“PCorpus”后端文件哈希数据库重新加载为语料库（例如在重新启动的会话/脚本中）

从这个网站上的答案中学到了很多东西谢谢终于是时候问我自己的问题了我使用 R tm 和 lsa 包来创建清理和简化大约 15 000 个文本文档的语料库然后运行 LSA 潜在语义分析我在 Mac OS X 10 6 下的 R 3

database r textmining corpus tm

R - 缓慢地工作 lapply 对有序因子进行排序

根据问题创建语料库和 DTM 的更有效方法 https stackoverflow com questions 25330753 more efficient means of creating a corpus and dtm 25333

r textmining lapply corpus termdocumentmatrix

以同样的方式处理由空格分隔的单词

我试图找到同时出现在多个文档中的单词让我们举个例子 doc1 this is a document about milkyway doc2 milky way is huge 正如您在上面两个文档中看到的单词 milkyway 在两个文

r textmining tm corpus

使用我自己的语料库而不是 movie_reviews 语料库在 NLTK 中进行分类

我使用以下代码并得到它的形式在 NLTK Python 中使用电影评论语料库进行分类 https stackoverflow com questions 21107075 classification using movie review

python27 NLP Classification NLTK corpus

使用 AWK 中的第一个字段作为文件名

该数据集是一个包含三列的大文件一个部分的 ID 一些不相关的内容和一行文本示例可能如下所示 A01 001 This is a simple test A01 002 Just for exemplary purpose A01 003

bash awk corpus

NLTK（python）中的语料库和词典有什么区别[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案有人可以告诉我 a 和 a 之间的区别吗Corpora corpus and lexicon在NLTK 是什么电影数据集 what i

machinelearning NLP NLTK corpus lexical

NLTK - 获取并简化标签列表

我正在使用布朗语料库我想要某种方法来打印所有可能的标签及其名称而不仅仅是标签缩写标签也不少有没有办法简化标签呢我所说的简化是指将两个极其相似的标签合并为一个然后用另一个标签重新标记合并后的单词之前以某种方式讨论过 Java

python NLTK corpus taggedcorpus

需要在NLTK和Python中设置分类语料阅读器，语料文本在一个文件中，每行一个文本

我通过 Jacob Perkins 的书 Python Text Handling with NLTK 2 0 Cookbook 逐渐熟悉了 NLTK 和文本分类我的语料库文档文本每个都包含一段文本因此每个文本都位于单独的文件行中而

python27 Text NLTK corpus categorization

在 R tm 包中，从 Document-Term-Matrix 构建语料库

使用 tm 包从语料库构建文档术语矩阵非常简单我想从文档术语矩阵构建一个语料库令 M 为文档集中的文档数令 V 为该文档集词汇表中的术语数量那么文档术语矩阵就是 M V 矩阵我还有一个长度为 V 的词汇向量词汇向量中是由文档术语

r textmining tm corpus LDA

OSError: [WinError 193] %1 不是有效的 Win32 应用程序 - nltk

所以我不断收到此错误 OSError WinError 193 1 is not a valid Win32 application 我认为这是因为我的环境变量所以我修复了这个问题但仍然出现错误我目前很茫然这是完整的错误输出 T

python python3x NLTK corpus

r中如何将列表转换为语料库？

In this question我问如何分割一个巨大的数据框来创建一个语料库感谢答案我能够从数据帧创建一个列表我的问题仍然是从我创建的列表中获取语料库为了进行一些文本挖掘并根据搜索词对数据进行聚类为了解决这个问题我只是将 tm 包

r list corpus

如何仅选择语料库术语的子集以在 tm 中创建 TermDocumentMatrix

我有一个巨大的语料库我只对我预先知道的少数术语的出现感兴趣有没有办法使用以下方法从语料库创建术语文档矩阵tm包其中只使用和包含我预先指定的术语我知道我可以对语料库的结果 TermDocumentMatrix 进行子集化但由于内存大

r tm corpus termdocumentmatrix