Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何在 nltk 中使用 hunpos 标记文本文件?
有人可以帮我解决在 nltk 中标记语料库的 hunpos 语法吗 我要导入什么hunpos HunPosTagger module http nltk googlecode com svn trunk doc api nltk tag h
python
NLTK
corpus
postagger
使用短语构建语料库
我的文件如下 doc1 very good very bad you are great doc2 very bad good restaurent nice place to visit 我想让我的语料库与 这样我的最后DocumentT
r
matrix
tfidf
corpus
phrase
将语料库转换为R中的data.frame
我正在使用 tm 包来应用词干提取 并且需要将结果数据转换为数据框 可以在这里找到解决方案R tm包vcorpus 将语料库转换为数据帧时出错 https stackoverflow com questions 24703920 r tm
r
DataFrame
tm
corpus
从 R 中的语料库创建单词子集
我使用 XML 包根据 Twitter 搜索创建了一个 1 500 行向量 然后我将其转换为语料库以与 tm 包一起使用 我希望最终使用其中一些 最常见的 单词创建一个词云 因此我将其转换为 TermDocumentMatrix 以便能够找
r
corpus
WordCloud
基于WordNet测量语义相似度,Brown Corpus有什么用
我遇到了几种使用 WordNet 的结构和层次结构来测量语义相似性的方法 例如Jiang and Conrath测度 JNC Resnik测度 RES 林测度 LIN 等 使用 NLTK 测量它们的方式是 sim2 wn jcn simil
NLP
similarity
WordNet
corpus
semanticanalysis
虚假评论数据集
互联网上有包含常见垃圾邮件的数据集 但我需要包含虚假评论的数据集来进行一些研究 但我找不到任何数据集 有人能给我关于在哪里可以获得虚假评论数据集的建议吗 我们的数据集可以在我的康奈尔大学主页上找到 http www cs cornell e
NLP
spam
review
corpus
nltk 函数计算某些单词的出现次数
nltk书中有一个问题 使用 state union 语料库阅读器阅读国情咨文演讲的文本 计算每个文档中男性 女性和人物的出现次数 随着时间的推移 这些词的使用发生了什么变化 我想我可以使用像 state union 1945 Truman
NLTK
corpus
有人有 NLTK 的分类 XML 语料库阅读器吗?
有人为 NLTK 编写过分类 XML 语料库阅读器吗 我正在使用带注释的纽约时报语料库 它是一个 XML 语料库 我可以用以下命令读取文件XML语料库阅读器 https stackoverflow com questions 6837566
python
xml
NLTK
corpus
R tm:将“PCorpus”后端文件哈希数据库重新加载为语料库(例如在重新启动的会话/脚本中)
从这个网站上的答案中学到了很多东西 谢谢 终于是时候问我自己的问题了 我使用 R tm 和 lsa 包 来创建 清理和简化大约 15 000 个文本文档的语料库 然后运行 LSA 潜在语义分析 我在 Mac OS X 10 6 下的 R 3
database
r
textmining
corpus
tm
R - 缓慢地工作 lapply 对有序因子进行排序
根据问题创建语料库和 DTM 的更有效方法 https stackoverflow com questions 25330753 more efficient means of creating a corpus and dtm 25333
r
textmining
lapply
corpus
termdocumentmatrix
以同样的方式处理由空格分隔的单词
我试图找到同时出现在多个文档中的单词 让我们举个例子 doc1 this is a document about milkyway doc2 milky way is huge 正如您在上面两个文档中看到的 单词 milkyway 在两个文
r
textmining
tm
corpus
使用我自己的语料库而不是 movie_reviews 语料库在 NLTK 中进行分类
我使用以下代码并得到它的形式在 NLTK Python 中使用电影评论语料库进行分类 https stackoverflow com questions 21107075 classification using movie review
python27
NLP
Classification
NLTK
corpus
使用 AWK 中的第一个字段作为文件名
该数据集是一个包含三列的大文件 一个部分的 ID 一些不相关的内容和一行文本 示例可能如下所示 A01 001 This is a simple test A01 002 Just for exemplary purpose A01 003
bash
awk
corpus
NLTK(python)中的语料库和词典有什么区别[关闭]
Closed 这个问题需要多问focused help closed questions 目前不接受答案 有人可以告诉我 a 和 a 之间的区别吗Corpora corpus and lexicon在NLTK 是什么电影数据集 what i
machinelearning
NLP
NLTK
corpus
lexical
NLTK - 获取并简化标签列表
我正在使用布朗语料库 我想要某种方法来打印所有可能的标签及其名称 而不仅仅是标签缩写 标签也不少 有没有办法 简化 标签呢 我所说的简化是指将两个极其相似的标签合并为一个 然后用另一个标签重新标记合并后的单词 之前以某种方式讨论过 Java
python
NLTK
corpus
taggedcorpus
需要在NLTK和Python中设置分类语料阅读器,语料文本在一个文件中,每行一个文本
我通过 Jacob Perkins 的书 Python Text Handling with NLTK 2 0 Cookbook 逐渐熟悉了 NLTK 和文本分类 我的语料库文档 文本每个都包含一段文本 因此每个文本都位于单独的文件行中 而
python27
Text
NLTK
corpus
categorization
在 R tm 包中,从 Document-Term-Matrix 构建语料库
使用 tm 包从语料库构建文档术语矩阵非常简单 我想从文档术语矩阵构建一个语料库 令 M 为文档集中的文档数 令 V 为该文档集词汇表中的术语数量 那么文档术语矩阵就是 M V 矩阵 我还有一个长度为 V 的词汇向量 词汇向量中是由文档术语
r
textmining
tm
corpus
LDA
OSError: [WinError 193] %1 不是有效的 Win32 应用程序 - nltk
所以 我不断收到此错误 OSError WinError 193 1 is not a valid Win32 application 我认为这是因为我的环境变量 所以 我修复了这个问题 但仍然出现错误 我目前很茫然 这是完整的错误输出 T
python
python3x
NLTK
corpus
r中如何将列表转换为语料库?
In this question我问如何分割一个巨大的数据框来创建一个语料库 感谢答案 我能够从数据帧创建一个列表 我的问题仍然是从我创建的列表中获取语料库为了进行一些文本挖掘并根据搜索词对数据进行聚类 为了解决这个问题 我只是将 tm 包
r
list
corpus
如何仅选择语料库术语的子集以在 tm 中创建 TermDocumentMatrix
我有一个巨大的语料库 我只对我预先知道的少数术语的出现感兴趣 有没有办法使用以下方法从语料库创建术语文档矩阵tm包 其中只使用和包含我预先指定的术语 我知道我可以对语料库的结果 TermDocumentMatrix 进行子集化 但由于内存大
r
tm
corpus
termdocumentmatrix
1
2
»