Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
R构建文档术语矩阵如何匹配其值由空格分隔的短语组成的字典
当使用R进行文本挖掘时 在对文本数据进行重新处理后 我们需要创建一个文档术语矩阵以供进一步探索 但是和中文类似 英语也有一些特定的阶段 比如 语义距离 机器学习 如果把它们分词成词 它的含义就完全不同了 我想知道如何匹配预先定义的词典值由空
r
Dictionary
textmining
termdocumentmatrix
quanteda
删除文本中的所有标点符号,包括 tm 包的撇号
我有一个由推文 只是消息文本 组成的向量 我正在清理它以进行文本挖掘 我用过removePunctuation来自tm像这样的包 clean tweet text removePunctuation tweet text 这产生了一个从文本
r
textmining
tm
有没有办法提取PDF文档的页眉页脚和标题页?
我想知道是否有任何软件包可以从 PDF 文档中检测并提取页眉和页脚或标题页 我是使用 python 进行文本挖掘的新手 我想知道例如 pdfminer layout 可以帮助查找 pdf 中的任何文本块吗 我正在使用此实用程序函数从 PDF
python
pdf
textmining
在 Python 中使用 Scipy Hierarchy Clustering 进行文本聚类
我有一个文本语料库 其中包含 1000 多篇文章 每篇文章都在单独的行中 我正在尝试使用 python 中的 Scipy 进行层次聚类来生成相关文章的集群 这是我用来进行聚类的代码 Agglomerative Clustering impo
python
scipy
clusteranalysis
textmining
使用 Python 对 PDF 文件进行文本挖掘?
python 是否有一个包 库可以让我打开 PDF 并在文本中搜索某些单词 Using PyPdf2您可以使用提取文本 提取 pdf 文本并对其进行处理的方法 更新 更改了文本以引用 PyPdf2 感谢 Aditya Kumar 的提醒
python
pdf
textmining
字节 vs 字符 vs 单词 - n-gram 的粒度是什么?
至少可以考虑 3 种类型的 n gram 来表示文本文档 字节级 n 元语法 字符级 n 元语法 词级 n 元语法 我不清楚应该使用哪一个来完成给定的任务 聚类 分类等 我在某处读到 当文本包含拼写错误时 字符级 n gram 优于单词级
NLP
datamining
textmining
NGram
如何从 R 访问维基百科?
R 是否有任何包允许查询维基百科 最有可能使用 Mediawiki API 来获取与此类查询相关的可用文章列表 以及导入选定的文章以进行文本挖掘 有WikipediR R 中的 MediaWiki API 包装器 library devto
r
wikipedia
textmining
wikipediaapi
mediawikiapi
情感分析 - wordNet , SentiWordNet 词典
我需要一个包含积极和消极词语的列表weights根据单词的强度和周数来分配单词 我有 1 WordNet 它为每个单词给出 或 分数 2 SentiWordNet 给出 0 1 范围内的正值和负值 我用几句话检查了这些 love wordN
NLP
textmining
WordNet
sentimentanalysis
具有特定形状的词云[关闭]
Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 目前不接受答案 Suppose I have a dataframe which contains some words with their frequencie
r
textmining
WordCloud
使用 Python 从非结构化文本中提取人的年龄
我有一个行政档案数据集 其中包括简短的传记 我正在尝试使用 python 和一些模式匹配来提取人们的年龄 一些句子的例子是 邦德先生 67 岁 是英国的一名工程师 阿曼达 B 拜恩斯 Amanda B Bynes 34 岁 是一名演员 彼得
python
NLP
patternmatching
textmining
如何编写自定义的removePunctuation()函数以更好地处理Unicode字符?
在 tm 文本挖掘 R 包的源代码中 在文件中变换R 有removePunctuation 函数 当前定义为 function x preserve intra word dashes FALSE if preserve intra wor
r
Unicode
textmining
tm
R,将多行文本数据框合并到一个单元格中
我有一个如下所示的文本数据框 gt nrow gettext df 1 3 gt gettext df gettext 1 hello 2 Good to hear back from you 3 I ve currently writte
r
MERGE
textmining
从文本中提取位置的方法?
从自由文本中提取位置的推荐方法是什么 我能想到的是使用正则表达式规则 例如 单词 在位置 但还有比这更好的方法吗 我还可以考虑建立一个包含国家和城市名称的查找哈希表 然后将文本中提取的每个标记与哈希表的标记进行比较 有人知道更好的方法吗 编
R tm removeWords函数不删除单词
我试图从我构建的语料库中删除一些单词 但它似乎不起作用 我首先遍历所有内容并创建一个数据框 按频率顺序列出我的单词 我使用此列表来识别我不感兴趣的单词 然后尝试创建一个删除单词的新列表 但是 这些词仍然保留在我的数据集中 我想知道我做错了什
r
Text
textmining
tm
corpus
«
1
2
3
4