Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何在R中将文本拆分为两个有意义的单词
这是我的数据框 df 中的文本 其中有一个名为 problem note text 的文本列 SSCIssue 钞票分配器故障执行检查 分配器故障 要求商店取出钞票分配器并将其放回去 仍然错误消息说前门已打开 因此 CE attn req联
r
split
stemming
textanalysis
如何检测文本文档之间的重复项并返回重复项的相似度?
我正在编写一个爬虫来从某个网站获取内容 但是内容可以重复 我想要 以避免这种情况 所以我需要一个函数可以在两个文本之间返回相同的百分比来检测两个可能重复的内容示例 文本 1 我正在编写一个爬虫 文本2 我正在编写一些文本爬虫来获取 比较函数
Algorithm
informationretrieval
textanalysis
从文本文件中提取两个分隔符之间的文本
我目前正在写关于首席执行官自恋的硕士论文 为了衡量它 我必须进行财报电话文本分析 我按照 python 中提供的答案编写了一段代码这个链接 https stackoverflow com questions 36559356 extract
python
python3x
textanalysis
大文本语料库破坏 tm_map
在过去的几天里 我一直在为这个问题伤透脑筋 我搜索了所有 SO 档案并尝试了建议的解决方案 但似乎无法让它发挥作用 我在 2000 06 1995 99 等文件夹中有一组 txt 文档 并且想要运行一些基本的文本挖掘操作 例如创建文档术语矩
r
textmining
tm
textanalysis
termdocumentmatrix
如何在R中检查字符串是否包含罗马数字?
我的数据集 ad 中有一个住宅地址列 我想检查没有数字 包括罗马数字 的地址 我在用着 ad check lt grepl digit ad address 标记出不存在数字的地址 如何对包含罗马数字的地址执行相同的操作 例如 ABC Ci
r
regex
textanalysis
romannumerals
NLP 对句子内容进行分类/标记(需要 Ruby 绑定)
我正在分析几百万封电子邮件 我的目标是能够将其分组 团体可以是例如 交货问题 发货缓慢 发货前处理缓慢 库存信息不正确等 客户服务问题 电子邮件回复速度慢 回复不礼貌等 退货问题 退货请求处理缓慢 客户服务缺乏帮助等 定价投诉 发现隐藏费用
ruby
NLP
stanfordnlp
opennlp
textanalysis
ValueError:发现样本数量不一致的数组 [6 1786]
这是我的代码 from sklearn svm import SVC from sklearn grid search import GridSearchCV from sklearn cross validation import KFo
python
machinelearning
scikitlearn
textanalysis