Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
SQL Server 与 MySQL:CONTAINS(*,'FORMSOF(THESAURUS,word)')
我很震惊 当我在 SQL Server 中看到查询非常简单时 我花了 3 4 天弄清楚如何在 mysql 中实现词干提取 和同义词搜索 Select from tab where CONTAINS FORMSOF THESAURUS wor
mysql
sqlserver
fulltextsearch
stemming
thesaurus
如何在R中将文本拆分为两个有意义的单词
这是我的数据框 df 中的文本 其中有一个名为 problem note text 的文本列 SSCIssue 钞票分配器故障执行检查 分配器故障 要求商店取出钞票分配器并将其放回去 仍然错误消息说前门已打开 因此 CE attn req联
r
split
stemming
textanalysis
为 postgresql 全文搜索添加新语言
有没有办法向 postgresql 全文搜索添加新语言 我可以从哪里阅读或从哪里开始 你可以看看这个a link http www postgresql org docs 9 4 static textsearch dictionaries
postgresql
fulltextsearch
stemming
波特 油炸的去梗
为什么波特词干算法在线 http text processing com demo stem http text processing com demo stem stem fried to fri并不是fry 我不记得任何以以下结尾的单词
NLP
NLTK
stemming
porterstemmer
R 中的基本词干提取代替根词干提取
有没有什么方法可以在 R 中使用 NLP 来获取词干而不是根词 Code gt Loading libraries gt library tm gt library slam gt gt Vector gt Vec c happyness
r
NLP
stemming
如何为 nltk 词形还原器提供(或生成)标签
我有一组文档 我想将它们转换为这样的形式 这样我就可以对这些文档中的单词进行 tfidf 计数 这样每个文档都由 tfidf 数字向量表示 我认为调用 WordNetLemmatizer lemmatize word 就足够了 然后调用 P
python
NLTK
stemming
lemmatization
有没有办法在python nltk中反转stem?
我有一个 NLTK python 中的词干列表 并且想要获取创建该词干的可能单词 有没有办法在Python中获取词干并获取词干的单词列表 据我所知 答案是否定的 并且根据词干分析器的不同 可能很难进行详尽的搜索来恢复词干规则的效果 并且无论
python
NLTK
stemming
如何优化 R 中词干提取和拼写检查的性能?
我有大约 1 400 万个文档 每个文档的平均字符数为 中位数 250 和平均值 470 我想在对它们进行分类之前执行拼写检查和词干提取 模拟文档 sentence lt We aree drivng as fast as we drove
r
spellchecking
stemming
词干提取会损害文本分类的精度吗?
我读到词干提取会损害准确性 但会提高文本分类的召回率 这是怎么发生的 当您进行词干提取时 您会增加查询和示例文档之间的匹配数量 对吗 总是一样的 如果你提高回忆 你就进行了概括 因此 你会失去精确度 将单词词干合并在一起 一方面 应该合并在
Text
NLP
Classification
stemming
单词短语搜索以避免 Solr 中的词干
我在 Solr 实例中启用了词干提取 我假设为了在不禁用词干提取的情况下执行精确的单词搜索 只需将单词放入引号中即可 然而事实似乎并非如此 有没有一种简单的方法可以实现这一目标 如果您指的是 slop 所需的相似性 作为模糊搜索的一部分 请
Search
Lucene
Solr
stemming
雪球词干:定义区域
我试图理解雪球词干算法 该算法使用两个区域 R1 和 R2 定义如下 R1 是元音后面的第一个非元音之后的区域 或者是 如果没有这样的非元音 则为单词末尾的空区域 R2 是 R1 中元音后面的第一个非元音之后的区域 或者 是单词末尾的空区域
NLP
stemming
linguistics
porterstemmer
snowball
在 R 文本清理中删除标点符号但保留连字符短语
有没有有效的方法可以删除文本中的标点符号 但保留连字符的表达方式 例如 容易发生事故 我使用以下函数来清理我的文本 clean text function x remove rt x gsub rt x remove at x gsub w
r
regex
stemming
punctuation
hyphenation
StemDocument R 文本挖掘
我的数据是一个txt文件 如下所示 字数 doc概述1客户1 store 1 marge 1 price 2 stock 2经济学2 文档的编号已排序 从最小到最大 现在我想要每个文档属于该文档的所有单词 现在它们站在一列中 但我想要文本文
r
tm
stemming
如何在 solr 中索引单词及其前缀?
我使用 solr 3 3 来索引我的文件 我想要 solr 索引词及其后缀 例如我想索引彩色 如颜色 当我搜索颜色 solr 时显示任何具有彩色的文档 您需要在现场应用分析 Stemming http wiki apache org sol
Solr
Indexing
stemming
词干提取的逆过程
我使用 lucene 雪球分析器来执行词干提取 结果是没有意义的话 我提到了这个question https stackoverflow com questions 190775 stemming algorithm that produc
Java
similarity
stemming
porterstemmer
nltk:如何防止专有名词的词干
我正在尝试使用斯坦福词性标注器和 NER 编写一个关键字提取程序 对于关键字提取 我只对专有名词感兴趣 这是基本方法 通过删除字母以外的任何内容来清理数据 删除停用词 每个词的词干 确定每个单词的 POS 标签 如果 POS 标签是名词 则
python
NLP
NLTK
stanfordnlp
stemming
MongoDB 文本索引的词干分析无法正常工作
我正在尝试使用 MongoDB 的全文搜索功能并观察一些意外的行为 该问题与文本索引功能的 词干 方面有关 在线许多文章中都描述了全文搜索的方式 如果文档字段中有一个字符串 big Hunting dogs 并且该字段是文本索引的一部分 那
MongoDB
Search
Indexing
fulltextsearch
stemming
应用 tm 方法“stemCompletion”时一个变量的多个结果
我有一个语料库 其中包含 3 个变量 ID 标题 摘要 的 15 个观察结果的期刊数据 我使用 R Studio 从 csv 文件中读取数据 每个观察一行 在执行一些文本挖掘操作时 我在使用 StemCompletion 方法时遇到了一些麻
r
RStudio
tm
stemming
Sphinx 的斯洛文尼亚词干分析器
我正在搜索斯洛文尼亚语的词干算法 我可以将其与 Sphinx 搜索一起使用 我想要实现的目标是 例如 在搜索 jabolka 时 我还想要包含 jabolko jabolki jabolk 等文档的结果 我找到了一些关于斯洛文尼亚词干分析器
php
Search
fulltextsearch
sphinx
stemming
有没有可用于印度语言的词干分析器[关闭]
Closed 此问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 目前不接受答案 是否有任何针对印度语言的词干分析器的实现 例如 印地语 泰卢固语 可用 印地语分析器 带有词干分析器 可在 Lucene 中使用 正是基于此算法 p
NLP
stemming
indic
1
2
»