stemming

SQL Server 与 MySQL：CONTAINS(*,'FORMSOF(THESAURUS,word)')

我很震惊当我在 SQL Server 中看到查询非常简单时我花了 3 4 天弄清楚如何在 mysql 中实现词干提取和同义词搜索 Select from tab where CONTAINS FORMSOF THESAURUS wor

mysql sqlserver fulltextsearch stemming thesaurus

如何在R中将文本拆分为两个有意义的单词

这是我的数据框 df 中的文本其中有一个名为 problem note text 的文本列 SSCIssue 钞票分配器故障执行检查分配器故障要求商店取出钞票分配器并将其放回去仍然错误消息说前门已打开因此 CE attn req联

r split stemming textanalysis

为 postgresql 全文搜索添加新语言

有没有办法向 postgresql 全文搜索添加新语言我可以从哪里阅读或从哪里开始你可以看看这个a link http www postgresql org docs 9 4 static textsearch dictionaries

postgresql fulltextsearch stemming

波特油炸的去梗

为什么波特词干算法在线 http text processing com demo stem http text processing com demo stem stem fried to fri并不是fry 我不记得任何以以下结尾的单词

NLP NLTK stemming porterstemmer

R 中的基本词干提取代替根词干提取

有没有什么方法可以在 R 中使用 NLP 来获取词干而不是根词 Code gt Loading libraries gt library tm gt library slam gt gt Vector gt Vec c happyness

r NLP stemming

如何为 nltk 词形还原器提供（或生成）标签

我有一组文档我想将它们转换为这样的形式这样我就可以对这些文档中的单词进行 tfidf 计数这样每个文档都由 tfidf 数字向量表示我认为调用 WordNetLemmatizer lemmatize word 就足够了然后调用 P

python NLTK stemming lemmatization

有没有办法在python nltk中反转stem？

我有一个 NLTK python 中的词干列表并且想要获取创建该词干的可能单词有没有办法在Python中获取词干并获取词干的单词列表据我所知答案是否定的并且根据词干分析器的不同可能很难进行详尽的搜索来恢复词干规则的效果并且无论

python NLTK stemming

如何优化 R 中词干提取和拼写检查的性能？

我有大约 1 400 万个文档每个文档的平均字符数为中位数 250 和平均值 470 我想在对它们进行分类之前执行拼写检查和词干提取模拟文档 sentence lt We aree drivng as fast as we drove

r spellchecking stemming

词干提取会损害文本分类的精度吗？

我读到词干提取会损害准确性但会提高文本分类的召回率这是怎么发生的当您进行词干提取时您会增加查询和示例文档之间的匹配数量对吗总是一样的如果你提高回忆你就进行了概括因此你会失去精确度将单词词干合并在一起一方面应该合并在

Text NLP Classification stemming

单词短语搜索以避免 Solr 中的词干

我在 Solr 实例中启用了词干提取我假设为了在不禁用词干提取的情况下执行精确的单词搜索只需将单词放入引号中即可然而事实似乎并非如此有没有一种简单的方法可以实现这一目标如果您指的是 slop 所需的相似性作为模糊搜索的一部分请

Search Lucene Solr stemming

雪球词干：定义区域

我试图理解雪球词干算法该算法使用两个区域 R1 和 R2 定义如下 R1 是元音后面的第一个非元音之后的区域或者是如果没有这样的非元音则为单词末尾的空区域 R2 是 R1 中元音后面的第一个非元音之后的区域或者是单词末尾的空区域

NLP stemming linguistics porterstemmer snowball

在 R 文本清理中删除标点符号但保留连字符短语

有没有有效的方法可以删除文本中的标点符号但保留连字符的表达方式例如容易发生事故我使用以下函数来清理我的文本 clean text function x remove rt x gsub rt x remove at x gsub w

r regex stemming punctuation hyphenation

StemDocument R 文本挖掘

我的数据是一个txt文件如下所示字数 doc概述1客户1 store 1 marge 1 price 2 stock 2经济学2 文档的编号已排序从最小到最大现在我想要每个文档属于该文档的所有单词现在它们站在一列中但我想要文本文

r tm stemming

如何在 solr 中索引单词及其前缀？

我使用 solr 3 3 来索引我的文件我想要 solr 索引词及其后缀例如我想索引彩色如颜色当我搜索颜色 solr 时显示任何具有彩色的文档您需要在现场应用分析 Stemming http wiki apache org sol

Solr Indexing stemming

词干提取的逆过程

我使用 lucene 雪球分析器来执行词干提取结果是没有意义的话我提到了这个question https stackoverflow com questions 190775 stemming algorithm that produc

Java similarity stemming porterstemmer

nltk：如何防止专有名词的词干

我正在尝试使用斯坦福词性标注器和 NER 编写一个关键字提取程序对于关键字提取我只对专有名词感兴趣这是基本方法通过删除字母以外的任何内容来清理数据删除停用词每个词的词干确定每个单词的 POS 标签如果 POS 标签是名词则

python NLP NLTK stanfordnlp stemming

MongoDB 文本索引的词干分析无法正常工作

我正在尝试使用 MongoDB 的全文搜索功能并观察一些意外的行为该问题与文本索引功能的词干方面有关在线许多文章中都描述了全文搜索的方式如果文档字段中有一个字符串 big Hunting dogs 并且该字段是文本索引的一部分那

MongoDB Search Indexing fulltextsearch stemming

应用 tm 方法“stemCompletion”时一个变量的多个结果

我有一个语料库其中包含 3 个变量 ID 标题摘要的 15 个观察结果的期刊数据我使用 R Studio 从 csv 文件中读取数据每个观察一行在执行一些文本挖掘操作时我在使用 StemCompletion 方法时遇到了一些麻

r RStudio tm stemming

Sphinx 的斯洛文尼亚词干分析器

我正在搜索斯洛文尼亚语的词干算法我可以将其与 Sphinx 搜索一起使用我想要实现的目标是例如在搜索 jabolka 时我还想要包含 jabolko jabolki jabolk 等文档的结果我找到了一些关于斯洛文尼亚词干分析器

php Search fulltextsearch sphinx stemming

有没有可用于印度语言的词干分析器[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案是否有任何针对印度语言的词干分析器的实现例如印地语泰卢固语可用印地语分析器带有词干分析器可在 Lucene 中使用正是基于此算法 p

NLP stemming indic