NGram

用于估计（一元）困惑度的 NLTK 包

我正在尝试计算我所拥有的数据的困惑度我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co

python27 NLP NLTK NGram languagemodel

在 python 中快速/优化 N-gram 实现

python 中哪种 ngram 实现速度最快我试图分析 nltk 与 scott 的 zip http locallyoptimal com blog 2013 01 20 elegant n gram Generation in py

python NLP NLTK informationretrieval NGram

NGramTokenizer 未按预期工作

我有一个简单的 R 代码可以从文件中读取文本并在条形图上绘制重复出现的短语由于某种原因条形图仅显示单个单词而不是多词短语我哪里出错了 install packages xlsx install packages tm install

r ggplot2 NGram

如何在 python nltk 中获取 n-gram 搭配和关联？

In 本文档 http nltk googlecode com svn trunk doc howto collocations html 有一个例子使用nltk collocations BigramAssocMeasures Bigra

python NLP NLTK NGram collocation

Drupal 的搜索模块可以搜索子字符串吗？（部分搜索）

Drupal核心搜索模块仅搜索关键字例如三明治我可以使用子字符串进行搜索吗例如三明治并返回我的三明治结果也许有一个插件可以做到这一点最直接的模块可能是模糊搜索 http drupal org project fuzzyse

Search Drupal Partial NGram

如何在 whoosh 中使用 n 元语法

我正在尝试使用 n grams 来使用 Whoosh 进行自动完成式搜索不幸的是我有点困惑我做了一个这样的索引 if not os path exists index os mkdir index ix create in inde

python autocomplete NGram whoosh

仅返回与 Solr 匹配足够 NGram 的结果

为了使用 Solr 实现某种程度的容错我开始使用NGramFilterFactory 以下是来自schema xml

Solr NGram relevance

休眠搜索 |具有 minGramSize 1 的 ngram 分析器

我的 Hibernate Search 分析器配置存在一些问题我的索引实体之一 Hospital 有一个字符串字段 name 其中可能包含长度为 1 40 的值我希望能够通过仅搜索一个字符来找到一个实体因为医院有可能只有单个字符名称

Lucene hibernatesearch NGram analyzer

尝试在Elasticsearch中设置max_gram和min_gram

我尝试在 Ubuntu 16 04 EC2 服务器上部署 Ruby on Rails 应用程序但给出了有关 Elasticsearch 上 max gram 和 min gram 之间差异的错误我还没有任何 Elasticsearch

elasticsearch NGram elasticsearchanalyzers

使用 python 有效提取 1-5 克

我有一个 3 000 000 行的巨大文件每行有 20 40 个单词我必须从语料库中提取 1 到 5 个 ngram 我的输入文件是标记化的纯文本例如 This is a foo bar sentence There is a com

python NLP NLTK informationretrieval NGram

如何在 postgresql 中创建 n-gram

我希望在我的应用程序中具有搜索功能我使用 trigram 来实现它并且工作正常问题是 trigram 正在创建单词的 3 个字符组的序列我想要在单个对象中包含超过 3 个字符例如 select show trgm abcpqrs

postgresql NGram trigram

Spacy 中有二字母组和三字母组功能吗？

下面的代码将句子分成单独的标记输出如下 cloud computing is benefiting major manufacturing companies import en core web sm nlp en core web s

python3x NLP tokenize spacy NGram

Python：减少字典的内存使用

我正在尝试将几个文件加载到内存中这些文件具有以下 3 种格式之一字符串 TAB 整型字符串 TAB 浮点数 int TAB 浮点数事实上它们是 ngram 静态文件以防这有助于解决问题例如 i love TAB 10 love

python memory Dictionary Compression NGram

使用 RWeka 2-gram 和 3-gram 而不是 1-gram

我正在尝试使用 RWeka NGramTokenizer 函数从训练语料库中提取 1 gram 2 gram 和 3 gram 不幸的是只得到1克有我的代码 train corpus clean up cleanset1 lt tm m

r NGram rweka

将 n-gram 合并或反转为单个字符串

如何将下面的二元组合并为单个字符串 bigrams the school school boy boy is is reading split join bigrams split newstr filter newstr append x

python NGram

如何在弹性搜索中获取整个索引的术语向量信息？而不是在文档级别

根据弹性搜索文档 https www elastic co guide en elasticsearch reference current docs termvectors html https www elastic co guide

elasticsearch NGram termvectors

Skipgrams 上下文（kwic）中的关键字？

我使用 Quanteda 对 ngram 和 token 进行上下文分析中的关键字效果很好我现在想对skipgrams 执行此操作捕获进入障碍的上下文以及和进入障碍下面的代码是一个空的 kwic 对象但我不知道我做错了什么

r NLP textmining NGram quanteda

检测外来词

我正在编写一个脚本来检测语言 A 中来自语言 B 的单词这两种语言非常相似并且可能具有相同单词的实例如果您对我目前掌握的内容感兴趣代码就在这里 https github com arashsa language detection

python NLP NGram

理解 sklearn CountVectorizer 中的“ngram_range”参数

我对如何在 Python 的 scikit learn 库中使用 ngrams 有点困惑具体来说如何ngram range参数在 CountVectorizer 中工作运行这段代码 from sklearn feature extra

python scikitlearn NGram featureselection

Python中N-Gram、tf-idf和Cosine相似度的简单实现

我需要比较存储在数据库中的文档并得出 0 到 1 之间的相似度分数我需要使用的方法必须非常简单实现普通版本的 n gram 可以定义使用多少克以及 tf idf 和余弦相似度的简单实现有什么程序可以做到这一点吗或者我应该从头开始写

python Document NGram tfidf vsm