Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
用于估计(一元)困惑度的 NLTK 包
我正在尝试计算我所拥有的数据的困惑度 我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
python27
NLP
NLTK
NGram
languagemodel
在 python 中快速/优化 N-gram 实现
python 中哪种 ngram 实现速度最快 我试图分析 nltk 与 scott 的 zip http locallyoptimal com blog 2013 01 20 elegant n gram Generation in py
python
NLP
NLTK
informationretrieval
NGram
NGramTokenizer 未按预期工作
我有一个简单的 R 代码 可以从文件中读取文本并在条形图上绘制重复出现的短语 由于某种原因 条形图仅显示单个单词而不是多词短语 我哪里出错了 install packages xlsx install packages tm install
r
ggplot2
NGram
如何在 python nltk 中获取 n-gram 搭配和关联?
In 本文档 http nltk googlecode com svn trunk doc howto collocations html 有一个例子使用nltk collocations BigramAssocMeasures Bigra
python
NLP
NLTK
NGram
collocation
Drupal 的搜索模块可以搜索子字符串吗? (部分搜索)
Drupal核心搜索模块 仅搜索关键字 例如 三明治 我可以使用子字符串进行搜索吗 例如 三明治 并返回我的三明治结果 也许有一个插件可以做到这一点 最直接的模块可能是模糊搜索 http drupal org project fuzzyse
Search
Drupal
Partial
NGram
如何在 whoosh 中使用 n 元语法
我正在尝试使用 n grams 来使用 Whoosh 进行 自动完成式 搜索 不幸的是我有点困惑 我做了一个这样的索引 if not os path exists index os mkdir index ix create in inde
python
autocomplete
NGram
whoosh
仅返回与 Solr 匹配足够 NGram 的结果
为了使用 Solr 实现某种程度的容错 我开始使用NGramFilterFactory 以下是来自schema xml
Solr
NGram
relevance
休眠搜索 |具有 minGramSize 1 的 ngram 分析器
我的 Hibernate Search 分析器配置存在一些问题 我的索引实体之一 Hospital 有一个字符串字段 name 其中可能包含长度为 1 40 的值 我希望能够通过仅搜索一个字符来找到一个实体 因为医院有可能只有单个字符名称
Lucene
hibernatesearch
NGram
analyzer
尝试在Elasticsearch中设置max_gram和min_gram
我尝试在 Ubuntu 16 04 EC2 服务器上部署 Ruby on Rails 应用程序 但给出了有关 Elasticsearch 上 max gram 和 min gram 之间差异的错误 我还没有任何 Elasticsearch
elasticsearch
NGram
elasticsearchanalyzers
使用 python 有效提取 1-5 克
我有一个 3 000 000 行的巨大文件 每行有 20 40 个单词 我必须从语料库中提取 1 到 5 个 ngram 我的输入文件是标记化的纯文本 例如 This is a foo bar sentence There is a com
python
NLP
NLTK
informationretrieval
NGram
如何在 postgresql 中创建 n-gram
我希望在我的应用程序中具有搜索功能 我使用 trigram 来实现它 并且工作正常 问题是 trigram 正在创建单词的 3 个字符组的序列 我想要在单个对象中包含超过 3 个字符 例如 select show trgm abcpqrs
postgresql
NGram
trigram
Spacy 中有二字母组和三字母组功能吗?
下面的代码将句子分成单独的标记 输出如下 cloud computing is benefiting major manufacturing companies import en core web sm nlp en core web s
python3x
NLP
tokenize
spacy
NGram
Python:减少字典的内存使用
我正在尝试将几个文件加载到内存中 这些文件具有以下 3 种格式之一 字符串 TAB 整型 字符串 TAB 浮点数 int TAB 浮点数 事实上 它们是 ngram 静态文件 以防这有助于解决问题 例如 i love TAB 10 love
python
memory
Dictionary
Compression
NGram
使用 RWeka 2-gram 和 3-gram 而不是 1-gram
我正在尝试使用 RWeka NGramTokenizer 函数从训练语料库中提取 1 gram 2 gram 和 3 gram 不幸的是 只得到1克 有我的代码 train corpus clean up cleanset1 lt tm m
r
NGram
rweka
将 n-gram 合并或反转为单个字符串
如何将下面的二元组合并为单个字符串 bigrams the school school boy boy is is reading split join bigrams split newstr filter newstr append x
python
NGram
如何在弹性搜索中获取整个索引的术语向量信息?而不是在文档级别
根据弹性搜索文档 https www elastic co guide en elasticsearch reference current docs termvectors html https www elastic co guide
elasticsearch
NGram
termvectors
Skipgrams 上下文(kwic)中的关键字?
我使用 Quanteda 对 ngram 和 token 进行上下文分析中的关键字 效果很好 我现在想对skipgrams 执行此操作 捕获 进入障碍 的上下文以及 和 进入障碍 下面的代码是一个空的 kwic 对象 但我不知道我做错了什么
r
NLP
textmining
NGram
quanteda
检测外来词
我正在编写一个脚本来检测语言 A 中来自语言 B 的单词 这两种语言非常相似 并且可能具有相同单词的实例 如果您对我目前掌握的内容感兴趣 代码就在这里 https github com arashsa language detection
python
NLP
NGram
理解 sklearn CountVectorizer 中的“ngram_range”参数
我对如何在 Python 的 scikit learn 库中使用 ngrams 有点困惑 具体来说 如何ngram range参数在 CountVectorizer 中工作 运行这段代码 from sklearn feature extra
python
scikitlearn
NGram
featureselection
Python中N-Gram、tf-idf和Cosine相似度的简单实现
我需要比较存储在数据库中的文档并得出 0 到 1 之间的相似度分数 我需要使用的方法必须非常简单 实现普通版本的 n gram 可以定义使用多少克 以及 tf idf 和余弦相似度的简单实现 有什么程序可以做到这一点吗 或者我应该从头开始写
python
Document
NGram
tfidf
vsm
1
2
»