NLP

在 python 中快速/优化 N-gram 实现

python 中哪种 ngram 实现速度最快我试图分析 nltk 与 scott 的 zip http locallyoptimal com blog 2013 01 20 elegant n gram Generation in py

python NLP NLTK informationretrieval NGram

添加对 CountVectorizer (sklearn) 的词干支持

我正在尝试使用 sklearn 将词干添加到 NLP 中的管道中 from nltk stem snowball import FrenchStemmer stop stopwords words french stemmer French

python NLP scikitlearn

波特油炸的去梗

为什么波特词干算法在线 http text processing com demo stem http text processing com demo stem stem fried to fri并不是fry 我不记得任何以以下结尾的单词

NLP NLTK stemming porterstemmer

改进现有的基本 GloVe 模型

我正在使用 GloVe 作为我研究的一部分我已经从以下位置下载了模型here https nlp stanford edu projects glove 我一直在使用 GloVe 进行句子分类我正在分类的句子特定于特定领域例如某些 S

NLP textclassification GloVe

如何计算两个单词之间的相似度以检测它们是否重复？

我有两个单词我想计算它们之间的相似度以便对它们是否重复进行排名如何使用深度学习 NLP 方法实现这一目标这里有一些解决文本相似性的方法基于字符串的方法给定 2 个句子字符串计算余弦相似度 https stackoverflow

python deeplearning NLP similarity

将三元组、二元组和一元组与文本匹配；如果一元或二元是已经匹配的三元的子串，则通过； Python

main text 是包含已被词性标记的句子的列表的列表 main text the DT mad JJ hatter NN likes VB tea NN and CC hats NN the DT red JJ queen NN hat

python NLP textprocessing

在 NLTK 3.0 中使用 Wordnet 从 Synset 中提取单词

前段时间 SO上有人问如何检索给定同义词集的单词列表 https stackoverflow com questions 24664250 how do i print out just the word itself in a wordn

python NLP NLTK WordNet

从复杂（混合）句子中提取简单句子的算法？

有没有一种算法可以用来从段落中提取简单的句子我的最终目标是稍后对生成的简单句子运行另一个算法来确定作者的情绪我已经从 Chae Deug Park 等来源对此进行了研究但没有讨论准备简单的句子作为训练数据提前致谢看一眼Apache

NLP extract textmining textextraction informationextraction

自动同义词检测方法

我目前正在研究一种基于神经网络的短文档分类方法由于我正在使用的语料库通常在十个单词左右因此标准统计文档分类方法的用途有限因此我正在尝试对训练中提供的匹配实施某种形式的自动同义词检测更具体地说我的问题是关于解决以下情况假设我有

如何在张量流中使用非常大（>2M）的词嵌入？

我正在运行一个具有非常大的词嵌入 gt 2M 词的模型当我使用 tf embedding lookup 时它需要一个很大的矩阵当我运行时我随后出现了 GPU 内存错误如果我减小嵌入的大小一切都会正常有没有办法处理更大的嵌入

tensorflow NLP deeplearning Embedding embeddinglookup

如何在javascript中动态构建json数组

我从 wit ai 收到一个 json 对象其中包含一些快速回复元素如下所示 msg So glad to have you back What do you want me to do action id 6fd7f2bd db67

javascript nodejs facebook NLP witai

如何使用斯坦福NER（命名实体识别器）的python接口？

我想使用 pyner 库在 python 中使用斯坦福 NER 这是一个基本的代码片段 import ner tagger ner HttpNER host localhost port 80 tagger get entities Uni

python27 NLP stanfordnlp namedentityrecognition

NLP 中的否定处理

我目前正在开发一个项目我想从文本中提取情感由于我使用的是conceptnet5 一种语义网络因此我不能简单地在包含否定词的句子中添加单词前缀因为这些单词根本不会出现在conceptnet5 的API 中这是一个例子这部电影不太好

python regex NLP NLTK textprocessing

基于WordNet测量语义相似度，Brown Corpus有什么用

我遇到了几种使用 WordNet 的结构和层次结构来测量语义相似性的方法例如Jiang and Conrath测度 JNC Resnik测度 RES 林测度 LIN 等使用 NLTK 测量它们的方式是 sim2 wn jcn simil

NLP similarity WordNet corpus semanticanalysis

TfidfVectorizer.fit_transfrom 和 tfidf.transform 之间有什么区别？

在 Tfidf fit transform 中我们仅使用参数 X 而没有使用 y 来拟合数据集这是正确的吗我们仅为训练集的参数生成 tfidf 矩阵我们没有使用 ytrain 来拟合模型那我们如何对测试数据集进行预测呢 https

python scikitlearn NLP tfidfvectorizer

Sklearn CountVectorizer：将表情符号保留为单词

我正在使用 SklearnCountVectorizer在字符串上但是CountVectorizer丢弃文本中的所有表情符号例如 Welcome应该给我们 xf0 x9f x91 x8b welcome 但是运行时 vect Count

python scikitlearn NLP countvectorizer

非英语文本的情感分析

我想分析用德语写的文本的情感我找到了很多关于如何用英语做到这一点的教程但我没有找到关于如何将其应用到不同语言的教程我有一个想法使用TextBlobPython 库首先将句子翻译成英语然后进行情感分析但我不确定这是否是解决此任务的最

python machinelearning NLP sentimentanalysis textblob

如何使用 spacy 或 nltk 检索句子的主要意图？

我有一个用例我想使用 spacy 或 nltk 或任何 NLP 库提取句子的主要有意义部分例句1 我怎样才能发出反对骚扰的声音意图是大声疾呼反对骚扰例句2 唐老鸭是由哪个漫画家哪个人谁创作的意图是唐老鸭是由创造的例句3

NLP NLTK spacy postagger dependencyparsing

显示 NLTK 中的标签概率/置信度

我正在使用 Python NLTK 库中的 MaxEnt 分类器对于我的数据集我有许多可能的标签并且正如预期的那样 MaxEnt 仅返回一个标签我已经训练了我的数据集并获得了大约 80 的准确率我还在未知数据项上测试了我的模型结

python machinelearning NLP NLTK

组合常见搭配的 NLP 流程

我有一个语料库我在 R 中使用 tm 包并且还在 python 中的 NLTK 中镜像相同的脚本我正在使用一元组但希望某种解析器能够将通常位于同一位置的单词组合成一个单词即我不想再在我的单词中分别看到 New 和 York 当它

python r NLP NLTK tm