NLP

CBOW 与Skip-gram：为什么要颠倒上下文和目标词？

In this https www tensorflow org versions r0 9 tutorials word2vec index html vector representations of words页面上据说 skip

NLP tensorflow deeplearning Word2Vec wordembedding

元音计数顺序

这不是一个家庭作业问题而是一个考试准备问题我应该定义一个函数syllables word 计算音节数一句话如下元音的最大序列是一个音节最终e在一个单词中不是一个音节或者它是元音序列的一部分的我不必处理任何特殊情况例如最终的

python regex NLP

屏蔽张量的损失

假设我有像这样的 logits 4 3 0 5 2 7 0 0 0 5 2 3 0 0 0 显然第一个示例中的最后两个和第二个示例中的最后三个被屏蔽即它们为零并且不应影响损失和梯度计算如何计算此 logits 和相应标签之间的交叉熵

python tensorflow machinelearning NLP

识别短文本的语言？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个文章列表每篇文章都有自己的标题和描述不幸的是从我使用的来源来看无法知道它们是用什么语言编写的此外文本并非完全用一种

python NLP

Ubuntu 上的 Giza++ 有正确的安装指南吗？

我看到适用于 Giza 的正确安装指南但不适用于 Giza 安装前者的说明可在此处找到 http giza sourceforge net documentation installation html http giza source

installation NLP ubuntu1204 giza

如何在文本中定义人名（Java）

我有一些输入文本其中包含一个或多个人名我没有这些名字的字典哪个 Java 库可以帮助我根据输入文本定义名称我浏览了 OpenNLP 但没有找到任何示例或指南或者至少没有找到如何将其应用到我的代码中的描述我看到了 javadoc

Java NLP namedentityrecognition

使用斯坦福核心 NLP 的自定义关系提取模型未找到任何关系

我使用斯坦福核心 NLP 训练了一个用于关系提取的自定义模型example http nlp stanford edu software relationExtractor html 但是当我运行模型时它没有找到任何关系即使我直接使用训

NLP trainingdata stanfordnlp

朴素高斯预测概率仅返回 0 或 1

我从 scikit sklearn 训练了 GaussianNB 模型当我调用该方法时classifier predict proba它仅在新数据上返回 1 或 0 预计会返回预测正确与否的置信度百分比我怀疑它能否对以前从未见过的新数据

python machinelearning scikitlearn NLP datascience

Python：使用 Spacy 等对名词短语以外的其他内容进行分块（例如介词）

自从我得知 Spacy 是一个用于自然语音处理的强大 Python 模块以来我现在拼命寻找一种方法将单词组合在一起不仅仅是名词短语最重要的是介词短语我怀疑是否有 Spacy 函数但这将是我猜想的最简单的方法 SpacySpaCy

python NLP chunking Phrases spacy

如何使用带有StanfordCoreNLP prop 'ner'的序列化CRFClassifier

我正在使用StanfordCoreNLP API 接口以编程方式执行一些基本的NLP 我需要在自己的语料库上训练模型但我想使用StanfordCoreNLP界面来做到这一点因为它在幕后处理许多干的机制我在那里不需要太多的专业知识我已

Java NLP stanfordnlp

PipelineException：在输入中找不到 mask_token ([MASK])

我收到此错误 PipelineException 在输入中找不到 mask token MASK 当我运行这条线时 fill mask 汽车我在 Colab 上运行它我的代码 from transformers import BertT

python NLP Pytorch bertlanguagemodel huggingfacetransformers

从标注器获取附加信息（主动/被动、时态...）

我正在使用斯坦福标记器来确定词性但是我想从文本中获取更多信息是否有可能获得更多信息例如句子的时态或是否处于主动被动状态到目前为止我正在使用非常基本的 PoS 标记方法 List

NLP stanfordnlp postagger

如何列出句子中表示动物的所有英语术语？

例如在句子两匹马刚刚躺下一群失去母亲的小鸭子鱼贯进入谷仓有气无力地吱吱叫左右徘徊寻找不被踩踏的地方有两种动物马和鸭我正在寻找动物名称的词汇表但找不到足够完整的内容这WordNet http wordnet prince

NLP lexicalanalysis patternrecognition

R 中的基本词干提取代替根词干提取

有没有什么方法可以在 R 中使用 NLP 来获取词干而不是根词 Code gt Loading libraries gt library tm gt library slam gt gt Vector gt Vec c happyness

r NLP stemming

无法安装文本

使用命令pip install textract我无法在 Ubuntu 16 04 Python 2 上安装 texttract 我收到以下错误 Collecting textract Requirement already satisfi

pip NLP sentimentanalysis textextraction pdfreader

为什么评估集会耗尽 pytorch 拥抱中的内存？

我使用的是相当大的 GPU 大约 80 GB 训练纪元运行良好但由于某种原因在评估时训练集和验证集或多或少具有相同的长度我内存不足并收到此错误 File home transformers trainer pt utils py li

Pytorch NLP huggingfacetransformers pretrainedmodel

从文本内容生成标签

我很好奇是否存在一种算法方法可以通过使用一些权重计算出现率或其他工具从给定文本生成关键字标签此外如果您为此指出任何基于 Python 的解决方案库我将不胜感激 Thanks 实现此目的的一种方法是提取文档中出现频率比您预期的偶

python tags machinelearning NLP NLTK

每次我在同一语料库上训练时，LDA 模型都会生成不同的主题

我正在使用Pythongensim从包含 231 个句子的小语料库中训练潜在狄利克雷分配 LDA 模型然而每次我重复这个过程它都会产生不同的主题为什么相同的LDA参数和语料每次生成不同的主题如何稳定话题生成我正在使用这个语料库

python NLP LDA topicmodeling gensim

文本中的句子注释不带标点符号

我很难让 CoreNLP 系统正确找到诗歌语料库中一个句子的结束位置和另一个句子的开始位置其陷入困境的原因有些诗在整个长度上都没有标点符号有时甚至没有大小写有些诗的句子从一个段落延伸到另一个段落有些诗每行开头都大写这是一个特别棘

Java NLP stanfordnlp

fastText 中的精确度和召回率？

我实现了 fastText 进行文本分类链接https github com facebookresearch fastText blob master tutorials supervised learning md https git

NLP Classification precision fasttext