Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
CBOW 与Skip-gram:为什么要颠倒上下文和目标词?
In this https www tensorflow org versions r0 9 tutorials word2vec index html vector representations of words页面上 据说 skip
NLP
tensorflow
deeplearning
Word2Vec
wordembedding
元音计数顺序
这不是一个家庭作业问题 而是一个考试准备问题 我应该定义一个函数syllables word 计算音节数 一句话如下 元音的最大序列是一个音节 最终e在一个单词中不是一个音节 或者它是元音序列的一部分 的 我不必处理任何特殊情况 例如最终的
python
regex
NLP
屏蔽张量的损失
假设我有像这样的 logits 4 3 0 5 2 7 0 0 0 5 2 3 0 0 0 显然 第一个示例中的最后两个和第二个示例中的最后三个被屏蔽 即它们为零 并且不应影响损失和梯度计算 如何计算此 logits 和相应标签之间的交叉熵
python
tensorflow
machinelearning
NLP
识别短文本的语言? [关闭]
Closed 这个问题需要多问focused help closed questions 目前不接受答案 我有一个文章列表 每篇文章都有自己的标题和描述 不幸的是 从我使用的来源来看 无法知道它们是用什么语言编写的 此外 文本并非完全用一种
python
NLP
Ubuntu 上的 Giza++ 有正确的安装指南吗?
我看到适用于 Giza 的正确安装指南 但不适用于 Giza 安装前者的说明 可在此处找到 http giza sourceforge net documentation installation html http giza source
installation
NLP
ubuntu1204
giza
如何在文本中定义人名(Java)
我有一些输入文本 其中包含一个或多个人名 我没有这些名字的字典 哪个 Java 库可以帮助我根据输入文本定义名称 我浏览了 OpenNLP 但没有找到任何示例或指南 或者至少没有找到如何将其应用到我的代码中的描述 我看到了 javadoc
Java
NLP
namedentityrecognition
使用斯坦福核心 NLP 的自定义关系提取模型未找到任何关系
我使用斯坦福核心 NLP 训练了一个用于关系提取的自定义模型example http nlp stanford edu software relationExtractor html 但是当我运行模型时 它没有找到任何关系 即使我直接使用训
NLP
trainingdata
stanfordnlp
朴素高斯预测概率仅返回 0 或 1
我从 scikit sklearn 训练了 GaussianNB 模型 当我调用该方法时classifier predict proba它仅在新数据上返回 1 或 0 预计会返回预测正确与否的置信度百分比 我怀疑它能否对以前从未见过的新数据
python
machinelearning
scikitlearn
NLP
datascience
Python:使用 Spacy 等对名词短语以外的其他内容进行分块(例如介词)
自从我得知 Spacy 是一个用于自然语音处理的强大 Python 模块以来 我现在拼命寻找一种方法 将单词组合在一起 不仅仅是名词短语 最重要的是介词短语 我怀疑是否有 Spacy 函数 但这将是我猜想的最简单的方法 SpacySpaCy
python
NLP
chunking
Phrases
spacy
如何使用带有StanfordCoreNLP prop 'ner'的序列化CRFClassifier
我正在使用StanfordCoreNLP API 接口以编程方式执行一些基本的NLP 我需要在自己的语料库上训练模型 但我想使用StanfordCoreNLP界面来做到这一点 因为它在幕后处理许多干的机制 我在那里不需要太多的专业知识 我已
Java
NLP
stanfordnlp
PipelineException:在输入中找不到 mask_token ([MASK])
我收到此错误 PipelineException 在输入中找不到 mask token MASK 当我运行这条线时 fill mask 汽车 我在 Colab 上运行它 我的代码 from transformers import BertT
python
NLP
Pytorch
bertlanguagemodel
huggingfacetransformers
从标注器获取附加信息(主动/被动、时态...)
我正在使用斯坦福标记器来确定词性 但是 我想从文本中获取更多信息 是否有可能获得更多信息 例如句子的时态或是否处于主动 被动状态 到目前为止 我正在使用非常基本的 PoS 标记方法 List
NLP
stanfordnlp
postagger
如何列出句子中表示动物的所有英语术语?
例如 在句子 两匹马刚刚躺下 一群失去母亲的小鸭子鱼贯进入谷仓 有气无力地吱吱叫 左右徘徊 寻找不被踩踏的地方 有两种动物 马和鸭 我正在寻找动物名称的词汇表 但找不到足够完整的内容 这WordNet http wordnet prince
NLP
lexicalanalysis
patternrecognition
R 中的基本词干提取代替根词干提取
有没有什么方法可以在 R 中使用 NLP 来获取词干而不是根词 Code gt Loading libraries gt library tm gt library slam gt gt Vector gt Vec c happyness
r
NLP
stemming
无法安装文本
使用命令pip install textract我无法在 Ubuntu 16 04 Python 2 上安装 texttract 我收到以下错误 Collecting textract Requirement already satisfi
pip
NLP
sentimentanalysis
textextraction
pdfreader
为什么评估集会耗尽 pytorch 拥抱中的内存?
我使用的是相当大的 GPU 大约 80 GB 训练纪元运行良好 但由于某种原因在评估时 训练集和验证集或多或少具有相同的长度 我内存不足并收到此错误 File home transformers trainer pt utils py li
Pytorch
NLP
huggingfacetransformers
pretrainedmodel
从文本内容生成标签
我很好奇是否存在一种算法 方法可以通过使用一些权重计算 出现率或其他工具从给定文本生成关键字 标签 此外 如果您为此指出任何基于 Python 的解决方案 库 我将不胜感激 Thanks 实现此目的的一种方法是提取文档中出现频率比您预期的偶
python
tags
machinelearning
NLP
NLTK
每次我在同一语料库上训练时,LDA 模型都会生成不同的主题
我正在使用Pythongensim从包含 231 个句子的小语料库中训练潜在狄利克雷分配 LDA 模型 然而 每次我重复这个过程 它都会产生不同的主题 为什么相同的LDA参数和语料每次生成不同的主题 如何稳定话题生成 我正在使用这个语料库
python
NLP
LDA
topicmodeling
gensim
文本中的句子注释不带标点符号
我很难让 CoreNLP 系统正确找到诗歌语料库中一个句子的结束位置和另一个句子的开始位置 其陷入困境的原因 有些诗在整个长度上都没有标点符号 有时甚至没有大小写 有些诗的句子从一个段落延伸到另一个段落 有些诗每行开头都大写 这是一个特别棘
Java
NLP
stanfordnlp
fastText 中的精确度和召回率?
我实现了 fastText 进行文本分类 链接https github com facebookresearch fastText blob master tutorials supervised learning md https git
NLP
Classification
precision
fasttext
«
1 ...
6
7
8
9
10
11
12
...45
»