NLP

TfidfVectorizer.fit_transfrom 和 tfidf.transform 之间有什么区别？

在 Tfidf fit transform 中我们仅使用参数 X 而没有使用 y 来拟合数据集这是正确的吗我们仅为训练集的参数生成 tfidf 矩阵我们没有使用 ytrain 来拟合模型那我们如何对测试数据集进行预测呢 https

python scikitlearn NLP tfidfvectorizer

Sklearn CountVectorizer：将表情符号保留为单词

我正在使用 SklearnCountVectorizer在字符串上但是CountVectorizer丢弃文本中的所有表情符号例如 Welcome应该给我们 xf0 x9f x91 x8b welcome 但是运行时 vect Count

python scikitlearn NLP countvectorizer

非英语文本的情感分析

我想分析用德语写的文本的情感我找到了很多关于如何用英语做到这一点的教程但我没有找到关于如何将其应用到不同语言的教程我有一个想法使用TextBlobPython 库首先将句子翻译成英语然后进行情感分析但我不确定这是否是解决此任务的最

python machinelearning NLP sentimentanalysis textblob

如何使用 spacy 或 nltk 检索句子的主要意图？

我有一个用例我想使用 spacy 或 nltk 或任何 NLP 库提取句子的主要有意义部分例句1 我怎样才能发出反对骚扰的声音意图是大声疾呼反对骚扰例句2 唐老鸭是由哪个漫画家哪个人谁创作的意图是唐老鸭是由创造的例句3

NLP NLTK spacy postagger dependencyparsing

显示 NLTK 中的标签概率/置信度

我正在使用 Python NLTK 库中的 MaxEnt 分类器对于我的数据集我有许多可能的标签并且正如预期的那样 MaxEnt 仅返回一个标签我已经训练了我的数据集并获得了大约 80 的准确率我还在未知数据项上测试了我的模型结

python machinelearning NLP NLTK

组合常见搭配的 NLP 流程

我有一个语料库我在 R 中使用 tm 包并且还在 python 中的 NLTK 中镜像相同的脚本我正在使用一元组但希望某种解析器能够将通常位于同一位置的单词组合成一个单词即我不想再在我的单词中分别看到 New 和 York 当它

python r NLP NLTK tm

将列表的列表转换为字符串 pandas dataframe

背景我有以下玩具df包含列中的列表Before and After如下所示 import pandas as pd before list in the bright blue box list because they go reall

python3x pandas DataFrame NLP nestedlists

在 Keras IMDB 示例中使用字符串作为输入

我正在看Keras IMDB 电影评论情感分类示例 https keras io datasets imdb movie reviews sentiment classification 以及github上对应的模型 https githu

tensorflow machinelearning NLP Keras tensorflowserving

如何从 CoNLL 格式转换为 spacy 格式

我目前正在研究 NER 模型我有一堆以 CoNLL 格式存储的数据需要转换为 Spacy 格式在 CoNLL 中句子的每个单词旁边都有一个标签在 Spacy 中标签仅显示给具有实际标签的单词我如何从下面的这种格式转换 CoNL

python database NLP spacy namedentityrecognition

BERT 问答中长文本的滑动窗口

我读过解释滑动窗口如何工作的帖子但我找不到有关其实际实现方式的任何信息据我了解如果输入太长可以使用滑动窗口来处理文本如果我错了请纠正我说我有一条短信 2017 年 6 月 Kaggle 宣布注册用户突破 100 万给定一些s

虚假评论数据集

互联网上有包含常见垃圾邮件的数据集但我需要包含虚假评论的数据集来进行一些研究但我找不到任何数据集有人能给我关于在哪里可以获得虚假评论数据集的建议吗我们的数据集可以在我的康奈尔大学主页上找到 http www cs cornell e

NLP spam review corpus

使用 NLTK 和德语语料库从名词获取性别

我正在尝试 NTLK 我的问题是图书馆是否可以检测德语名词的性别我想接收此信息以确定文本是否是性别中立的浏览此处获取更多信息 https en wikipedia org wiki Gender neutrality in langua

python NLP NLTK

如何计算2个node2vec模型之间的距离

我有 2 个不同时间戳的 node2vec 模型我想计算两个模型之间的距离两个模型具有相同的词汇我们更新模型我的模型是这样的 model1 1 0 1 0 5 2 0 3 0 4 3 0 2 0 5 model2 1 0 15 0

python Graph NLP Word2Vec

AttributeError：模块“jaxlib.xla_extension”没有属性“PmapFunction”

有人可以帮我修复在 check not jax transformed f 中的 usr local lib python3 7 dist packages haiku src transform py in check not jax t

python NLP jax

将中文文档拆分成句子[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我必须将中文文本分成多个句子我尝试了斯坦福文档预处理器它对于英语来说效果很好但对于中文则不然请

NLP tokenize stanfordnlp sentence

在哪里可以找到详尽的停用词列表？

我在哪里可以找到详尽的停用词列表我的那篇文章很短似乎不适用于科学文本我正在创建词汇链以从科学论文中提取关键主题问题是像这样的词based regarding等也应被视为停用词因为它们没有太多意义您还可以轻松添加到现有的停用词列表

NLP lexicalanalysis stopwords

Spacy - 标记带引号的字符串

我正在使用 spacy 2 0 并使用带引号的字符串作为输入示例字符串 The quoted text AA XX should be tokenized 并期望提取 The quoted text AA XX should be tok

python3x NLP spacy

NLTK 中解析的英语语法

是否有现成的英语语法可供我加载并在 NLTK 中使用我搜索了使用 NLTK 进行解析的示例但似乎我必须在解析句子之前手动指定语法多谢你可以看一下pyStat解析器 https github com emilmont pyStatPa

python NLP grammar NLTK

如何从NLP Tree中提取元素？

我正在使用NLP包来解析句子我怎样才能从Tree创建的输出例如我想抓住名词短语 NP 来自下面的示例 library NLP library openNLP s lt c Really I like chocolate because

r NLP opennlp

对停用词进行标记，生成的标记 ['ha', 'le', 'u', 'wa'] 不在 stop_words 中

我正在使用 Python 制作一个聊天机器人代码 import nltk import numpy as np import random import string f open home hostbooks ML stewy spee

python python3x NLP NLTK Chatbot