Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
TfidfVectorizer.fit_transfrom 和 tfidf.transform 之间有什么区别?
在 Tfidf fit transform 中 我们仅使用参数 X 而没有使用 y 来拟合数据集 这是正确的吗 我们仅为训练集的参数生成 tfidf 矩阵 我们没有使用 ytrain 来拟合模型 那我们如何对测试数据集进行预测呢 https
python
scikitlearn
NLP
tfidfvectorizer
Sklearn CountVectorizer:将表情符号保留为单词
我正在使用 SklearnCountVectorizer在字符串上但是CountVectorizer丢弃文本中的所有表情符号 例如 Welcome应该给我们 xf0 x9f x91 x8b welcome 但是 运行时 vect Count
python
scikitlearn
NLP
countvectorizer
非英语文本的情感分析
我想分析用德语写的文本的情感 我找到了很多关于如何用英语做到这一点的教程 但我没有找到关于如何将其应用到不同语言的教程 我有一个想法使用TextBlobPython 库首先将句子翻译成英语 然后进行情感分析 但我不确定这是否是解决此任务的最
python
machinelearning
NLP
sentimentanalysis
textblob
如何使用 spacy 或 nltk 检索句子的主要意图?
我有一个用例 我想使用 spacy 或 nltk 或任何 NLP 库提取句子的主要有意义部分 例句1 我怎样才能发出反对骚扰的声音 意图是 大声疾呼反对骚扰 例句2 唐老鸭是由哪个漫画家 哪个人 谁创作的 意图是 唐老鸭是由 创造的 例句3
NLP
NLTK
spacy
postagger
dependencyparsing
显示 NLTK 中的标签概率/置信度
我正在使用 Python NLTK 库中的 MaxEnt 分类器 对于我的数据集 我有许多可能的标签 并且正如预期的那样 MaxEnt 仅返回一个标签 我已经训练了我的数据集并获得了大约 80 的准确率 我还在未知数据项上测试了我的模型 结
python
machinelearning
NLP
NLTK
组合常见搭配的 NLP 流程
我有一个语料库 我在 R 中使用 tm 包 并且还在 python 中的 NLTK 中镜像相同的脚本 我正在使用一元组 但希望某种解析器能够将通常位于同一位置的单词组合成一个单词 即 我不想再在我的单词中分别看到 New 和 York 当它
python
r
NLP
NLTK
tm
将列表的列表转换为字符串 pandas dataframe
背景 我有以下玩具df包含列中的列表Before and After如下所示 import pandas as pd before list in the bright blue box list because they go reall
python3x
pandas
DataFrame
NLP
nestedlists
在 Keras IMDB 示例中使用字符串作为输入
我正在看Keras IMDB 电影评论情感分类示例 https keras io datasets imdb movie reviews sentiment classification 以及github上对应的模型 https githu
tensorflow
machinelearning
NLP
Keras
tensorflowserving
如何从 CoNLL 格式转换为 spacy 格式
我目前正在研究 NER 模型 我有一堆以 CoNLL 格式存储的数据 需要转换为 Spacy 格式 在 CoNLL 中 句子的每个单词旁边都有一个标签 在 Spacy 中 标签仅显示给具有实际标签的单词 我如何从下面的这种格式转换 CoNL
python
database
NLP
spacy
namedentityrecognition
BERT 问答中长文本的滑动窗口
我读过解释滑动窗口如何工作的帖子 但我找不到有关其实际实现方式的任何信息 据我了解 如果输入太长 可以使用滑动窗口来处理文本 如果我错了 请纠正我 说我有一条短信 2017 年 6 月 Kaggle 宣布注册用户突破 100 万 给定一些s
虚假评论数据集
互联网上有包含常见垃圾邮件的数据集 但我需要包含虚假评论的数据集来进行一些研究 但我找不到任何数据集 有人能给我关于在哪里可以获得虚假评论数据集的建议吗 我们的数据集可以在我的康奈尔大学主页上找到 http www cs cornell e
NLP
spam
review
corpus
使用 NLTK 和德语语料库从名词获取性别
我正在尝试 NTLK 我的问题是图书馆是否可以检测德语名词的性别 我想接收此信息以确定文本是否是性别中立的 浏览此处获取更多信息 https en wikipedia org wiki Gender neutrality in langua
python
NLP
NLTK
如何计算2个node2vec模型之间的距离
我有 2 个不同时间戳的 node2vec 模型 我想计算两个模型之间的距离 两个模型具有相同的词汇 我们更新模型 我的模型是这样的 model1 1 0 1 0 5 2 0 3 0 4 3 0 2 0 5 model2 1 0 15 0
python
Graph
NLP
Word2Vec
AttributeError:模块“jaxlib.xla_extension”没有属性“PmapFunction”
有人可以帮我修复在 check not jax transformed f 中的 usr local lib python3 7 dist packages haiku src transform py in check not jax t
python
NLP
jax
将中文文档拆分成句子[关闭]
Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 我必须将中文文本分成多个句子 我尝试了斯坦福文档预处理器 它对于英语来说效果很好 但对于中文则不然 请
NLP
tokenize
stanfordnlp
sentence
在哪里可以找到详尽的停用词列表?
我在哪里可以找到详尽的停用词列表 我的那篇文章很短 似乎不适用于科学文本 我正在创建词汇链以从科学论文中提取关键主题 问题是像这样的词based regarding等也应被视为停用词 因为它们没有太多意义 您还可以轻松添加到现有的停用词列表
NLP
lexicalanalysis
stopwords
Spacy - 标记带引号的字符串
我正在使用 spacy 2 0 并使用带引号的字符串作为输入 示例字符串 The quoted text AA XX should be tokenized 并期望提取 The quoted text AA XX should be tok
python3x
NLP
spacy
NLTK 中解析的英语语法
是否有现成的英语语法可供我加载并在 NLTK 中使用 我搜索了使用 NLTK 进行解析的示例 但似乎我必须在解析句子之前手动指定语法 多谢 你可以看一下pyStat解析器 https github com emilmont pyStatPa
python
NLP
grammar
NLTK
如何从NLP Tree中提取元素?
我正在使用NLP包来解析句子 我怎样才能从Tree创建的输出 例如 我想抓住名词短语 NP 来自下面的示例 library NLP library openNLP s lt c Really I like chocolate because
r
NLP
opennlp
对停用词进行标记,生成的标记 ['ha', 'le', 'u', 'wa'] 不在 stop_words 中
我正在使用 Python 制作一个聊天机器人 代码 import nltk import numpy as np import random import string f open home hostbooks ML stewy spee
python
python3x
NLP
NLTK
Chatbot
«
1 ...
3
4
5
6
7
8
9
...44
»