NLP

将列表的列表转换为字符串 pandas dataframe

背景我有以下玩具df包含列中的列表Before and After如下所示 import pandas as pd before list in the bright blue box list because they go reall

python3x pandas DataFrame NLP nestedlists

在 Keras IMDB 示例中使用字符串作为输入

我正在看Keras IMDB 电影评论情感分类示例 https keras io datasets imdb movie reviews sentiment classification 以及github上对应的模型 https githu

tensorflow machinelearning NLP Keras tensorflowserving

如何从 CoNLL 格式转换为 spacy 格式

我目前正在研究 NER 模型我有一堆以 CoNLL 格式存储的数据需要转换为 Spacy 格式在 CoNLL 中句子的每个单词旁边都有一个标签在 Spacy 中标签仅显示给具有实际标签的单词我如何从下面的这种格式转换 CoNL

python database NLP spacy namedentityrecognition

BERT 问答中长文本的滑动窗口

我读过解释滑动窗口如何工作的帖子但我找不到有关其实际实现方式的任何信息据我了解如果输入太长可以使用滑动窗口来处理文本如果我错了请纠正我说我有一条短信 2017 年 6 月 Kaggle 宣布注册用户突破 100 万给定一些s

虚假评论数据集

互联网上有包含常见垃圾邮件的数据集但我需要包含虚假评论的数据集来进行一些研究但我找不到任何数据集有人能给我关于在哪里可以获得虚假评论数据集的建议吗我们的数据集可以在我的康奈尔大学主页上找到 http www cs cornell e

NLP spam review corpus

使用 NLTK 和德语语料库从名词获取性别

我正在尝试 NTLK 我的问题是图书馆是否可以检测德语名词的性别我想接收此信息以确定文本是否是性别中立的浏览此处获取更多信息 https en wikipedia org wiki Gender neutrality in langua

python NLP NLTK

如何计算2个node2vec模型之间的距离

我有 2 个不同时间戳的 node2vec 模型我想计算两个模型之间的距离两个模型具有相同的词汇我们更新模型我的模型是这样的 model1 1 0 1 0 5 2 0 3 0 4 3 0 2 0 5 model2 1 0 15 0

python Graph NLP Word2Vec

AttributeError：模块“jaxlib.xla_extension”没有属性“PmapFunction”

有人可以帮我修复在 check not jax transformed f 中的 usr local lib python3 7 dist packages haiku src transform py in check not jax t

python NLP jax

将中文文档拆分成句子[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我必须将中文文本分成多个句子我尝试了斯坦福文档预处理器它对于英语来说效果很好但对于中文则不然请

NLP tokenize stanfordnlp sentence

在哪里可以找到详尽的停用词列表？

我在哪里可以找到详尽的停用词列表我的那篇文章很短似乎不适用于科学文本我正在创建词汇链以从科学论文中提取关键主题问题是像这样的词based regarding等也应被视为停用词因为它们没有太多意义您还可以轻松添加到现有的停用词列表

NLP lexicalanalysis stopwords

Spacy - 标记带引号的字符串

我正在使用 spacy 2 0 并使用带引号的字符串作为输入示例字符串 The quoted text AA XX should be tokenized 并期望提取 The quoted text AA XX should be tok

python3x NLP spacy

NLTK 中解析的英语语法

是否有现成的英语语法可供我加载并在 NLTK 中使用我搜索了使用 NLTK 进行解析的示例但似乎我必须在解析句子之前手动指定语法多谢你可以看一下pyStat解析器 https github com emilmont pyStatPa

python NLP grammar NLTK

如何从NLP Tree中提取元素？

我正在使用NLP包来解析句子我怎样才能从Tree创建的输出例如我想抓住名词短语 NP 来自下面的示例 library NLP library openNLP s lt c Really I like chocolate because

r NLP opennlp

对停用词进行标记，生成的标记 ['ha', 'le', 'u', 'wa'] 不在 stop_words 中

我正在使用 Python 制作一个聊天机器人代码 import nltk import numpy as np import random import string f open home hostbooks ML stewy spee

python python3x NLP NLTK Chatbot

使用 nltk 没有上下文的词性标记

有没有一种简单的方法来确定给定单词最可能的词性标签没有上下文使用nltk 或者如果不使用任何其他工具数据集我尝试使用 wordnet 但似乎 sysnet 不是按可能性排序的 gt gt gt wn synsets says Synse

python NLP NLTK

如何开始信息提取？

您能否推荐一个培训路径来开始并变得非常擅长信息提取我开始阅读它是为了做我的一个爱好项目很快意识到我必须擅长数学代数统计概率我读过一些关于不同数学主题的入门书籍而且非常有趣寻找一些指导请帮忙更新只是为了回答其中一条评论

Math machinelearning NLP informationextraction

如何在 python nltk 中获取 n-gram 搭配和关联？

In 本文档 http nltk googlecode com svn trunk doc howto collocations html 有一个例子使用nltk collocations BigramAssocMeasures Bigra

python NLP NLTK NGram collocation

在python中检测文本中的缩写

我想在文本中找到缩写并将其删除我目前正在做的是识别连续的大写字母并将其删除但我发现它并没有删除缩写例如MOOCs M O O C M O O Cs 在 python 中是否有一种简单的方法可以做到这一点或者有什么库可以代替吗 The

python NLP

CBOW 与Skip-gram：为什么要颠倒上下文和目标词？

In this https www tensorflow org versions r0 9 tutorials word2vec index html vector representations of words页面上据说 skip

NLP tensorflow deeplearning Word2Vec wordembedding

元音计数顺序

这不是一个家庭作业问题而是一个考试准备问题我应该定义一个函数syllables word 计算音节数一句话如下元音的最大序列是一个音节最终e在一个单词中不是一个音节或者它是元音序列的一部分的我不必处理任何特殊情况例如最终的

python regex NLP