NLTK

Python 文本处理：NLTK 和 pandas

我正在寻找一种在 Python 中构建可与额外数据一起使用的术语文档矩阵的有效方法我有一些带有一些其他属性的文本数据我想对文本进行一些分析并且希望能够将从文本中提取的特征例如单个单词标记或 LDA 主题与其他属性相关联我的计划是

python pandas machinelearning NLTK

如何使用 python nltk 获取解析树？

给出以下句子 The old oak tree from India fell down 如何使用 python NLTK 获得句子的以下解析树表示 ROOT S NP NP DT The JJ old NN oak NN tree PP

python NLTK

NLTK/pyNLTK 可以“按语言”（即非英语）工作吗？如何工作？

我如何告诉 NLTK 以特定语言处理文本有时我会编写一个专门的 NLP 例程在非英语但仍然是印欧语文本域上进行词性标记标记化等这个问题似乎只解决不同的语料库而不是代码设置的变化德语 POS 标记或者是否有专门用于 py

python NLP NLTK

AttributeError：“模块”对象没有属性“分数”

我在尝试使用该函数时遇到错误precision from nltk metrics scores 我尝试了许多不同的进口但没有成功我查看了 python 目录中的文件见下文该函数就在那里但只是无法触及这个那个我在看 usr l

python NLTK

如何从句子中提取名词形容词对

我希望从中提取名词形容词对sentence 所以基本上我想要这样的东西 Mark sincere John sincere from nltk import word tokenize pos tag ne chunk sentence

python NLTK

Python列表中浮点数的总和

我有浮点值s p list swn senti synsets a s p 0 pos score print s Output 0 0 0 0 1 0 0 0 0 25 0 25 然后我尝试 print sum s 这给出了错误 floa

python Sum NLTK

re.sub 错误“预期字符串或类似字节的对象”

我已阅读有关此错误的多篇文章但我仍然无法弄清楚当我尝试循环遍历我的函数时 def fix Plan location letters only re sub a zA Z Search for all non letters Repla

python regex pandas NLTK

NLTK - 没有名为语料库的模块

使用 PIP 安装 NLTK 和 NLTK DATA 后我运行python然后我输入从 nltk corpus 导入 cmudict它有效但是当我写了这样的脚本时 from nltk corpus import cmudict d cm

python NLTK ImportError

使用 python nltk 查找两个网页之间的相似性？

我想知道两个网页是否相似有人可以建议带有 wordnet 相似性函数的 python nltk 是否有帮助以及如何帮助在这种情况下使用的最佳相似度函数是什么 The spotsigs提到的论文乔伊塞斯坎解决了内容重复检测问题其中包含大

python NLP NLTK WordNet

使用 NLTK 提取关系

这是一个我的问题的后续行动我正在使用 nltk 来解析人组织及其关系使用这个例子我能够创造出大量的人和组织但是我在 nltk sem extract rel 命令中收到错误 AttributeError Tree object

python NLP NLTK

如何使用 Python 在 NLTK 中使用斯坦福解析器

是否可以在 NLTK 中使用斯坦福解析器我不是在谈论斯坦福 POS 请注意此答案适用于 NLTK v 3 0 而不适用于更新的版本当然请在 Python 中尝试以下操作 import os from nltk parse impor

python Parsing NLP NLTK stanfordnlp

从句子中提取“有用”信息？

我目前正在尝试理解这种形式的句子 The problem was more with the set top box than the television Restarting the set top box solved the pro

languageagnostic NLP machinelearning NLTK

sklearn：如何加速矢量化器（例如Tfidfvectorizer）

在彻底分析我的程序之后我已经能够确定它被矢量化器减慢了我正在处理文本数据两行简单的 tfidf 一元向量化占用了代码执行总时间的 99 2 这是一个可运行的示例这会将 3mb 的训练文件下载到您的磁盘省略 urllib 部分以在您

python scikitlearn NLTK

如何去掉标点符号？

我正在使用来自的标记器Python 中的 NLTK 论坛上已经有很多关于删除标点符号的答案然而它们都没有同时解决以下所有问题连续多个符号例如这句话他说就是这样因为逗号后跟引号所以分词器不会删除句子中的分词器将给出 He

python NLP NLTK

如何获取 NLTK 中同义词集的词网语义频率？

根据文档我可以在 nltk 中加载带有语义标记的语料库如下所示 gt gt gt from nltk corpus import wordnet ic gt gt gt brown ic wordnet ic ic ic brown d

python NLP NLTK WordNet wsd

如何使用 python nltk 加速 stanford NER 的 NE 识别

首先我将文件内容标记为句子然后对每个句子调用斯坦福 NER 但这个过程确实很慢我知道如果我在整个文件内容上调用它会更快但是我在每个句子上调用它因为我想在 NE 识别之前和之后索引每个句子 st NERTagger stanford

python NLP NLTK stanfordnlp namedentityrecognition

简单两步解决Python的NLTK库DATA安装问题

前言本人使用Anaconda集成开发环境已经安装有NLTK库在使用NLTK最简单的分词功能时报错查询错误得知是没有安装NLTK的数据包系统推荐使用以下命令 import nltk nltk download 用了之后弹出窗口出

python NLTK

【自然语言处理】情感分析（一）：基于 NLTK 的 Naive Bayes 实现

情感分析一基于 NLTK 的 Naive Bayes 实现朴素贝叶斯 Naive Bayes 分类器可以用来确定输入文本属于某一组类别的概率例如预测评论是正面的还是负面的它是朴素的它假设文本中的单词是独立的但在现实的自然人

自然语言处理 自然语言处理 NLTK 朴素贝叶斯 情感分析

nltk_data无法下载或无法使用问题的解决方案之一

nltk data无法下载或无法使用问题的解决方案汇总报错展示问题解决本人使用的方法 1 手动下载 nltk data 数据压缩包 2 解压压缩包找到packages文件夹 3 将packages文件夹中的文件全部复制到nltk d

代码错误记录 自然语言处理 深度学习 NLTK

在微软工作365天，还你一个我眼中更加真实的微软

去年12月28日我正式成为了微软中国的一名员工今天又是12月28日不知不觉我已经在这里工作365天了其实在入职100天的时候我就写过一篇关于微软的文章详见在微软工作100天谈谈我眼中的微软但那个时候毕竟待的时间还比较短所以

游戏微软 Consul 社交网络 NLTK