词干、词形与频率的词形还原（过滤和分析）

2023-12-23

好的。我正在尝试添加一个word_tag，但我不确定这是否是正确的方法。（抱歉我是新手）

from nltk.corpus import wordnet as wn

# Count the words
        word_count = Counter(words)

        # Clean the content a little
        filter_words = ['artists']
        for word in filter_words:
            if word in word_count:
                del word_count[word]

        # POS_TAG the words
        word_tag = nltk.corpus.wn.synsets(word_count)

        # And the survey says...
        print("The Top {0} words".format(n))
        for word, count, word_tag in word_count.most_common(n) and nltk.corpus.wordnet.synsets(n):
            print("{0}: {1, 2}".format(word, count, word_tag))

I'd like to make a DB table with stemmed/lemmatized words' frequency and tagged Part-of-speech Tagging(VERB,NOUN,ADV,..) like this.. http://www.nltk.org/book/ch05.html#tab-universal-tagset http://www.nltk.org/book/ch05.html#tab-universal-tagset

我该如何解决该错误？在 mySQL 数据库上，# |词| POS 标签。 |频率我也在寻找一种方法来删除字典中没有的单词（artistessex、asifyou），因为我使用 len 解析单词...

    ##
import re
import MySQLdb as mdb
import xml.etree.ElementTree as ET    
import requests, re
from xml.etree import ElementTree
from collections import Counter
from lxml import html
import nltk
from nltk.corpus import wordnet
from nltk import word_tokenize, sent_tokenize, pos_tag
from nltk.corpus import wordnet as wn
from nltk.stem import PorterStemmer, WordNetLemmatizer

##    

def is_noun(tag):
        return tag in ['NN', 'NNS', 'NNP', 'NNPS']


    def is_verb(tag):
        return tag in ['VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ']


    def is_adverb(tag):
        return tag in ['RB', 'RBR', 'RBS']


    def is_adjective(tag):
        return tag in ['JJ', 'JJR', 'JJS']


    def penn_to_wn(tag):
        if is_adjective(tag):
            return wn.ADJ
        elif is_noun(tag):
            return wn.NOUN
        elif is_adverb(tag):
            return wn.ADV
        elif is_verb(tag):
            return wn.VERB
        return None


    stemmer = PorterStemmer()
    lemmatiser = WordNetLemmatizer()



    ## XML PARSING
    def main(n=10):

        # A list of feeds to process and their xpath


        feeds = [
            {'url': 'http://www.nyartbeat.com/list/event_type_print_painting.en.xml', 'xpath': './/Description'},
            {'url': 'http://feeds.feedburner.com/FriezeMagazineUniversal?format=xml', 'xpath': './/description'}
        ]



        # A place to hold all feed results
        results = []

        # Loop all the feeds
        for feed in feeds:
            # Append feed results together
            results = results + process(feed['url'], feed['xpath'])

        # Join all results into a big string
        contents=",".join(map(str, results))

        # Remove double+ spaces
        contents = re.sub('\s+', ' ', contents)

        # Remove everything that is not a character or whitespace
        contents = re.sub('[^A-Za-z ]+', '', contents)

        # Create a list of lower case words that are at least 8 characters
        words=[w.lower() for w in contents.split() if len(w) >=8 ]


        # Count the words
        word_count = Counter(words)

        # POS_TAG the words

        word_stem = stemmer.stem(words)
        word_refine = lemmatiser.lemmatize(word_stem)
    #    tokens = word_tokenize(words) # Generate list of tokens
    #    tokens_pos = pos_tag(tokens)


        # Clean the content a little
        filter_words = ['artists']
        for word in filter_words:
            if word in word_refine:
                del word_refine[word]


        # And the survey says...

        print("The Top {0} words".format(n))
        for word, pos in word_refine.stemmer.stem(n):

            for word, count in word_count.most_common(n):
                print("{0}: {1, 2}".format(word, pos, count))



    def process(url, xpath):
        """
        Downloads a feed url and extracts the results with a variable path
        :param url: string
        :param xpath: string
        :return: list
        """
        contents = requests.get(url)
        root = ElementTree.fromstring(contents.content)
        return [element.text.encode('utf8') if element.text is not None else '' for element in root.findall(xpath)]


    # Add to DB
        for word, count in word_count.most_common(n):

                sql = """INSERT INTO Table1 (keyword, pos, freq) VALUES(%s, %s, %s)"""
                cursor.execute(sql, (word, pos, count))
                db.commit()


    if __name__ == "__main__":
        main()

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

mysql

xml

NLTK

cpuword

词干、词形与频率的词形还原（过滤和分析）的相关文章

如何从表中检索特定列 --- JPA 或 CrudRepository？我只想从用户表中检索电子邮件列

用户模型 Entity Table name user uniqueConstraints UniqueConstraint columnNames email public class User implements Serializab
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
无法在 virtualenv 中安装 libxml2

我有一个问题libxml2蟒蛇模块我正在尝试将其安装在python3 虚拟环境使用以下命令 pip install libxml2 python3 但它显示以下错误 Collecting libxml2 python3 Using cac
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
使用pathlib获取主目录

翻看新的pathlib在 Python 3 4 中我注意到没有任何简单的方法来获取用户的主目录我能想到的获取用户主目录的唯一方法是使用旧的os path像这样的库 import pathlib from os import path p
ValueError：数据必须为正（boxcox scipy）

我正在尝试将我的数据集转换为正态分布 0 8 298511e 03 1 3 055319e 01 2 6 938647e 02 3 2 904091e 02 4 7 422441e 02 5 6 074046e 02 6 9 265747e
Text::平衡和多行 xml

看来我有点失落了我需要解析一个大的大约 100 mb 且相当难看的 xml 文件如果我使用parsefile 它返回错误文档元素后的垃圾但它会很乐意解析文件的较小元素所以我决定将文件分解为元素并解析它们由于不鼓励使用正则表达式
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
Python-验证我的文档 xls 中是否存在工作表

我正在尝试在空闲时间设计一个小程序加载 xls 文件然后在要扫描的文档中选择一张纸步骤1 用户导入 xls文件导入程序后检查文件是否存在我能做到的第 2 步我要求用户提供要分析的文档表 xls 的名称这就是它停止的地方该程
无法使用 python rasterio、gdal 打开 jp2 （来自哨兵）

我试图在 python 中将 jp2 栅格产品作为栅格打开但当我们使用 raterio 和 gdal 包时没有成功我收到此错误 RasterioIOError b4 jp2 not recognized as a supported f
如何获取分类数据的分组条形图

I have a big dataset with information about students And I have to build a graph of dependencies between different value
我可以在 XSLT 中创建模板吗？

我想使用 XSLT 从 XML 创建 ASP NET 用户控件目前我真的把结果一点一点地拼凑起来
无法连接到 MAMP 上的 phpMyAdmin

我收到此错误消息 MySQL 说道无法连接设置无效 phpMyAdmin 尝试连接 MySQL 服务器但服务器拒绝连接您应该检查配置中的主机用户名和密码并确保它们与 MySQL 服务器管理员提供的信息相对应用户和通行证是默认的
如何创建用于霍夫曼编码和解码的树？

对于我的作业我将对霍夫曼树进行编码和解码我在创建树时遇到问题并且陷入困境不要介意打印语句它们只是让我测试并查看函数运行时的输出是什么对于第一个 for 循环我从主块中用于测试的文本文件中获取了所有值和索引在第二个 for 循
休眠以持久保存日期

有没有办法告诉 Hibernate java util Date 应该持久保存我需要这个来解决 MySQL 中缺少的毫秒分辨率问题您能想到这种方法有什么缺点吗您可以自己创建字段long 或者使用自定义的UserType 实施后User
Python 读取未格式化的直接访问 Fortran 90 给出不正确的输出

这是数据的写入方式它是一个二维浮点矩阵我不确定大小 open unit 51 file rmsd nn output form unformatted access direct status replace recl Npoints
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error
如何同时接受int和float类型的输入？

我正在制作一个货币转换器如何让 python 同时接受整数和浮点数我就是这样做的 def aud brl amount From to ER 0 42108 if amount int if From strip aud and to

随机推荐

如何使用 javascript (jquery) 将整数值添加到返回字符串的值？

我有一个简单的 html 块例如 span 8 span 我尝试使用 jquery 将 1 添加到值 8 var currentValue replies text var newValue currentValue 1 replies
Win32 命名管道和消息大小限制 - 旧的 64K 限制是否仍然适用？

Win32 过去对消息模式管道的消息大小限制为 64K 正如 KB 文章的残余所证明的那样Q119218 PRB 命名管道 Write 限制为 64K https support microsoft com en us kb 119218
BeautifulSoup：如何显示不显示的div的内部？

我是 BeautifulSoup 的新手我有一些我不明白的问题我认为这个问题可能已经得到解答但我找到的答案在这种情况下都没有帮助我我需要访问 div 的内部来检索网站的词汇表条目但是该 div 的内部似乎根本不显示在 Beau
如何在Powershell中比较关联数组？

我有两个关联数组 a k1 v1 k2 k21 v21 b k1 v1 k2 k21 v21 我想知道有没有什么好的方法可以在不编写自己的函数的情况下进行比较除了编写一个函数来比较每个键的值之外我不知道有什么方法如果该值不是原始对象
Scrapy XPath 页面上的所有链接

我正在尝试使用 Scrapy 收集某个域下的所有 URL 我试图使用 CrawlSpider 从主页开始抓取他们的网络对于每个页面我想使用 Xpath 提取所有的 href 并以键值对等格式存储数据键当前Url 值该页面上的所有链
将 netbean 升级到 JEE 8

我的问题很简单如何升级 Netbeans 8 2 以使用 Java EE 8 我已经安装了普通的 NB 8 2 和 glassfish 5 Java 1 8 并尝试使用 java 9 我已经安装了通过NB控制的GF 5服务器当我创建新的
服务器选择超时错误 Pymongo

我第一次尝试 pymongo 但不断收到 ServerSelectionTimeoutError 使用 mongo 命令行登录时我运行命令如下 mongo 3 0 ssl test net 27080 db qa sslAllowInva
有没有办法将进程的标准输出发送到 SLF4J？

我本质上是在做以下事情 Process process new ProcessBuilder command start InputStream stdout process getInputStream LoggerFactory get
使用 JQL 过滤特定用户在一段时间内更新的问题

有没有办法使用 JQL 查找特定用户在每天特定时间段更新的所有问题或者是否有任何插件可以解决这个问题如果更新意味着状态改变你可以检查如下内容 status changed by user name and updated gt sta
保存 JSON 数据以供多个 UIView 使用时出现问题 [重复]

这个问题在这里已经有答案了我在访问已拉入的 JSON 数据时遇到了一些问题我正在使用 JSONModel 来获取 JSON 数据如下所示在我的左侧 ViewController m 的顶部 interface LeftViewCon
我的滑块无法在自动模式下工作

我创建了简单的滑块手风琴这是我的代码唯一的问题是它适用于自动模式并且适用我的代码
*ng如果不工作

我在用角 2 RC 4和 ngIf 在这里不起作用是视图的代码 View div class navbar navbar inverse navbar fixed top div class container div class navb
两个 Azure 移动服务（.NET 后端）共享同一数据库

我有两个共享同一个 Azure 数据库的 Azure 移动服务 NET 后端假设服务 X 和 Y 该数据库由服务 X 首次运行时创建并创建了模式名称 X 的表 TA 然后我运行服务 Y 它在同一数据库中创建了相同的表 TA 和 TB
如何在 iPhone sdk 中序列化一个简单的对象？

我有一本对象字典它们都是应该可序列化的 POCO 对象我应该采用什么技术将它们写入磁盘我正在寻找最简单的选项来编写一些列表来保存状态我想我有3个选择 plist 文件然而这似乎仅限于仅存储预定义的对象字符串数字等而不是对象
在 Eclipse 中哪里可以看到项目的构建进度？

Question 我正在使用 Eclipse for Java EE Mars 2 当我构建项目时我在Console window 在哪里可以看到项目构建进度和错误 Window gt Show View gt Progress 为了进步
通过 AJAX 请求执行操作 DNN MVC

我的DNN MVC开发历程中还出现了另一个问题我想知道这是否是我犯了一个错误的错误缺失功能下面我将尝试解释这个问题我想要实现什么我想通过调用 AJAX post 在控制器中执行操作到目前为止它有效但是当我尝试将一些变量返回到
使用 PyAV 将视频直接读入 Numpy（无迭代）

是否可以使用 PyAV 将视频直接读入 3D Numpy 目前我正在循环每一帧 i 0 container av open myvideo avi for frame in container decode video 0 if i 0
Jupyter 笔记本中的阻塞式交互式绘图

我正在尝试从 Jupyter 笔记本中获得一个交互式的阻塞的 matplotlib 窗口也就是说我希望 matplotlib 窗口出现并在笔记本中执行暂停直到它关闭但我的代码的各种看似合理的排列似乎不起作用以下产生预期结果 ma
在模板函数中包含不变假设

考虑一个典型的有限差分应用 assuming T size gt 2 void process T double T0 double T const int T size bool periodic for int i 0 i lt T s
词干、词形与频率的词形还原（过滤和分析）

好的我正在尝试添加一个word tag 但我不确定这是否是正确的方法抱歉我是新手 from nltk corpus import wordnet as wn Count the words word count Counter word

词干、词形与频率的词形还原（过滤和分析）

词干、词形与频率的词形还原（过滤和分析） 的相关文章

随机推荐

热门标签

词干、词形与频率的词形还原（过滤和分析）的相关文章