从文本内容生成标签

2024-02-27

我很好奇是否存在一种算法/方法可以通过使用一些权重计算、出现率或其他工具从给定文本生成关键字/标签。

此外，如果您为此指出任何基于 Python 的解决方案/库，我将不胜感激。

Thanks

实现此目的的一种方法是提取文档中出现频率比您预期的偶然出现频率更高的单词。例如，在更大的文档集合中，几乎从未见过术语“马尔可夫”。然而，在同一集合的特定文档中，马尔可夫出现得非常频繁。这表明马尔可夫可能是与文档关联的良好关键字或标签。

要识别这样的关键字，您可以使用逐点互信息 http://en.wikipedia.org/wiki/Pointwise_mutual_information关键字和文档的关系。这是由下式给出的PMI(term, doc) = log [ P(term, doc) / (P(term)*P(doc)) ]。这将粗略地告诉您，与在更大的集合中遇到该术语相比，您在特定文档中遇到该术语的惊讶程度有多少（或更多）。

要确定与文档关联的 5 个最佳关键字，您只需按术语在文档中的 PMI 分数对术语进行排序，然后选择分数最高的 5 个。

如果你想提取多字标签，请参阅 StackOverflow 问题如何从一系列文本条目中提取常见/重要短语 https://stackoverflow.com/questions/2452982/how-to-extract-common-significant-phrases-from-a-series-of-text-entries.

借用我对这个问题的回答，NLTK 搭配指南 http://www.nltk.org/howto/collocations.html涵盖如何做使用 n-gram PMI 在大约 7 行代码中提取有趣的多词表达式，例如：

import nltk
from nltk.collocations import *
bigram_measures = nltk.collocations.BigramAssocMeasures()

# change this to read in your data
finder = BigramCollocationFinder.from_words(
   nltk.corpus.genesis.words('english-web.txt'))

# only bigrams that appear 3+ times
finder.apply_freq_filter(3) 

# return the 5 n-grams with the highest PMI
finder.nbest(bigram_measures.pmi, 5)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从文本内容生成标签的相关文章

使用notebook时将jar添加到pyspark

我正在尝试将 mongodb hadoop 与 Spark 集成但不知道如何使 IPython 笔记本可以访问这些 jar 这是我想做的 set up parameters for reading from MongoDB via Had
在 sympy 绘图中，如何获得具有固定纵横比的绘图？

如果我用这个片段画一个圆 from sympy import x y symbols x y p1 plot implicit Eq x 2 y 2 1 aspect ratio 1 1 我会得到一个像这样的图形窗口现在长宽比不是我所期望
如何从数据库模式自动生成示例 Django 应用程序？

我正在评估概念验证应用程序的框架该应用程序的生命周期约为 30 天之后它将被遗忘或完全重写我已确定要从现有数据库模式自动生成示例应用程序然后调整视觉设计的某些方面我看过一个演示红宝石 on Rails 它会为数据库中的每个表自动生
Django 和 AWS 简单电子邮件服务 [重复]

这个问题在这里已经有答案了我正在尝试启动并运行 django 站点并且正在尝试启用 django 的标准密码重置服务我的网站由 AWS EC2 托管因此我想将 AWS SES 用于我的电子邮件服务但是我无法使 smtp 连接正常
使用 OpenCV 进行图像模糊检测

我正在研究图像的模糊检测我已经用过拉普拉斯方法的方差在 OpenCV 中 img cv2 imread imgPath gray cv2 cvtColor img cv2 COLOR BGR2GRAY value cv2 Laplacia
gcloud app deploy：此部署有太多文件

当我尝试通过 gcloud 部署我的 GAE 应用程序时出现以下错误 Updating service default failed ERROR gcloud app deploy Error Response 400 This depl
点击后 Dash DropDown 关闭

我不希望下拉菜单在选择值后关闭我希望它在我的页面上保持打开状态我正在使用 dcc Dropdown dcc Dropdown id job type options self options placeholder Select one
Python中非常大的整数的math.pow是错误的[重复]

这个问题在这里已经有答案了我试图通过计算一个整数的非常大的幂来打印一个非常大的数字尽管我的代码是正确的但我没有观察到所需的输出一般来说 Python解释器可以打印系统内存支持的非常大的整数考虑到这个假设下面是我正在运行的代码 a
简单 CAE 的问题

看起来简单的 CAE 不适用于 Carvana 数据集我正在尝试对 Carvana 数据集进行简单的 CAE 你可以下载它here https www kaggle com c carvana image masking challeng
UTF-8 解码如何知道字节边界？

我一直在阅读大量有关 unicode 编码的文章尤其是有关 Python 的文章我想我现在对此已经有了相当深入的了解但仍有一个小细节我有点不确定解码如何知道字节边界例如假设我有一个带有两个 unicode 字符的 unicode
Python textwrap.wrap 导致 \n 问题

所以我只是重新格式化了一堆代码以合并textwrap wrap 却发现我所有的 n都消失了这是一个例子 from textwrap import wrap def wrapAndPrint msg width 25 wrap msg to
并行磁盘 I/O

我有几个想要阅读的日志文件不失一般性假设日志文件处理如下 def process infilepath answer 0 with open infilepath as infile for line in infile if line
Python 日志记录 - 如何检查记录器是否为空

我刚刚在我的应用程序中实现了日志记录我想知道是否有一种方法可以检查记录器是否为空我的想法是在我的脚本中设置两个处理程序一个用于带水平仪的控制台WARNING 一个用于带级别的文件DEBUG 在脚本的最后我需要检查是否CONSOLE记
有什么理由不在Python中混合使用多处理和线程模块

我正在考虑使用Python来实现一个需要大量多线程的程序另一个要求是它将在桌面上运行因此拥有许多进程将使应用程序显得混乱且难以杀死在任务管理器中因此我正在考虑使用线程和多处理模块来减少进程数量据我了解 GIL 仅适用于单个进程
pygame.image.load 不工作

我正在尝试为游戏创建世界地图但是当我尝试将世界地图加载到屏幕上时命令行告诉我无法执行此操作这是代码 import sys import pygame from pygame locals import pygame init Surf
从 Cython 代码生成 SIMD 指令

我需要概述在高性能数字代码中使用 Cython 可以获得的性能我感兴趣的事情之一是找出优化的 C 编译器是否可以对 Cython 生成的代码进行矢量化所以我决定写下面的小例子 import numpy as np cimport num
为什么变量不在循环外更新？

无法弄清楚为什么结果中的第一个键是 abc 而不是我期望的 c 我使用的是Python 3 6 4 数据结构很奇怪因为我删除了不相关的键和值 f replace ab r data abc 1 def 2 ghi 3 jkf 4 lmn
类型错误：不可散列的类型：pandas 的“切片”

我有一个 pandas 数据结构我这样创建 test inputs pd read csv input test csv delimiter 它的形状 print test inputs shape is this 28000 784 我
如何从集合中检索元素而不删除它？

假设如下 gt gt gt s set 1 2 3 我如何获得一个值任何值 s不做s pop 我想将该项目保留在集合中直到我确定可以删除它这只有在异步调用另一个主机之后才能确定又快又脏 gt gt gt elem s pop gt
Django Python - LDAP 身份验证

我目前正在研究 Django Python 我的目标是从 Ldap 目录对用户进行身份验证我确实有 python 代码来访问 ldap 目录并检索信息 Code import ldap try l ldap open ldap forum

随机推荐

如何对 WIX 合并模块进行单元测试？

我正在使用 WIX 构建合并模块调用 WIX 工具从 wxs 文件生成合并模块的批处理文件由我的日常构建运行我试图弄清楚如何自动化这些合并模块的测试我想测试的是合并模块是否安装了所需的文件文件的版本是否正确等我的一个想法是编写一
使用 support-v7-appcompat 在 ActionBar 中搜索视图

我一直在努力使用 support v7 库让 SearchView 小部件在操作栏中展开当我的目标是 4 0 时我已经设法在没有支持库的情况下让它工作但我想为 2 3 编写应用程序所以我需要使用支持库我使用以下 menu xml
具有自定义视图的扩展工具栏未以全宽显示

我在这里浏览了很多与工具栏相关的答案但没有一个答案可以帮助我我想要实现的是拥有一个扩展工具栏它将显示一个徽标可能是活动应用程序的名称它将在右侧有一个操作按钮抽屉切换开关它将显示一个类似导航的抽屉右侧是一个带有其他选项如设置
如何为 PyQt QTabwidget 着色

我有一个包含 QTabWidget 的 PyQt 主窗口选项卡小部件包含一些按钮和文本框我想为整个选项卡背景着色而不仅仅是在选项卡栏区域中粘贴的选项卡我没有使用样式表并且更喜欢使用调色板因为我已经在使用调色板但如果样式表是唯一
线程“main”中的异常 java.lang.NoClassDefFoundError: gherkin/formatter/Formatter

我正在学习如何使用 Cucumber 在 JAVA 中编写 BDD 测试脚本但是我不断收到上述错误但不知道为什么我有 Cukes Gherkin 作为依赖 POM
结构对于其他文件的可见性如何表现？

这是摘自对 SO 上另一个问题的回答结构定义对于源文件来说是私有的除非放置在共享头文件没有其他源文件可以访问该成员 struct 即使给定一个指向该结构的指针因为布局不是在其他编译单元中已知如果该结构需要在其他地方使用则必须
Twitter Bootstrap Collapse 不执行任何操作

我正在尝试使用 twitter bootstrap 网站上提供的示例来崩溃当我尝试此代码时单击链接折叠内容没有任何反应这是我的代码
推送到数组后，待办事项列表不会刷新

每当我向数组添加待办事项时它都不会在 html 中刷新我需要什么来解决这个问题另外如何将循环创建的删除按钮连接到函数 const form document querySelector form const input docume
从 crontab 运行存储过程

我有布局 Mysql DB DB name db name DB User name user name Password 12345 Stored procedure my stored procedure 如何从 crontab 每天执
JavaScript 可以像 jQuery 一样使用 prevAll 吗？

如何在 JavaScript 中实现这一点 function prevAll element some code to take all siblings before element return elements With previo
如何以rails方式获取新创建记录的id？

假设我有 2 个模型model1 and model2 model1有很多model2 model2 belongs to model1 Save model1 and model2同时 class Model1 lt ActiveReco
从nodejs调用firebase云函数

我想从另一个 NodeJS 服务器或只是一个 NodeJS 脚本调用 Firebase 的云函数我的 firebase 函数是 onCall 函数我在用https www npmjs com package firebase admin
Sprockets::FileNotFound 找不到类型为“text/css”的文件“bootstrap”

这是当我尝试运行 Rails 服务器时在浏览器中遇到的错误 couldn t find file bootstrap with type text css 我的 gemfile 中有这个 gem bootstrap sass gt 3 3
在 QtQuick 中应用 MVVM 模式

我如何在 QtQuick 应用程序中应用 MVVM 模式有人能给我任何示例简单代码吗 Thanks 使用 C ViewModel https bitbucket org AntyaDev qtquickmvvmexample over
如何减少anaconda目录下的文件数量？

我在计算集群上运行 conda 环境其中每个项目的文件总数受到限制最多 200k 个文件我只创建了几个 conda 环境 anaconda for Python 2 7 每个环境中安装了约 200 个 python 和 R 包环
如何从 mp4 视频中删除或编辑 Exif？

我用 Samsung Galaxy II 录制了一个全高清视频当我将其上传到 YouTube 时我发现它变成了 90 度就像纵向布局 1080x1920 而不是 1920x1080 我找到了问题的原因 YouTube 正在读取视频元数
JNA 结构和指针映射

如何将下面的函数映射到java VOID WriteToStruct BOOL 状态 STRUCT MSG RecBuff 这个函数的作用是 1 填充结构 RecBuff2 更新状态如何映射到 Java 中的布尔指针并访问函数更新的结构数
STM32 上的 ADC 单次转换

我正在研究 STM32 F103x 上的 ADC 编程并从最简单的情况单次转换开始测量内部温度传感器连接到 ADC1 的值并使用 USART 将其发送到 COM 端口目标似乎很明确但是当我尝试将源代码下载到闪存时它不会向 C
Django 1.8 与 Postgres BDR 9.4.1 的迁移

我正在尝试使用 BDR 在 Postgres 数据库上运行 Django 迁移 python manage py makemigrations 工作正常但正在运行 python manage py migrate 结果出现以下错误 ALT
从文本内容生成标签

我很好奇是否存在一种算法方法可以通过使用一些权重计算出现率或其他工具从给定文本生成关键字标签此外如果您为此指出任何基于 Python 的解决方案库我将不胜感激 Thanks 实现此目的的一种方法是提取文档中出现频率比您预期的偶

从文本内容生成标签

从文本内容生成标签 的相关文章

随机推荐

热门标签

从文本内容生成标签的相关文章