如何提取文本中使用的关键字？ [关闭]

2024-04-02

如何对一堆文本进行数据挖掘以按使用情况获取关键字？（“雅各布·史密斯”或“栅栏”）

已经有软件可以做到这一点了吗？即使是半自动的，如果它可以过滤掉“the”、“and”、“or”等简单单词，那么我就可以更快地进入主题。

这是 NLP 中的一个开放性问题，因此没有简单的答案。

我对快速而肮脏的“为我工作”的建议是特皮亚术语提取物 http://pypi.python.org/pypi/topia.termextract/.

雅虎有一个关键字提取服务（http://developer.yahoo.com/search/content/V1/termExtraction.html http://developer.yahoo.com/search/content/V1/termExtraction.html）召回率低但准确率高。换句话说，它为您提供了少量高质量术语，但遗漏了文档中的许多术语。

在Python中，有topia.termextract（http://pypi.python.org/pypi/topia.termextract/ http://pypi.python.org/pypi/topia.termextract/）。它相对嘈杂，并且提出了许多虚假关键字，但使用起来很简单。

特尔米内 (http://www.nactem.ac.uk/software/termine/ http://www.nactem.ac.uk/software/termine/）是英国的一个网络服务，也相对嘈杂，并且提出了许多虚假关键字。然而，在我看来，它比topia.termextract 稍微准确一些。 YMMV。

对包含过多关键字（例如 topia.termextract 和 termine）的结果进行去噪的一种方法是创建经常出现的术语词汇表，然后丢弃不在词汇表中的建议术语。换句话说，对语料库进行两次遍历：第一次遍历，计算每个关键字的频率。在第二遍中，丢弃太罕见的关键字。

如果您想自己编写，也许最好的介绍是由现在 IBM 的 Park 编写的：

“自动词汇表提取：超越术语识别”可在http://portal.acm.org/itation.cfm?id=1072370 http://portal.acm.org/citation.cfm?id=1072370
“IBM 技术支持信息搜索和交付系统中的术语提取和利用”

如果您想了解更多信息，这里有更多参考：

http://en.wikipedia.org/wiki/Terminology_extraction http://en.wikipedia.org/wiki/Terminology_extraction
“CorePhrase：文档聚类的关键短语提取”
Liu 等人 2009 年，来自 NAACL HLT
“非组合短语的自动识别”
“数据挖掘与搭配发现”
您还可以挖掘有关该主题的许多其他参考资料。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何提取文本中使用的关键字？ [关闭] 的相关文章

使用字符向量索引命名数据帧的嵌套列表 - R

我有一个命名数据框的嵌套列表如下所示 mylist2 lt list list df1 a data frame replicate 2 sample 0 1 5 rep TRUE df2 b data frame replicate 2
JTextArea 中控制字符的 Java 图像

我正在编写一个由 2 个面板组成的应用程序一个 JTextArea 用于输入文本另一个用于显示文本 In these texts I have two special characters namely STX ETX 0x02 0x0
Python：找到出现次数最多的单词？

我试图让我的程序报告文本文件中出现最多的单词例如如果我输入你好我喜欢馅饼因为它们非常好吃程序应该打印出最喜欢的馅饼执行选项 3 时出现此错误 KeyError h Prompt the user to enter a blo
Lucene 上打开的文件太多错误

我正在进行的项目是对一定数量的数据长文本建立索引并将它们与每个时间间隔大约 15 到 30 分钟的单词列表进行比较一段时间后比如说第 35 轮在开始索引第 36 轮的新数据集时发生了此错误 ERROR 2011 06 01
Android：将文本左对齐并将文本视图置于其父视图中

你好我面临一个小问题我使用 GRAVITY LEFT 使我的文本与视图的左侧对齐但我想在文本视图内居中但也与左侧部分对齐这是我现在所拥有的 aaaaaaaaaaaaa aaaaaaaa aaaaaaaaaaaaaa 我想要的是
全文索引和复合索引以及它们如何影响查询

只是说我有一个查询如下 SELECT name category address city state FROM table WHERE MATCH name subcategory category tag1 AGAINST educat
Postgres，不使用索引的简单查询

PostgreSQL 9 5 0 我有一张桌子叫message attachments it has 1931964 rows 我在该表中搜索了一个键那就是message id 我也总是包括deleted at是 NULL 语句例如软删
设置应用组合唯一索引后在 mysql 上删除哪些行/忽略

假设我有一个包含几列的表我知道如何查找重复项然后使用此表达式仅保留一条记录添加组合索引 ALTER IGNORE TABLE part3 ADD UNIQUE INDEX gtu region trait pop author ris
我如何找到字符串中多个子字符串的位置（Python 3.4.3 shell）

以下代码显示 word 在字符串中出现一次的位置我如何更改我的代码以便如果单词在字符串中出现多次它将打印所有位置 string input Please input a sentence word input Please inp
UITableView 的本地化索引

我正在尝试为我的 UITableView 使用本地化索引就像 iPhone 的联系人应用程序一样这是我返回字符数组的方法 NSArray sectionIndexTitlesForTableView UITableView tableV
仅将布尔掩码应用于数据帧列的索引部分

我有一个包含一些列的数据框 gt gt gt np random seed 0xFEE7 gt gt gt df pd DataFrame A np random randint 10 size 10 B np random randint
查找包含“inf”或“nan”的项目的索引

以下是一个示例1 item在我的清单中 array 1 2 3 43 83 92 12 54 93 23 94 83 23 inf inf inf inf inf 83 33 33 83 13 83 83 nan 83 73 43 43 4
计算聚类的 F 度量

谁能帮我计算一下F measure的总和吗我知道如何计算召回率和精度但不知道对于给定的算法如何计算一个 F 测量值举个例子假设我的算法创建m集群但我知道有n相同数据的聚类由另一个基准算法创建我找到了一份 pdf 但它没有用因
带有不使用索引的查询变量的 SELECT

我正在尝试出于兴趣通过使用局部变量的递归查询来检索简单邻接列表中的节点树到目前为止我的解决方案很有趣但我想知道这是我唯一的问题为什么 MySQL 拒绝使用任何INDEX来优化这个查询 MySQL 不应该能够通过使用INDEX 我
我应该在 mongodb 中对布尔标志使用稀疏索引吗？

我有一个布尔标志 finished 我是不是该 A index finished 1 B index finished 1 sparse true C use flag unfinished instead to query by that
具有自定义字段名称的 RavenDB 查询索引

我在 RavenDB 中收集了 Message 文档定义 class Message string Content Tag Tags class Tag string Value 我有索引 from doc in docs Message
如何查找pdf中文本的x,y位置

有没有工具可以查找 pdf 文件中文本内容的 X Y 位置 Docotic Pdf 库 http bitmiracle com pdf library 可以做到请参阅下面的 C 示例 using PdfDocument doc new P
根据索引查找金字塔的行？

给定一个像这样的金字塔 0 1 2 3 4 5 6 7 8 9 并给出金字塔的索引i where i代表i金字塔的第一个数字有没有办法找到金字塔的行的索引i第一个元素属于例如如果i 6 7 8 9 它位于第 3 行从第 0 行开始
将solr 1.4索引升级到solr 3.3？

我有一个使用 apache solr 1 4 构建的现有索引我想在 3 3 版本中使用这个现有索引正如您所知索引格式在 3 x 之后发生了变化那么如何才能做到这一点呢我已经使用 Luke 将现有索引即 1 4 版本导出为 XM
当包含 textColor 的样式应用于 textView 的 textAppearance 时，文本的颜色不会改变

我想减少 xml 代码的重复所以我为textView中的文本做了一些标准样式我们可以在textView中的 style 属性和 android textAppearance 属性下应用样式以下是我为文本外观制作的一些样式

随机推荐

如何将 Xcode 项目转换为使用 ARC（自动引用计数）？

当我运行 Convert to Obj C 时它首先运行预检查我希望预检查忽略一些文件并且我认为可以在这些文件上设置编译器标志 fno objc arc 但预检查阶段似乎忽略了该标志并重置了它所以我真的不知道如何超越预检查预检查
按名称调用 Django celery 任务

我需要从models py调用一个celery任务在tasks py中唯一的问题是 tasks py导入models py 所以我无法从models py导入tasks py 有没有什么方法可以仅使用名称来调用 celery 任务而无
将多个数组作为参数传递给 Bash 脚本？

我看过但只看到了脚本中传递的一个数组的答案我想将多个数组传递给 bash 脚本该脚本将它们分配为单独的变量如下所示 myScript sh array1 array2 array3 这样 var1 array1 and var2 a
Java 和 C++ 中的简单变量

我在一些资料中看到这样一句话在 Java 中简单数据类型例如 int 和 char 的运行方式与 C 中一样我想知道 Java 和 C 中它们实际上是不同的在C 中像Java中的基元这样的简单变量也被分配了一个内存地址因此C
使用 SQL 获取每小时统计信息

我们有一张桌子名字员工注册有字段 employeeNo employeeName Registered on Here 注册日期是一个时间戳我们要求在几天内按小时进行注册例如 08 年 1 月 1 日 12 点下午 1 点 15
C# 为 ++ 运算符生成 IL - 前缀/后缀表示法何时以及为何更快

由于这个问题是关于增量运算符和前缀后缀表示法的速度差异我将非常仔细地描述这个问题以免 Eric Lippert 发现它并激怒我有关我为什么要问的更多信息和更多详细信息请访问http www codeproject com KB c
Silverlight：拉伸到 StackPanel 中的剩余空间

我有一个带有两个元素的垂直 StackPanel 一个按钮和一个列表框如何让列表框拉伸到剩余页面高度
将一个 Artifactory 连接到另一个 Artifactory

我们的设置包括一个全公司范围的 Artifactory 它保存内部构建的工件并出去获取公开可用的工件我正在尝试在我们的位置建立一个本地 Artifactory 它将通过常规互联网获取公开可用的工件但会连接到公司范围内的 Artifac
Python open("x", "r") 函数，我如何知道或控制文件应该具有哪种编码？

如果 python 脚本使用open filename r 函数打开并随后读取文本文件的内容我如何知道该文件应该具有哪种编码请注意由于我是从自己的程序执行此脚本因此如果有任何方法可以通过环境变量来控制它那么这对我来说就足够了顺便
Python 中子类化 string.Template 的示例？

尽管我在文档中看到了多次这样做的参考但我还没有找到在 Python 中子类化 string Template 的好例子网上有这方面的例子吗我想将更改为不同的字符并且可能更改标识符的正则表达式来自蟒蛇docs http docs
谷歌应用程序引擎中的 OAuth

我正在尝试在 python 上的谷歌应用程序引擎中实现 Oauth 对于我的应用程序我使用 gae 会话和我的模型来验证用户身份这对我来说会更有帮助如果你能提供一些例子您可能想查看以下资源 The App Engine OAuth
如何测量 Spark 上查询的执行时间

我需要测量 Apache Spark Bluemix 上查询的执行时间我尝试过的 import time startTimeQuery time clock df sqlContext sql query df show endTimeQ
iOS：跨viewControllers在导航栏下方添加视图

我有一个这样的项目但我试图弄清楚如何在整个导航栏的导航栏下方添加横幅以便在需要时可以将其隐藏你们中有人知道我该怎么做吗在主视图控制器中实现协议UINavigationControllerDelegate并在选择器中navigatio
in_array() 无法按预期工作[重复]

这个问题在这里已经有答案了对于这个数组 options Array 0 gt 0 1 gt 1 2 gt 2 PHP 返回 TRUE this gt assertTrue in array Bug options TRUE this gt
.NET 的 SFTP 库 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
OpenLayers 标记图标问题

我正在我的网站中创建 OSM 地图并使用 openlayer 添加一些标记我的问题是我总是得到相同的标记图标
有没有办法重置 Julia 中的当前工作目录？

假设当前工作目录是C 保存 jl文件的目录然后我将cwd切换到一些子文件夹来执行一些任务有没有办法直接将cwd重置回C 之后即最初的cwd 或者是否可以独立于当前工作目录来定位正在运行的 jl 文件所在的目录无需事先将 cwd 保
如何在页面中自动刷新Cognito Token

我使用 AWS Cognito 服务进行身份验证在我的 Angular 7 应用程序中我使用 Amplify Auth 来保护我的页面如果用户在不同页面之间导航 Amplify 将自动处理令牌刷新并且他们不会看到令牌过期如果用户长
Pydev 显示未解决的导入，但脚本运行？

我正在使用 PyDev 我正在尝试将我的项目类组织到包中例如在一个文件夹中我有一个模块 libraries fund price library py 在我的项目的另一个文件中我尝试使用以下方式导入 from libraries fu
如何提取文本中使用的关键字？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话但却具有历史意义目前不接受新的

如何提取文本中使用的关键字？ [关闭]

如何提取文本中使用的关键字？ [关闭] 的相关文章

随机推荐

热门标签