Python_RAKE中的关键字提取

2023-11-30

我是一名新手用户,对以下简单的“循环”问题感到困惑。我有一个本地目录,其中包含 x 个文件(大约 500 个 .txt 文件)。我想使用 RAKE for Python 从每个唯一文件中提取相应的关键字。我已经查看了 RAKE 的文档;但是,本教程中建议的代码获取单个文档的关键字。有人可以向我解释如何循环访问本地目录中存储的 X 个文件吗?这是教程中的代码,它对于单个文档来说非常好。

$git clone https://github.com/zelandiya/RAKE-tutorial

import rake
import operator

rake_object = rake.Rake("SmartStoplist.txt", 5, 3, 4)

sample_file = open("data/docs/fao_test/w2167e.txt", 'r')
text = sample_file.read()
keywords = rake_object.run(text)
print "Keywords:", keywords

创建要处理的文件名列表:

filenames = [
    'data/docs/fao_test/w2167e.txt',
    'some/other/folder/filename.txt',
    etc...
]

如果您不想硬编码所有名称,可以使用glob通过通配符收集文件名的模块。

创建一个字典来存储结果:

results = {}

循环遍历每个文件名,读取内容并将 Rake 结果存储在字典中,按文件名键入:

for filename in filenames:
    with open(filename, 'r') as fp:
        results[filename] = rake_object.run(fp.read())
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python_RAKE中的关键字提取 的相关文章

随机推荐

  • ITuner::put_TuneRequest() 调用被忽略

    我有一个带有 Microsoft DVBT Network Provider AVerMedia BDA DVBT Tuner AVerMEdia BDA Digital Capture Sample Grabber 和 NULL Rend
  • 如何覆盖每个环境的 Symfony2 语义配置?

    参数 yml time limit 8 my ui yml my ui time limit time limit 配置 yml imports resource my ui yml 然后我可以通过我的包中的扩展和配置类在我的控制器中访问这
  • 确保用户制作的 HTML 模板安全

    我希望允许用户创建微小的模板 然后我使用预定义的上下文在 Django 中呈现这些模板 我假设 Django 渲染是安全的 我问了一个关于这个的问题before 但仍然存在跨站点脚本的风险 我想防止这种情况发生 这些模板的主要要求之一是用户
  • 切换 MSB 的最佳方法是什么?

    所以我想切换我的数字的最高有效位 这是一个例子 x 100101 then answer should be 00101 我有一台 64 位机器 因此我不希望答案是100000 lt 51 0 s gt 100101我想到的一种方法是计算我
  • Visual Studio FsUnit 测试设置 - 异常 NUnit.Engine.NUnitEngineException

    我使用的是 Visual Studio 2013 安装了 FsUnit 2 2 0 它需要 NUnit 3 2 1 和 FSharpCore 3 1 我创建了一个单独的测试项目 并在其中放置了一个测试装置和测试 我的平台是 x64 Win
  • Windows 下的 Unix tail 和 grep 等效项

    我们有以下 unix 命令 usr bin tail n 1 path grep silent F message rm f path This usr bin tail n 1 path 获取文件中的最后一行path变量指的是 grep
  • 数字的大小(在内存中)是多少?

    JavaScript 中数字的大小是多少 例如 我知道C中的单个字符是1个字节 int 的大小是sizeof int int64 t 的大小是 64 位 依此类推 JavaScript 中数字 十进制 浮点数 的大小是多少 以及如何找到它
  • 如何在 Mule 4 中将 SQL Server SELECT 转换为 XML?

    如何使用 Mule 4 中的 Dataweave 将以下 SQL 输出转换为 XML SELECT s RefId s LocalId s StateProvinceId s SchoolName e Email e EmailType F
  • 当 Exception 类单独可以处理所有类型的异常时,还需要其他 Exception 类吗? [关闭]

    Closed 这个问题是基于意见的 目前不接受答案 在我的一次采访中 面试官问了我一个关于多个问题catch块 问题是 为什么我们需要其他子类Exception处理异常 如果是父类 即Exception 单独可以处理所有其他异常 使用自己编
  • 为什么一个块元素中嵌套的多个内联块的innerHTML会影响内联块的定位?

    在这些示例中 注意 确保将结果窗口拖出足够宽 http jsfiddle net pPyaG http jsfiddle net pPyaG 1 http jsfiddle net pPyaG 2 为什么内联块元素内的文本数量会影响同一 d
  • POST json 字典

    我正在尝试以下操作 内部带有字典的模型在第一个ajax请求上发送它 然后将结果再次序列化并将其发送回控制器 这应该测试我是否可以在模型中取回字典 这不起作用 这是我的简单测试 public class HomeController Cont
  • 从字符串中删除空格 - 使用指针就地 C 风格

    所以 这是一个非常简单的问题 我知道解决方案是一个简单的函数 如下所示 void removeSpaces char s char source s char dest s while source if source source els
  • 如何填充投影图像的空白部分?

    当我在 2D 平面上投影 3D 模型 透视投影 时 投影结果如下图所示 我需要填充这张图片中的空白点 使其看起来像这样 我想知道我能找到一种好方法 使用任何使用 matlab 的图像处理算法 以专业的方式来填补这些点 Code in 数学
  • C# 用时区解析日期时间

    我们如何解析日期时间和时区
  • Wix工具集许可协议多语言问题

    我创建了具有多种语言的 license rtf 文件 当我尝试构建我的 wix 项目时 它向我显示以下错误 提供的字符串中包含指定数据库代码页 1252 中不可用的字符 将这些字符更改为数据库代码页中存在的字符 或者通过修改以下属性之一来更
  • 正确的方法是什么? CSS 链接伪类

    我刚刚发现这个 Note a hover 必须位于 CSS 中的 a link 和 a visited 之后 定义才能有效 Note a active 必须按顺序出现在 CSS 定义中的 a hover 之后 要有效果 Note 伪类名称不
  • 如何在Python中将二进制图像的内容/对象居中?

    我有一个计算图形方向的代码 然后根据这个方向旋转图形 直到它变直 这一切都很好 我正在努力解决的问题是将旋转图形的中心移至整个图像的中心 所以图形的中心点应该与整个图像的中心点相匹配 Input image code import cv2
  • 根据另一个数组键值对数组进行排序

    任何人都可以向我展示如何根据每个数组的依赖键对该数组进行排序的示例 我希望数组按照依赖关系的顺序排列 所以首先是 jquery 然后是 cookie bootstrap checkbox admin 我看过其他帖子 但它们对我来说没有意义
  • 用于检查字节数组是否为零的 SSE 指令 C#

    假设我有一个byte 并想检查所有字节是否为零 For 循环是一种显而易见的方法 而 LINQAll 这是一种奇特的方法 但最高性能至关重要 我该如何使用单SIMD加快检查字节数组是否充满零 我正在寻找最前沿的方法 而不仅仅是正确的解决方案
  • Python_RAKE中的关键字提取

    我是一名新手用户 对以下简单的 循环 问题感到困惑 我有一个本地目录 其中包含 x 个文件 大约 500 个 txt 文件 我想使用 RAKE for Python 从每个唯一文件中提取相应的关键字 我已经查看了 RAKE 的文档 但是 本