Porter Stemmer 算法未返回预期输出?当修改为def时

2024-01-07

我正在使用PorterStemmer http://tartarus.org/martin/PorterStemmer/ Python 端口 http://tartarus.org/martin/PorterStemmer/python.txt

波特词干算法(或“波特词干分析器”)是一种从英语单词中删除常见形态和屈折词尾的过程。它的主要用途是作为术语标准化过程的一部分,通常在设置信息检索系统时完成。

对于以下..

您需要做的另一件事是将每个单词简化为其词干。例如,这些词sing, sings, singing都有相同的茎,即sing。有一种合理接受的方法可以做到这一点,称为波特法 算法。您可以从以下位置下载执行该操作的程序http://tartarus.org/martin/PorterStemmer/ http://tartarus.org/martin/PorterStemmer/.

而且我已经修改了代码..

if __name__ == '__main__':
    p = PorterStemmer()
    if len(sys.argv) > 1:
        for f in sys.argv[1:]:
            infile = open(f, 'r')
            while 1:
                output = ''
                word = ''
                line = infile.readline()
                if line == '':
                    break
                for c in line:
                    if c.isalpha():
                        word += c.lower()
                    else:
                        if word:
                            output += p.stem(word, 0,len(word)-1)
                            word = ''
                        output += c.lower()
                print output,
            infile.close()

读取input而不是来自预处理字符串的文件并返回输出。

def algorithm(input):
    p = PorterStemmer()
    while 1:
        output = ''
        word = ''
        if input == '':
            break
        for c in input:
            if c.isalpha():
                word += c.lower()
            else:
                if word:
                    output += p.stem(word, 0,len(word)-1)
                    word = ''
                output += c.lower()
        return output

请注意我是否定位我的return output到相同的缩进while 1:它变成了infinite loop.

用法(示例)

import PorterStemmer as ps
ps.algorithm("Michael is Singing");

Output

迈克尔是

预期输出

迈克尔正在唱歌

我究竟做错了什么?


所以看起来罪魁祸首是它当前没有将输入的最后部分写入output(例如,尝试“Michael is Singing stuff”——它应该正确地写下所有内容并省略“stuff”)。可能有一种更优雅的方法来处理这个问题,但是您可以尝试的一件事是添加一个else条款至for环形。由于问题是最终的词没有被包含在output, 我们可以用else确保在完成后添加最后一个词for loop:

def algorithm(input):
    print input
    p = PorterStemmer()
    while 1:
        output = ''
        word = ''
        if input == '':
            break
        for c in input:
            if c.isalpha():
                word += c.lower()
            elif word:
                output += p.stem(word, 0,len(word)-1)
                word = ''
                output += c.lower()
        else:
            output += p.stem(word, 0, len(word)-1)  
        print output
        return output

这已经通过两个测试用例进行了广泛的测试,因此显然它是无懈可击的:)可能有一些边缘案例在那里爬行,但希望它能帮助您开始。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Porter Stemmer 算法未返回预期输出?当修改为def时 的相关文章

随机推荐

  • 检测 iPhone 屏幕上的亮点/暗点

    我想检测并标记图像上最亮和最暗的点 例如 我正在创建 AVCaptureSession 并使用 AVCaptureVideoPreviewLayer 在屏幕上显示视频帧 现在 在这个相机输出视图上 我希望能够标记当前最暗和最亮的点 我必须读
  • IE框架边框替代

    对于这行代码 我收到此错误 validator w3 org XHTML 1 0 Transitional there is no attribute frameBorder 我在用着frameBorder因为 IE8 在 iframe 上
  • 有人使用 Android NDK 构建过 ZBar 吗?

    我正在尝试将 ZBar 集成到我的 Android 应用程序中 但无法构建本机库 我想知道是否有人以前做过并愿意与我分享 我知道这个问题很老了 但是 ZBar 提供了 android SDK http sourceforge net pro
  • 可以使用单个正则表达式来解析函数参数吗?

    Problem 有一个程序文件 在文件中的某个位置包含以下代码片段 food apples oranges pears tomato 该函数可以包含任意数量的参数 但它们必须是用逗号分隔的字符串 所有参数字符串都是小写单词 我希望能够使用正
  • 我应该如何记录继承的成员? [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 考虑一下我有一个复杂的类结构 其中许多元素继承自其他元素 我可能有一个方法GetStuff string stuffName int count
  • 以编程方式检索 iPhone 上的内存使用情况

    我正在尝试以编程方式随时检索我的 iPhone 应用程序正在使用的内存量 是的 我知道 ObjectAlloc Leaks 我对这些不感兴趣 只是想知道是否可以编写一些代码并获取正在使用的字节数并通过 NSLog 报告它 Thanks 要获
  • 在 Swift 4 中调整 UISwitch 的大小

    我想更改 Swift 4 中 UISwitch 的默认大小 我查看了各种选项 但它们都与 v3 相关并且不起作用 请问有人可以建议一个在 Swift 4 中以编程方式执行此操作的示例吗 谢谢你 Edit 我尝试过以下示例 switchTes
  • 如何登录 SailsJS

    登录 SailsJS 的实际语法是什么 文档没有任何内容 但在网站的路线图中找到了以下行 将 Sails log winston 包装器 作为一个单独的模块拉出来 这样它就可以 由水线使用 我想象它是这样的 Sails log Sails
  • 三行模态,固定标题、底行和可滚动的中间行

    我正在尝试创建一个具有顶部 中间和底部的模态 顶部始终是固定高度 底部必须 粘 在底部上 并且可能会有所不同 其中的所有内容和元素都必须从底部构建 因此 如果有一行文本 底部将是该行的高度 如果有 3 或 4 行文本 底部会根据需要向上推
  • 如何在PHP中使用其原始参数调用父类构造函数

    我有这个代码 class A var arr array function construct para echo Not called class B extends A function construct arr new Item 由
  • LOCK_NB 被忽略

    运行此代码两次 fp fopen test test wb if flock fp LOCK NB LOCK EX fwrite fp data echo written sleep 5 else echo skipped ok flock
  • 如何使用 YouTube IFrame Player API 监听时间更改事件?

    我在 YouTube IFrame Player API 文档上找不到任何方法来监听时间变化 因此我可以在 UI 中显示视频的当前时间 持续时间 有没有办法在不轮询的情况下做到这一点getCurrentTime YouTube IFrame
  • Netty Channel.write 线程安全吗?

    我有一个 Netty 应用程序 我希望有多个线程写入通道 我只是想知道 Channel write 是否线程安全 从代码中可以看出 ChannelOutboundBuffer addMessage 方法本身不是线程安全的 然而 写入通道是
  • 如何在 Asyncio 中列出文件? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我希望能够在不阻塞的情况下获取文件列表 但我没有在文档 https docs python org 3 library asyncio
  • Kafka消费者配置/性能问题

    我正在尝试使用 kafka 作为 AWS SQS 的替代品 其动机主要是为了提高性能 其中 kafka 将消除一次拉取 10 条消息且上限为 256kb 的限制 这是我的用例的高级场景 我有一堆爬虫正在发送文档以进行索引 有效负载的大小平均
  • 单元测试构造函数时使用多个断言?

    我正在尝试使用 2 个构造函数对一个类进行单元测试 每个构造函数都有多个设置公共属性的参数 我的问题是 我是否应该只有 2 个具有多个断言的单元测试来检查每个属性是否已设置 或者是否对每个构造函数的每个参数进行测试 Public Perso
  • 有没有办法在CSS中创建canvas元素的3D圆柱体?

    我想将画布呈现为一个圆锥体 你可以像轮子一样双向旋转 这对于 JS CSS3 来说是可能的吗 您应该看看这个新的 CSS3 功能 自定义滤镜 CSS 着色器 这里有一些非常好的演示 比我能更好地描述整个事情 如何在 Chrome 上启用它
  • 具有多个参数的函数方差

    在我们的代码中尝试过类似的操作 但失败了 Func
  • 如何从启用了“以管理员身份运行”的基于 WiX 的安装程序安装桌面快捷方式(到批处理文件)?

    我正在从基于 WiX 的安装程序安装桌面快捷方式 到批处理文件 如何在启用 以管理员身份运行 设置的情况下自动配置此快捷方式 目标操作系统是Windows Server 2008 R2 并且安装程序正在以提升的权限运行 Update 感谢
  • Porter Stemmer 算法未返回预期输出?当修改为def时

    我正在使用PorterStemmer http tartarus org martin PorterStemmer Python 端口 http tartarus org martin PorterStemmer python txt 波特