使用 jcc 在 pylucene/inheritance 中编写自定义分析器？

2024-03-07

我想用 pylucene 编写一个自定义分析器。通常在java lucene中，当你编写一个分析器类时，你的类继承了lucene的Analyzer类。

但 pylucene 使用 jcc ，即 java 到 c++/python 编译器。

那么如何使用 jcc 让 python 类继承 java 类，特别是如何编写自定义 pylucene 分析器？

Thanks.

以下是包装 EdgeNGram 过滤器的分析器示例。

import lucene
class EdgeNGramAnalyzer(lucene.PythonAnalyzer):
    '''
    This is an example of a custom Analyzer (in this case an edge-n-gram analyzer)
    EdgeNGram Analyzers are good for type-ahead
    '''

    def __init__(self, side, minlength, maxlength):
        '''
        Args:
            side[enum] Can be one of lucene.EdgeNGramTokenFilter.Side.FRONT or lucene.EdgeNGramTokenFilter.Side.BACK
            minlength[int]
            maxlength[int]
        '''
        lucene.PythonAnalyzer.__init__(self)
        self.side = side
        self.minlength = minlength
        self.maxlength = maxlength

    def tokenStream(self, fieldName, reader):
        result = lucene.LowerCaseTokenizer(Version.LUCENE_CURRENT, reader)
        result = lucene.StandardFilter(result)
        result = lucene.StopFilter(True, result, StopAnalyzer.ENGLISH_STOP_WORDS_SET)
        result = lucene.ASCIIFoldingFilter(result)
        result = lucene.EdgeNGramTokenFilter(result, self.side, self.minlength, self.maxlength)
        return result

这是重新实现 PorterStemmer 的另一个示例

# This sample illustrates how to write an Analyzer 'extension' in Python.
# 
#   What is happening behind the scenes ?
#
# The PorterStemmerAnalyzer python class does not in fact extend Analyzer,
# it merely provides an implementation for Analyzer's abstract tokenStream()
# method. When an instance of PorterStemmerAnalyzer is passed to PyLucene,
# with a call to IndexWriter(store, PorterStemmerAnalyzer(), True) for
# example, the PyLucene SWIG-based glue code wraps it into an instance of
# PythonAnalyzer, a proper java extension of Analyzer which implements a
# native tokenStream() method whose job is to call the tokenStream() method
# on the python instance it wraps. The PythonAnalyzer instance is the
# Analyzer extension bridge to PorterStemmerAnalyzer.

'''
More explanation... 
Analyzers split up a chunk of text into tokens...
Analyzers are applied to an index globally (unless you use perFieldAnalyzer)
Analyzers implement Tokenizers and TokenFilters.
Tokenizers break up string into tokens. TokenFilters break of Tokens into more Tokens or filter out
Tokens
'''

import sys, os
from datetime import datetime
from lucene import *
from IndexFiles import IndexFiles


class PorterStemmerAnalyzer(PythonAnalyzer):

    def tokenStream(self, fieldName, reader):

        #There can only be 1 tokenizer in each Analyzer
        result = StandardTokenizer(Version.LUCENE_CURRENT, reader)
        result = StandardFilter(result)
        result = LowerCaseFilter(result)
        result = PorterStemFilter(result)
        result = StopFilter(True, result, StopAnalyzer.ENGLISH_STOP_WORDS_SET)

        return result


if __name__ == '__main__':
    if len(sys.argv) < 2:
        sys.exit("requires at least one argument: lucene-index-path")
    initVM()
    start = datetime.now()
    try:
        IndexFiles(sys.argv[1], "index", PorterStemmerAnalyzer())
        end = datetime.now()
        print end - start
    except Exception, e:
        print "Failed: ", e

查看perFieldAnalyzerWrapper.java https://github.com/fnp/pylucene/blob/master/lucene-java-3.5.0/lucene/src/java/org/apache/lucene/analysis/PerFieldAnalyzerWrapper.java also 关键词分析器测试.py https://github.com/romanchyla/pylucene-trunk/blob/master/samples/LuceneInAction/lia/analysis/keyword/KeywordAnalyzerTest.py

        analyzer = PerFieldAnalyzerWrapper(SimpleAnalyzer())
        analyzer.addAnalyzer("partnum", KeywordAnalyzer())

        query = QueryParser(Version.LUCENE_CURRENT, "description",
                            analyzer).parse("partnum:Q36 AND SPACE")
        scoreDocs = self.searcher.search(query, 50).scoreDocs

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pylucene

jcc

使用 jcc 在 pylucene/inheritance 中编写自定义分析器？的相关文章

如何使用 eval dataframe 方法在自定义函数中返回 numpy 数组或列表？

我正在使用 python 3 X 我正在尝试使用eval https pandas pydata org pandas docs stable generated pandas eval html pandas eval数据框方法包括这样
Numpy 中矩阵乘以另一个矩阵的每一行

我有一个大小为 4x4 的齐次变换矩阵和一个大小为 nx3 的轨迹该轨迹的每一行都是一个向量我想将齐次变换矩阵乘以轨迹的每一行下面是代码 append zero column at last trajectory np hstack
如何在Python中拟合阶跃函数

我有一个关于使用 curve fit 等 scipy 例程拟合阶跃函数的问题我很难将其矢量化例如 import numpy as np from scipy optimize import curve fit import matplo
ElementNotVisibleException：消息：元素在 Robot Framework 中不可交互

示例代码 div class modal footer div
Python Ctypes：将返回的 C 数组转换为 python 列表，无需 numpy

我正在使用 Python Ctypes 来访问一些 C 库我连接到的函数之一返回const double 它实际上是一个双精度数组当我在Python中得到结果时如何将该数组转换为Python列表 C函数的签名 const double
类型错误：不支持的操作数类型 -：“int”和“list”

我正在尝试用 python 创建一个程序它会使用 Zeller 算法告诉你你出生在星期几http en wikipedia org wiki Zeller 27s congruence http en wikipedia org wiki
从可变长度字符串中解析值的最佳方法是什么？

假设我有一个由可变长度的逗号分隔的整数字符串分割字符串并用值更新变量如果存在的最佳方法是什么目前我有以下内容 a b c 10 10 1 default values mylist int x for x in input spl
Python 删除额外的特殊 unicode 字符

我正在 python 中处理一些文本它内部已经采用 unicode 格式但我想删除一些特殊字符并用更标准的版本替换它们我目前有一条看起来像这样的线路但它变得越来越复杂我发现它最终会带来更多麻烦 tmp infile lower r
如何将返回列表的 Celery 任务链接到一个组中？

我想从 Celery 任务返回的列表创建一个组以便对于任务结果集中的每一项一个任务将添加到该组中这是一个简单的代码示例来解释用例这应该是上一个任务的结果 celery task def get list amount In rea
Python NameError，变量“未定义”

它返回的错误是 NameError name lives is not defined 我知道代码并不是尽可能高效这是我的第一个项目但是无论我尝试做什么都会弹出这个错误我尝试为其创建一个全局变量但这没有帮助我真的很感激一些帮助
匹配字典集。最优雅的解决方案。 Python

给定两个字典列表新的和旧的字典在两个列表中表示相同的对象我需要找到差异并生成新的字典列表其中仅包含新字典中的对象和旧字典中的更新属性例子 list new id 1 name bob desc cool guy id 2 name
BeautifulSoup - 抓取论坛页面

我正在尝试抓取论坛讨论并将其导出为 csv 文件其中包含线程标题用户和帖子等行其中后者是每个人的实际论坛帖子我是 Python 和 BeautifulSoup 的初学者所以我对此感到非常困难我当前的问题是 csv 文件中
在循环中动态添加方法时的范围问题

我有一个 API 用于分析我的锻炼数据我抓取的数据跑卫 http runkeeper com 的网站我的主类是一个子类pandas DataFrame 它基本上是表格数据的容器它支持按列名索引返回列值的数组我想根据数据中存在的
如何将当前登录的用户指定为模型字段的默认值？

我想做这样的事情 class Task models Model created by models ForeignKey User default LoggedInUser blank True null True related nam
在Python中将字符串转换为变量？ [复制]

这个问题在这里已经有答案了我对 python 和编程都很陌生并且已经尝试弄清楚如何做到这一点有一段时间了这是我需要帮助的内容 y 0 x 2 p01 hello p02 bye print p str y str x 输出当然是 p0
pytest 看不到正在测试的函数的日志

我有一个像这样的烧瓶应用程序 from flask import Flask import logging app Flask name app route def catch all logging warning I m a warni
熊猫：SettingWithCopyWarning：[重复]

这个问题在这里已经有答案了我尝试使用以下代码将列转换为日期 df DATE pd to datetime df DATE or df DATE pd to datetime df DATE 但我收到以下错误 Users xyz anac
Python Flask 不更新图像[重复]

这个问题在这里已经有答案了这里有一些关于图像的 Flask 问题但没有一个能解决我的问题我有一个应用程序可以创建图像保存它然后显示它一次它应该多次执行此操作每次更改图像时它应该加载新图像它不是它只显示与其显示的文件名关
类型错误：“生成器”对象没有属性“__getitem__”

我编写了一个应该返回字典的生成函数但是当我尝试打印字段时出现以下错误 print row2 SearchDate TypeError generator object has no attribute getitem 这是我的代码 fro
每次都在django查询数据库中过滤查询集吗？

想象一下我有以下代码 qs Users objects all list for i in range 10 list append qs filter age i 这里过滤器被调用 10 次它是连接到数据库 10 次还是第一次使用过滤器

随机推荐

客户端验证不起作用

我正在 yii2 中进行客户端验证但它对我不起作用查看文件 ul class breadcrumb li a href index html Home a li li a href Pages a li li class active
使用 AVX-512 或 AVX-2 对大数据进行 1 位计数（总体计数）

我有一大块内存比如说 256 KiB 或更长我想计算整个块中 1 位的数量或者换句话说将所有字节的总体计数值相加我知道 AVX 512 有一个VPOPCNTDQ指令 https en wikipedia org wiki AV
CDK DnsValidatedCertificate：当托管区域是父账户的一部分时，是否可以在链接的 AWS 账户中创建证书？

我正在尝试使用 AWS 的云开发工具包为我网站的某些子域创建 SSL 证书问题是我正在使用 AWS Organizations 并且相关资源属于不同的 AWS 账户这托管区 https docs aws amazon com Route
将数组传递给 typeahead Bootstrap

我试图通过 json 将值数组传递给source Bootstrap Typeahead 插件的选项这是我的简单代码 JsFiddle http jsfiddle net toroncino CKCJb 我有一个JSON对象我只想将值
在Windows上的Maven 2下设置Java堆空间

我在项目构建期间收到此消息 java lang OutOfMemoryError Java 堆空间我如何增加堆空间我有 8Gb 或 RAM maven 不可能消耗那么多空间我发现了这个http vikashazrati wordpr
Swift：如何从 NSScanner 获取 AutoreleasingUnsafePointer 的值？

我不知道如何使用 AutoreleasingUnsafePointer 我有以下代码 var myString AutoreleasingUnsafePointer
在 Scala 中反转/转置一对多映射

扭转局面的最佳方式是什么Map A Set B into a Map B Set A 例如我如何转动 Map 1 gt Set a b 2 gt Set b c 3 gt Set c d into a Map a gt Set 1 b g
你能让 Supertest 等待 Express 处理程序完成执行吗？

I use 超测 https github com visionmedia supertest测试我的 Express 应用程序但当我希望处理程序进行异步处理时我遇到了挑战after发送请求以这段代码为例 const request
从 Android 浏览器外部访问 Web Storage 或 IndexedDB

我想使用 HTML 和 JavaScript 构建一个基于浏览器的离线应用程序来收集 Android 平板电脑上的调查数据该应用程序将由一些带有表单的静态页面组成供用户输入数据然后使用 Web Storage 或 IndexedDB
android比较2张图像并突出显示差异

将提供 2 张图片我们需要找到它们之间的差异并突出它们到目前为止我已经看到了这个solution https stackoverflow com questions 25022578 highlight differences betw
emacs 的 Egg git 接口，提交消息为空

我使用egg emacs有git 作为emacs中的git接口每当我尝试实现提交 amend 时我都会收到 GIT COMMIT AMEND gt Aborting commit due to empty commit message
为什么记录器建议每个类使用一个记录器？

根据 NLog 的文档大多数应用程序将为每个类使用一个记录器其中记录器的名称与类的名称相同这与 log4net 的操作方式相同为什么这是一个好的做法使用 log4net 每个类使用一个记录器可以轻松捕获日志消息的来源即写入日志的
Scala：当两个项目之一满足某些条件时进行模式匹配

我经常编写比较两个对象的代码并根据它们是否相同或不同根据它们的不同之处生成一个值所以我可能会写 val result v1 v2 match case Some value1 Some value2 gt a case Some v
工人、网络或服务；无论如何要访问窗口对象？

我正在尝试在 webOS 中利用 Web Worker 来进行标牌应用程序因为存在一个奇怪的错误即使用 SCAP API 执行文件下载之间的时间呈指数级减慢我的想法是尝试网络工作人员下载文件希望这意味着问题会消失应用程序会更快一些
将 MySql 与 Entity Framework 4 和代码优先开发 CTP 结合使用

我想我应该尝试一下 Scott Guthrie 的最新的帖子 http weblogs asp net scottgu archive 2010 07 16 code first development with entity framew
在 Winforms 中将属性绑定到控件

将属性绑定到控件的最佳方法是什么以便当属性值更改时控件的绑定属性也会随之更改所以如果我有房产FirstName我想将其绑定到文本框txtFirstName文本值所以如果我改变FirstName值 Stack 然后属性txtFirst
将所有列表值增加一个增量[重复]

这个问题在这里已经有答案了我觉得我现在正经历一个白痴时刻我有一个清单我需要为每个数字加上 170 list1 1 2 3 4 5 6 7 8 list2 171 172 173 具体答复使用列表理解 In 2 list1 1 2 3
根据文字大小调整图像大小

下面的 PHP 代码生成文本作为动态创建的图像我如何才能使图像仅与文本一样大谢谢
MDX 按维度属性计算的成员过滤器

我想创建一个计算成员并按维度过滤它这是工作示例 Policy Policy Status Void Policy Tran Type Renewal Measures FK Policy Distinct Count 但如果我想像这样过滤
使用 jcc 在 pylucene/inheritance 中编写自定义分析器？

我想用 pylucene 编写一个自定义分析器通常在java lucene中当你编写一个分析器类时你的类继承了lucene的Analyzer类但 pylucene 使用 jcc 即 java 到 c python 编译器那么如何使

使用 jcc 在 pylucene/inheritance 中编写自定义分析器？

使用 jcc 在 pylucene/inheritance 中编写自定义分析器？ 的相关文章

随机推荐

热门标签

使用 jcc 在 pylucene/inheritance 中编写自定义分析器？的相关文章