Sphinx 的斯洛文尼亚词干分析器

2023-12-08

我正在搜索斯洛文尼亚语的词干算法,我可以将其与 Sphinx 搜索一起使用。

我想要实现的目标是,例如,在搜索“jabolka”时,我还想要包含“jabolko”、“jabolki”、“jabolk”等文档的结果。

我找到了一些关于斯洛文尼亚词干分析器存在的参考资料,但我找不到在哪里下载它,它甚至没有在任何地方出售......

我遇到的另一个选择是使用选项wordforms在 Sphinx 源配置中(http://sphinxsearch.com/docs/manual-0.9.9.html#conf-wordforms),但是构建我自己的字典太困难了,所以我想知道是否有任何可公开访问的字典可用?


如果斯洛文尼亚语词干分析器不可用,有人可以建议其他一些方法来实现类似的搜索结果吗?


我设法通过以下步骤编译斯洛文尼亚语词干分析器:

  1. 下载http://snowball.tartarus.org/dist/snowball_code.tgz(雪球的源代码)并解压它
  2. 从下载斯洛文尼亚算法http://snowball.tartarus.org/archives/snowball-discuss/0725.html并将其保存到文件夹 /algorithms/slovene 中步骤 1 中解压的项目中。文件名必须是stem_ISO_8859_2.sbl
  3. 算法采用ISO编码,所以我将其转换为UTF8并另存为stem_Unicode.sbl(您必须找到斯洛文尼亚特殊字符的 utf 字符代码,例如 ČŠŽĆ)
  4. 编辑 /libstemmer 文件夹中的两个 .txt 文件并添加斯洛文尼亚语条目:

    slovene         UTF_8,ISO_8859_2        slovene,sl,slv
    
  5. 编辑 /GNUmakefile 并添加 slovene (一次添加到 utf 语言列表,一次添加到 ISO_8859_2_algorithms)
  6. 转到文件夹 /libstemmer 并运行:

    ./mkmodules.pl modules.h src_c modules.txt ../mkinc.mak
    ./mkmodules.pl modules_utf8.h src_c  modules_utf8.txt ../mkinc_utf8.mak
    

    这将生成稍后编译所需的文件。

  7. run make(来自解压文件的根目录)
  8. 如果编译期间没有错误,您应该有 /src_c 文件夹和斯洛文尼亚语词干分析器的代码(在其他文件夹旁边)

    stem_UTF_8_slovene.c
    stem_ISO_8859_2_slovene.c
    ...
    
  9. 解压最新的 sphinx 并将 Snowball 项目中的所有文件复制到 sphinx /libstemmer_c 文件夹(不包括libstemmer.o and GNUmakefile)

  10. 编译狮身人面像:

    touch NEWS README AUTHORS ChangeLog
    autoreconf --force --install
    ./configure --with-libstemmer
    make
    make install
    
  11. 如果一切顺利,你应该有斯洛文尼亚语词干分析器来让 sphinx 工作,你只需要在你的 sphinx 索引配置中启用它(在我的 Debian 上它位于 /usr/local/etc/sphinx.conf 中):

    charset_type = utf-8
    morphology = libstemmer_slovene
    

希望这对某人有帮助,我以前没有经验autoconf所以我花了一段时间才弄清楚这一点。

这个斯洛文尼亚词干分析器尚未正式发布于http://snowball.tartarus.org,但从我的测试来看,它对于我的项目来说已经足够好了。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Sphinx 的斯洛文尼亚词干分析器 的相关文章

  • Symfony2 dev环境可以工作,prod环境给出404错误

    我最近在我的机器上成功安装了 Symfony2 我可以访问http localhost app dev php 开发环境 但是 当我尝试访问 prod 环境时 http localhost app php 我在浏览器中收到以下错误消息 哎呀
  • Php Define() 命名空间内的常量说明

    正如标题所示 我真的很想澄清这一点 我读过一些关于这个主题的文章和帖子 但有些东西不适合我 我会补充一点 我对 Php 有点陌生 好吧 这就是我想了解的 namespace Information define ROOT URL infor
  • 创建动态子域

    自从我考虑一些网站正在实施的此功能以来已经有一段时间了 它看起来非常成功 类似的网站tumblr com blogger com wordpress com允许用户使用简单的 HTML PHP 表单从网站内注册新的子域名 以我目前对 PHP
  • 图像上的文字

    是否可以在 php 中动态地将文本放置在图像上 然后将其发送到 rss feed 是的 可以使用GD http www php net gd函数或图像魔术师 http www php net imagemagick功能 具体取决于您的服务器
  • 如何将 imagecropauto() 与 IMG_CROP_TRANSPARENT 一起使用?

    当我尝试裁剪图像的透明区域时 它会保持原始大小 并且透明区域会变成黑色 如果我运行这段代码
  • mPDF 临时文件不可使用 Yii 写入

    我尝试打印 PDF 格式的证书 但是当我将代码推送到暂存阶段时 它说 Temporary files directory var www protected vendor mpdf mpdf src Config tmp is not wr
  • 如何动态创建新属性

    如何从对象方法内的给定参数创建属性 class Foo public function createProperty var name val here how can I create a property named var name
  • OOP 中的静态和动态变量/方法是什么?

    我试图更好地理解 OOP 中的基本概念 面向对象编程中的静态和动态变量和方法是什么 例如 使用 this 与使用双冒号 之间有什么区别 this this gt a method 优点 缺点 这个 不是自我记录的 如下所示 this gt
  • 使用 php 和 sendmail 发送有关测试 docker 容器的电子邮件

    我用的是ubuntu 16 04 我有一个 测试 docker docker compose 容器运行 php 5 6 和 apache 2 4 在生产平台 没有docker 上 邮件是通过sendmail发送的 如何在docker容器上发
  • C 中的三元搜索

    我想在 C 中对整数进行三元搜索 我已经尝试过 但它对于特定情况效果不佳 请帮我删除以下程序中的错误 我的尝试 include
  • Laravel 中的支付网关回调时会话会自动销毁

    我正在尝试将 CCavenue com 支付网关集成到我的 Laravel 7 项目中 我面临的唯一问题是在回调 url 中 从支付网关获取发布数据后 活动会话会自动销毁 我还向中间件添加了 CSRF 例外 PayController 生成
  • 有没有办法获取 PHP 中可用区域设置的列表?

    在Java中 你可以调用Locale getAvailableLocales 获取可用区域设置的列表 我期待 PHP 的同等功能Locale http php net manual en class locale php类 但找不到 有没有
  • php echo 不工作

    我的代码似乎不起作用 单选按钮出现 但旁边什么也没有 似乎 mysql fetch array 由于某种原因无法工作 因为我已经玩过代码并反复测试它以查找代码似乎遇到的位置出现问题并停止工作 有人可以告诉我出了什么问题吗 欢呼声我是新手 最
  • 单击文件下载后,成功后使用 AJAX 重定向到另一个页面

    In my WordPress project my Download button containing a zip file which onClick should be downloaded So the HTML producin
  • JQuery 验证不起作用

    我有一种表单 其中一个输入类型的值为 名字 但这可以在 onfocus 函数上更改我想验证此输入字段 如果它为空白或 名字 我有两个 jQuery 文件jquery 1 4 2 min js jquery validate pack js
  • 使用 Laravel dusk 仅迁移一次

    根据到 数据库测试 文档 https laravel com docs 5 4 database testing resetting the database after each test我可以在每次测试后重置数据库 第一个选项 第二个选
  • PHP 中的数据清理[关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 在php中获取真实IP的问题

    我用它来获取真实IP 但我从 SERVER HTTP CLIENT IP 我仅从 SERVER REMOTE ADDR 但是我不需要代理的IP 我需要使用某些内网的计算机的真实IP 我能得到它吗 什么时候 SERVER HTTP CLIEN
  • PHP 内置函数复杂性(isAnagramOfPalindrome 函数)

    我在过去的两个小时里一直在谷歌搜索 但找不到 php 内置函数时间和空间复杂度的列表 我有回文字谜 https stackoverflow com questions 4628386 what is the best algorithm t
  • 如何确定函数是否不返回任何内容?

    有没有办法在 PHP 中使用反射或其他方法来做到这一点 function a return null function b a a null b b null 如果您没有显式返回某些内容 则函数将返回null默认情况下 这就是 PHP 中函

随机推荐

  • 在R中绘制频率密度直方图

    使用 R 任何人都可以告诉我如何绘制一个简单的直方图 并且以下数据的箱之间没有间隙 Class Width Freq Dist 0 lt x lt 5 0 2 5 lt x lt 15 0 1 15 lt x lt 20 1 2 20 lt
  • 主键和外键

    我有3张桌子 Student Loan Book StudentID LoanID BookID 我需要设置哪些外键 以便在给出学生姓名时 搜索该学生的所有贷款并显示书籍详细信息 这是从如此模糊的要求开始的 CREATE TABLE dbo
  • 如何处理用户离开对话

    我们有使用 OnMembersAddedAsync 方法的欢迎示例 但没有示例显示如何处理用户离开对话 我尝试覆盖 OnMembersRemovedAsync 但它似乎没有被调用 至少当我使用机器人框架模拟器时 我需要在用户离开 离开对话时
  • Holoviews 相关热图和回归图的点击流

    我想为 DataFrame 制作一个相关热图 并为每对变量制作一个回归图 我已尝试阅读所有文档 但仍然很难连接两个图 以便当我点击热图时 可以显示相应的回归图 这是一些示例代码 import holoviews as hv from hol
  • Javascript Promise 中的resolve和reject实际上做了什么

    起初 我认为resolve只需将参数传递给函数即可then 所以我尝试了这个 const promise new Promise resolve reject gt resolve new Promise resolve gt resolv
  • Jython:如何使用文件“jython-2.7-b1.jar”

    我是 Jython 新手 我从这里下载了一个jar文件http www jython org downloads html 下载 Jython 2 7beta1 jython jar 安装程序 不带捆绑 python 文件的独立版本 当我运
  • 在 C++ 中集成 swf

    有没有办法制作包含 swf 的 C GUI 应用程序 swf 文件非常小 并且比 gif 或其他类型的动画更容易制作 因此如果能够包含它们就太好了 一些图书馆的推荐 免费甚至开源 您可以在应用程序中托管 Flash 播放器本身 您只需实现您
  • linux下如何合并相似的行

    我的 Linux 系统上有一个文件 test txt 其中包含以下格式的数据 first second third fourth 10 first second third fourth 20 fifth sixth seventh eig
  • Python Tkinter 中的图像问题

    我一直在尝试将图像包含在我的 Tkinter 小部件中 但似乎没有任何效果 这是我的代码 from Tkinter import from PIL import Image root Tk image Image open images m
  • 如何在Python中将字符串转换为列表?

    l Hello my name is Apple l1 Hello my name is Apple type l 回报str但我希望它是一个列表 如l1 is 如何将该字符串转换为通用列表 the ast模块有一个literal eval
  • 循环未完成保存 pdf [重复]

    这个问题在这里已经有答案了 我正在写一个循环 循环的目的是创建许多图并将它们保存为PDF 选择数据的子集后 我执行以下操作 pdf path to the desired filename width 16 height 7 some gg
  • Swift 默认 AlertViewController 打破约束

    我正在尝试使用带有样式的默认 AlertViewController actionSheet 由于某种原因 警报会导致约束误差 只要alertController不是通过按钮触发 显示 整个视图就不存在约束错误 难道这是一个Xcode 的错
  • 如何逐行分析 cython 函数

    我经常努力寻找自己的瓶颈cython代码 我怎样才能了解个人资料cython逐行函数 罗伯特 布拉德肖 Robert Bradshaw 帮助我获得了罗伯特 科恩 Robert Kern 的line profiler工具工作于cdef函数 我
  • sendWakefulWork 并不总是用 cwac-wakeful-1.1.0 调用

    我有一个问题困扰了很长时间 我发现了 CWAC wakeful 它可以解决我所有的问题 我想 简而言之 为了解决这个问题 我实现了一个最简单的应用程序 它每 60 秒安排一次警报并每次记录一次 这是我的代码 主要活动 package com
  • neo4j 中的搜索查询:如何使用内部 TFIDF / levenshtein 或其他算法对 START 查询中的 neo4j 中的结果进行排序?

    我正在使用维基百科主题名称为我的全文索引实验开发一个模型 我在 主题 旧版 上设置和索引 并对以下内容进行全文搜索 united states start n node topic name united states return n 第
  • 流星 0.9.1 ,Mongo 未在我的自定义包中定义

    获取异常 Mongo 未在我的自定义包中定义 CODE ABC new Mongo Collection ABC ERROR W20140905 17 49 06 809 5 5 STDERR home sandeep meteor pac
  • 在 cakePHP 中将样式表包含在 PDF 中

    我在用dompdf为某些视图生成 PDF 效果很好 问题是我无法在任何地方包含 css 文件 并且仅包含在
  • 使用 (gtsummary) tbl_svysummaary 函数显示 Survey.design 对象的置信区间?

    我正在使用 tbl svysummary 函数从 survey 包创建的 Survey design 对象生成汇总统计表 使用 add stat 函数的方式 但是 我在尝试使用 add stat 函数时遇到错误 ci lt function
  • 停止 Firefox 以 rgb() 形式渲染内联颜色

    我正在尝试编写一个 JavaScript 工具来处理特定颜色的项目 在测试页面上 我使用内联样式设置颜色 以模仿目标页面 但渲染页面时 使用 CSS rgb 函数指定颜色 HTML 尝试模拟我想要更改背景颜色的 GMail 容器 当我在 F
  • Sphinx 的斯洛文尼亚词干分析器

    我正在搜索斯洛文尼亚语的词干算法 我可以将其与 Sphinx 搜索一起使用 我想要实现的目标是 例如 在搜索 jabolka 时 我还想要包含 jabolko jabolki jabolk 等文档的结果 我找到了一些关于斯洛文尼亚词干分析器