Sphinx 的斯洛文尼亚词干分析器

2023-12-08

我正在搜索斯洛文尼亚语的词干算法，我可以将其与 Sphinx 搜索一起使用。

我想要实现的目标是，例如，在搜索“jabolka”时，我还想要包含“jabolko”、“jabolki”、“jabolk”等文档的结果。

我找到了一些关于斯洛文尼亚词干分析器存在的参考资料，但我找不到在哪里下载它，它甚至没有在任何地方出售......

我遇到的另一个选择是使用选项wordforms在 Sphinx 源配置中（http://sphinxsearch.com/docs/manual-0.9.9.html#conf-wordforms），但是构建我自己的字典太困难了，所以我想知道是否有任何可公开访问的字典可用？

如果斯洛文尼亚语词干分析器不可用，有人可以建议其他一些方法来实现类似的搜索结果吗？

我设法通过以下步骤编译斯洛文尼亚语词干分析器：

下载http://snowball.tartarus.org/dist/snowball_code.tgz（雪球的源代码）并解压它
从下载斯洛文尼亚算法http://snowball.tartarus.org/archives/snowball-discuss/0725.html并将其保存到文件夹 /algorithms/slovene 中步骤 1 中解压的项目中。文件名必须是stem_ISO_8859_2.sbl
算法采用ISO编码，所以我将其转换为UTF8并另存为stem_Unicode.sbl（您必须找到斯洛文尼亚特殊字符的 utf 字符代码，例如 ČŠŽĆ）
编辑 /libstemmer 文件夹中的两个 .txt 文件并添加斯洛文尼亚语条目：
```
slovene         UTF_8,ISO_8859_2        slovene,sl,slv
```
编辑 /GNUmakefile 并添加 slovene （一次添加到 utf 语言列表，一次添加到 ISO_8859_2_algorithms）

转到文件夹 /libstemmer 并运行：

./mkmodules.pl modules.h src_c modules.txt ../mkinc.mak
./mkmodules.pl modules_utf8.h src_c  modules_utf8.txt ../mkinc_utf8.mak

这将生成稍后编译所需的文件。

run make（来自解压文件的根目录）
如果编译期间没有错误，您应该有 /src_c 文件夹和斯洛文尼亚语词干分析器的代码（在其他文件夹旁边）
```
stem_UTF_8_slovene.c
stem_ISO_8859_2_slovene.c
...
```
解压最新的 sphinx 并将 Snowball 项目中的所有文件复制到 sphinx /libstemmer_c 文件夹（不包括libstemmer.o and GNUmakefile)

编译狮身人面像：

touch NEWS README AUTHORS ChangeLog
autoreconf --force --install
./configure --with-libstemmer
make
make install

如果一切顺利，你应该有斯洛文尼亚语词干分析器来让 sphinx 工作，你只需要在你的 sphinx 索引配置中启用它（在我的 Debian 上它位于 /usr/local/etc/sphinx.conf 中）：
```
charset_type = utf-8
morphology = libstemmer_slovene
```

希望这对某人有帮助，我以前没有经验autoconf所以我花了一段时间才弄清楚这一点。

这个斯洛文尼亚词干分析器尚未正式发布于http://snowball.tartarus.org，但从我的测试来看，它对于我的项目来说已经足够好了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

php

Search

fulltextsearch

sphinx

stemming

Sphinx 的斯洛文尼亚词干分析器的相关文章

Symfony2 dev环境可以工作，prod环境给出404错误

我最近在我的机器上成功安装了 Symfony2 我可以访问http localhost app dev php 开发环境但是当我尝试访问 prod 环境时 http localhost app php 我在浏览器中收到以下错误消息哎呀
Php Define() 命名空间内的常量说明

正如标题所示我真的很想澄清这一点我读过一些关于这个主题的文章和帖子但有些东西不适合我我会补充一点我对 Php 有点陌生好吧这就是我想了解的 namespace Information define ROOT URL infor
创建动态子域

自从我考虑一些网站正在实施的此功能以来已经有一段时间了它看起来非常成功类似的网站tumblr com blogger com wordpress com允许用户使用简单的 HTML PHP 表单从网站内注册新的子域名以我目前对 PHP
图像上的文字

是否可以在 php 中动态地将文本放置在图像上然后将其发送到 rss feed 是的可以使用GD http www php net gd函数或图像魔术师 http www php net imagemagick功能具体取决于您的服务器
如何将 imagecropauto() 与 IMG_CROP_TRANSPARENT 一起使用？

当我尝试裁剪图像的透明区域时它会保持原始大小并且透明区域会变成黑色如果我运行这段代码
mPDF 临时文件不可使用 Yii 写入

我尝试打印 PDF 格式的证书但是当我将代码推送到暂存阶段时它说 Temporary files directory var www protected vendor mpdf mpdf src Config tmp is not wr
如何动态创建新属性

如何从对象方法内的给定参数创建属性 class Foo public function createProperty var name val here how can I create a property named var name
OOP 中的静态和动态变量/方法是什么？

我试图更好地理解 OOP 中的基本概念面向对象编程中的静态和动态变量和方法是什么例如使用 this 与使用双冒号之间有什么区别 this this gt a method 优点缺点这个不是自我记录的如下所示 this gt
使用 php 和 sendmail 发送有关测试 docker 容器的电子邮件

我用的是ubuntu 16 04 我有一个测试 docker docker compose 容器运行 php 5 6 和 apache 2 4 在生产平台没有docker 上邮件是通过sendmail发送的如何在docker容器上发
C 中的三元搜索

我想在 C 中对整数进行三元搜索我已经尝试过但它对于特定情况效果不佳请帮我删除以下程序中的错误我的尝试 include
Laravel 中的支付网关回调时会话会自动销毁

我正在尝试将 CCavenue com 支付网关集成到我的 Laravel 7 项目中我面临的唯一问题是在回调 url 中从支付网关获取发布数据后活动会话会自动销毁我还向中间件添加了 CSRF 例外 PayController 生成
有没有办法获取 PHP 中可用区域设置的列表？

在Java中你可以调用Locale getAvailableLocales 获取可用区域设置的列表我期待 PHP 的同等功能Locale http php net manual en class locale php类但找不到有没有
php echo 不工作

我的代码似乎不起作用单选按钮出现但旁边什么也没有似乎 mysql fetch array 由于某种原因无法工作因为我已经玩过代码并反复测试它以查找代码似乎遇到的位置出现问题并停止工作有人可以告诉我出了什么问题吗欢呼声我是新手最
单击文件下载后，成功后使用 AJAX 重定向到另一个页面

In my WordPress project my Download button containing a zip file which onClick should be downloaded So the HTML producin
JQuery 验证不起作用

我有一种表单其中一个输入类型的值为名字但这可以在 onfocus 函数上更改我想验证此输入字段如果它为空白或名字我有两个 jQuery 文件jquery 1 4 2 min js jquery validate pack js
使用 Laravel dusk 仅迁移一次

根据到数据库测试文档 https laravel com docs 5 4 database testing resetting the database after each test我可以在每次测试后重置数据库第一个选项第二个选
PHP 中的数据清理[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
在php中获取真实IP的问题

我用它来获取真实IP 但我从 SERVER HTTP CLIENT IP 我仅从 SERVER REMOTE ADDR 但是我不需要代理的IP 我需要使用某些内网的计算机的真实IP 我能得到它吗什么时候 SERVER HTTP CLIEN
PHP 内置函数复杂性（isAnagramOfPalindrome 函数）

我在过去的两个小时里一直在谷歌搜索但找不到 php 内置函数时间和空间复杂度的列表我有回文字谜 https stackoverflow com questions 4628386 what is the best algorithm t
如何确定函数是否不返回任何内容？

有没有办法在 PHP 中使用反射或其他方法来做到这一点 function a return null function b a a null b b null 如果您没有显式返回某些内容则函数将返回null默认情况下这就是 PHP 中函

随机推荐

在R中绘制频率密度直方图

使用 R 任何人都可以告诉我如何绘制一个简单的直方图并且以下数据的箱之间没有间隙 Class Width Freq Dist 0 lt x lt 5 0 2 5 lt x lt 15 0 1 15 lt x lt 20 1 2 20 lt
主键和外键

我有3张桌子 Student Loan Book StudentID LoanID BookID 我需要设置哪些外键以便在给出学生姓名时搜索该学生的所有贷款并显示书籍详细信息这是从如此模糊的要求开始的 CREATE TABLE dbo
如何处理用户离开对话

我们有使用 OnMembersAddedAsync 方法的欢迎示例但没有示例显示如何处理用户离开对话我尝试覆盖 OnMembersRemovedAsync 但它似乎没有被调用至少当我使用机器人框架模拟器时我需要在用户离开离开对话时
Holoviews 相关热图和回归图的点击流

我想为 DataFrame 制作一个相关热图并为每对变量制作一个回归图我已尝试阅读所有文档但仍然很难连接两个图以便当我点击热图时可以显示相应的回归图这是一些示例代码 import holoviews as hv from hol
Javascript Promise 中的resolve和reject实际上做了什么

起初我认为resolve只需将参数传递给函数即可then 所以我尝试了这个 const promise new Promise resolve reject gt resolve new Promise resolve gt resolv
Jython：如何使用文件“jython-2.7-b1.jar”

我是 Jython 新手我从这里下载了一个jar文件http www jython org downloads html 下载 Jython 2 7beta1 jython jar 安装程序不带捆绑 python 文件的独立版本当我运
在 C++ 中集成 swf

有没有办法制作包含 swf 的 C GUI 应用程序 swf 文件非常小并且比 gif 或其他类型的动画更容易制作因此如果能够包含它们就太好了一些图书馆的推荐免费甚至开源您可以在应用程序中托管 Flash 播放器本身您只需实现您
linux下如何合并相似的行

我的 Linux 系统上有一个文件 test txt 其中包含以下格式的数据 first second third fourth 10 first second third fourth 20 fifth sixth seventh eig
Python Tkinter 中的图像问题

我一直在尝试将图像包含在我的 Tkinter 小部件中但似乎没有任何效果这是我的代码 from Tkinter import from PIL import Image root Tk image Image open images m
如何在Python中将字符串转换为列表？

l Hello my name is Apple l1 Hello my name is Apple type l 回报str但我希望它是一个列表如l1 is 如何将该字符串转换为通用列表 the ast模块有一个literal eval
循环未完成保存 pdf [重复]

这个问题在这里已经有答案了我正在写一个循环循环的目的是创建许多图并将它们保存为PDF 选择数据的子集后我执行以下操作 pdf path to the desired filename width 16 height 7 some gg
Swift 默认 AlertViewController 打破约束

我正在尝试使用带有样式的默认 AlertViewController actionSheet 由于某种原因警报会导致约束误差只要alertController不是通过按钮触发显示整个视图就不存在约束错误难道这是一个Xcode 的错
如何逐行分析 cython 函数

我经常努力寻找自己的瓶颈cython代码我怎样才能了解个人资料cython逐行函数罗伯特布拉德肖 Robert Bradshaw 帮助我获得了罗伯特科恩 Robert Kern 的line profiler工具工作于cdef函数我
sendWakefulWork 并不总是用 cwac-wakeful-1.1.0 调用

我有一个问题困扰了很长时间我发现了 CWAC wakeful 它可以解决我所有的问题我想简而言之为了解决这个问题我实现了一个最简单的应用程序它每 60 秒安排一次警报并每次记录一次这是我的代码主要活动 package com
neo4j 中的搜索查询：如何使用内部 TFIDF / levenshtein 或其他算法对 START 查询中的 neo4j 中的结果进行排序？

我正在使用维基百科主题名称为我的全文索引实验开发一个模型我在主题旧版上设置和索引并对以下内容进行全文搜索 united states start n node topic name united states return n 第
流星 0.9.1 ，Mongo 未在我的自定义包中定义

获取异常 Mongo 未在我的自定义包中定义 CODE ABC new Mongo Collection ABC ERROR W20140905 17 49 06 809 5 5 STDERR home sandeep meteor pac
在 cakePHP 中将样式表包含在 PDF 中

我在用dompdf为某些视图生成 PDF 效果很好问题是我无法在任何地方包含 css 文件并且仅包含在
使用 (gtsummary) tbl_svysummaary 函数显示 Survey.design 对象的置信区间？

我正在使用 tbl svysummary 函数从 survey 包创建的 Survey design 对象生成汇总统计表使用 add stat 函数的方式但是我在尝试使用 add stat 函数时遇到错误 ci lt function
停止 Firefox 以 rgb() 形式渲染内联颜色

我正在尝试编写一个 JavaScript 工具来处理特定颜色的项目在测试页面上我使用内联样式设置颜色以模仿目标页面但渲染页面时使用 CSS rgb 函数指定颜色 HTML 尝试模拟我想要更改背景颜色的 GMail 容器当我在 F
Sphinx 的斯洛文尼亚词干分析器

我正在搜索斯洛文尼亚语的词干算法我可以将其与 Sphinx 搜索一起使用我想要实现的目标是例如在搜索 jabolka 时我还想要包含 jabolko jabolki jabolk 等文档的结果我找到了一些关于斯洛文尼亚词干分析器

Sphinx 的斯洛文尼亚词干分析器

Sphinx 的斯洛文尼亚词干分析器 的相关文章

随机推荐

热门标签

Sphinx 的斯洛文尼亚词干分析器的相关文章