Solr、特殊字符和拉丁文到西里尔文字符转换

2024-01-17

我正在尝试使用 Solr （或 Lucene）设置一个搜索引擎，它可以包含带有特殊字符的拉丁语文本（特殊字符包括 Ö 或 Ç 作为示例）或西里尔字符（示例包括 Б 或 б 和 Ж ж）。

无论如何，我正在尝试找到一个解决方案，让我可以搜索包含这些字符的单词，但对于键盘上没有该键的用户......

例子是（这里编造的话，希望不会冒犯任何人）：

搜索“book”时会找到“BÖÖK”
搜索 XRAY 时会找到“ЖRAY”
如果搜索 ZRAY、ZHRAY 或 žray，也会找到“ЖRAY”（请参阅GOST 16876-71 http://en.wikipedia.org/wiki/GOST_16876-71有关 Cylric 到拉丁 Char 音译的信息。

那么，我该怎么办呢？我的一些理论是：

允许为每个原始字符串存储多个文本字段，一个以原始形式存储，一个在第一遍音译中（例如，将 Ö 仅转换为 O，Ж 转换为 ž，但也转换为 X），然后在音译中存储一个第三种形式（从 ž 到 z 或 zh）-> 意味着我将存储大量数据......
按原样存储在 solr 中，并让 Solr 发挥作用 -> 不知道这会工作得有多好...在 solr 中看不到任何可以执行此操作的内容
灵丹妙药我还没找到……

有任何想法吗？以前有人尝试过这个吗？

看一眼Solr 的分析器、分词器和分词过滤器 http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters这可以让您很好地了解您正在寻找的操作类型。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Search

Solr

multilingual

transliteration

Solr、特殊字符和拉丁文到西里尔文字符转换的相关文章

sprintf 风格字符串格式化的起源

字符串格式化概念见sprintf如今几乎可以在任何语言中找到你知道用 s d f 等掩盖字符串并提供变量列表来填充它们的位置哪种语言最初具有提供此功能的库函数或语言结构请指定某种来源参考以确认您的主张以便我们避免纯粹的猜测或猜测
Elasticsearch 中的嵌套与对象

有人可以解释 Elasticsearch 文档中对象和嵌套字段之间的区别吗我知道默认情况下字段被定义为对象我还知道我可以用这样的点访问对象字段 my field name my field title 等对象的文档 http
在包含一些通配符的大型列表中进行成员资格测试

当列表包含特殊类别时如何测试某个短语是否在大型 650k 短语列表中例如我想测试这个短语是否 he had the nerve 在列表中确实如此但是在 he had DETERMINER nerve where DETERMINE
Solr 4.0 中的 BaseTokenFilterFactory 去哪儿了？

用于创建您自己的标记和字符过滤器的 Solr 文档说明如下 http wiki apache org solr AnalyzersTokenizersTokenFilters Specifying an Analyzer in the sc
复杂的 SOLR 查询，包括 NOT 和 OR

我对 SOLR 搜索有一些相当复杂的要求我需要针对标记内容的数据库执行这些搜索我需要首先过滤数据库以获取与我的过滤器标签匹配的结果任何具有黑名单中的标签的结果都应被删除除非它们也包含白名单中的标签假设我想检索所有标记为森林或
将搜索栏从 magento 主页的标题中移动

我是 magento 的新手我想将搜索栏从标题移动到主页的中间位置以便它仅显示在主页上我在 magento 论坛上阅读了许多相关答案但所有人都在尝试编辑 box css 中的 mini search 元素但不幸的是我在此文件中没有
通过电子邮件搜索将 Excel 2003 中的数据行复制并粘贴到不同的工作表

在任何人发表任何言论之前我已经浏览了几篇与此类似想法相关的帖子采用不同的搜索条件然后对其进行修改但我无法让宏正常工作这可能是由于我缺乏编程知识我想做的就是 search的电子邮件地址工作表1如果找到则将整行复制到下一个空闲行工
客户端断开连接后 Solr 查询继续吗？

我对 Solr 长期运行查询遇到的问题有一个理论但我不知道它是否正确也不知道如何测试它我正在使用 cURL 从应用程序查询 Solr cURL 的配置方式是如果 Solr 在 3 秒内未发送响应它将放弃并断开连接从而允许托管 c
Lucene 评分：在什么情况下使用 queryNorm？

我对 lucene 的评分策略有点困惑我知道Lucene的评分公式是这样的 score q d coord q d x queryNorm q X SUM
实时搜索错误

我正在获取用户偏好和角色一切正常并且数据接收正确默认值放置在单选按钮上以突出显示用户当前拥有的选项我正在使用 Antd Design Table 组件问题当我将用户首选项更改为打印文档时它确实通过数据库的状态成功更改了它但是现
H2数据库排序规则：选择什么？

经过大量阅读和实验后似乎我想要主要的搜索强度但第三或相同的排序强度主要问题用 H2 或任何其他数据库可以实现吗第二个问题我是这里唯一的人吗或者你们中有人也喜欢上述组合吗一些确认会对我的理智有所帮助背景看来排序规则只能在
Solr 您的意思是（拼写检查组件）

我在我的应用程序中使用 solr 并集成了拼写检查组件但我遇到了一些问题第一的当我输入一个用空格分隔的术语时他们会给我每个术语的更正 Eg 水 gt 什么术语但事实是watters 第二当我输入一些带有错误术语的短语时尽管其他
Solr 中缺少强制 uniquekey 字段错误

我的项目中有这个问题我使用 Apache Poi 读取 xlsx excel 文件并且想在 Solr 核心中对它们进行索引我使用 SolrInputDocument 来索引读取文件这是我的java代码 package org sol
在 solr 8 中的 fl 中使用父过滤器时获取“当架构嵌套时不应发送父过滤器”

我正在尝试使用子文档获取父文档但得到当模式嵌套时不应发送父过滤器 error 附上下面我尝试过但无法得到解决方案的查询 q parent which content type person fl child parentFilter c
solr + haystack + django 我在哪里放置 schema.xml？

我刚刚安装Solr and Haystack for a Django我正在做的项目下列的this http docs haystacksearch org dev tutorial html Haystack教程我创建了一个 sche
如何根据特定字段对 solr 查询的前 100 个结果进行排序？

我想使用特定字段对 solr 的前 100 个文档进行排序但它对整个结果集进行排序然后显示结果以下是我的代码 query1 setQuery Natural Language query1 setStart 0 query1 setR
C 中的三元搜索

我想在 C 中对整数进行三元搜索我已经尝试过但它对于特定情况效果不佳请帮我删除以下程序中的错误我的尝试 include
如何使用 lucene 查询找到空的 Solr 文档字段

我有一些这样的文件
如何使用存储在 Cocoa Touch 框架中的 Localized.strings？

我想为 CocoaTouch 框架添加多语言支持问题可本地化的字符串我创建的文件仅被使用NSLocalizedString当它是主应用程序及其目标的一部分时我想将其存储在框架内以将事物分开我怎样才能使用可本地化的字符串当放置在 Co
如何禁用 solr 管理页面

对于生产来说拥有一个甚至不要求登录凭据的 solr 管理员感觉不安全如何禁用默认的 solr 管理页面我只是希望我的 web 应用程序使用 Solr 进行搜索词索引我强烈建议保留管理页面用于调试目的它在很多情况下拯救了我有多种方

随机推荐

elasticsearch python 客户端 - 与许多节点一起工作 - 如何使用嗅探器

我有一个包含 2 个节点的集群我试图了解连接节点的最佳实践并在一个节点出现停机时检查故障转移 from 文档 http elasticsearch py readthedocs io en master api html nodes e
python 在html中显示unicode

我正在编写脚本将我的链接及其标题从 chrome 导出到 html Chrome 书签以 json 形式存储采用 utf 编码有些标题是俄语的因此它们存储如下名称 u0425 u0430 u0431 u0440 import code
如何告诉 WebStorm 在 Docker 容器中查找项目？

我当前的项目目录如下所示 backend Dockerfile NestJS Dockerfile docker Folder that contains docker compose yml file package json src f
ERLANG - 将列表拆分为子列表

嗨这是我在这里的第一篇文章希望你们一切都好所以我刚刚开始 erlang 我遇到了一个问题我还不知道如何解决所以我收到的二进制文件格式为 lt lt 56 23 67 34 45 78 01 54 67 87 45 53 01 34
Django REST 框架 JSONParser().parse(request) 引发错误

在 Django 视图中我正在尝试这样做 csrf exempt def customer list request List all customers or create a new customer if request metho
在整个视图控制器中多次调用presentViewController方法会导致iOS中的内存泄漏吗？

我知道已经有很多与这个主题相关的讨论但在所有讨论中都讨论了 2 个视图控制器 A B 我的情况类似但又不同当有多个视图控制器如 A B C D 时会发生什么所以呈现流程如下视图控制器 A 主页呈现视图控制器 B 列表然后从视图
INSERT 语句中出现“此处不允许列”错误

我创建了这个名为 LOCATION 的表通过做这个 CREATE TABLE LOCATION POSTCODE VARCHAR 10 PRIMARY KEY STREET NAME VARCHAR 20 CITY VARCHAR 20
在 FastCGI 和 Octave 中重新定义标准输出

我正在努力在 Ubuntu Linux 中使用 C C 在 FastCGI 会话中实现 Octave 解释器我遇到的问题是 FCGI 重定向stdout to FCGI 标准输出但预编译的 Octave 头文件仍然使用正常的stdout
Flex：组合框控件的自定义项目渲染器截断文本

我已经实现了一个自定义项目渲染器我正在处理的 Flex 项目上将其与组合框一起使用它显示每个项目的图标和一些文本唯一的问题是当文本较长时菜单的宽度无法正确调整并且文本在显示时会被截断我尝试调整所有明显的属性来缓解这个问题但没
如何将图像保存到sqlite数据库

在我的课程中我有一个方法可以在照片库中搜索图像并接收从手机摄像头拍摄的图像我现在需要将此图像保存在 sqlite 数据库中我正在使用像 BLOB 这样的数据库字段但不像在 bity 中序列化图像或在decode64 中进行转换以写
在 GraphQL 架构中使用数字作为键？

您可以使用 GraphQL Schema 语言在 GraphQL Schema 中使用数字作为键吗即这是一个小片段 type tax code allocation country KOR states 11 tax code allo
将 `:map` 的输出获取到缓冲区

我想得到无参数的输出 map调用以便我可以使用 vim 的搜索功能来查找映射我发现关于 redir 它将 ex 命令的输出重定向到变量寄存器或文件中但它似乎不适用于 map 它必须以某种不同的方式输出映射例如 echo hello
如何使用可旁加载的证书创建 UWP 应用

我正在尝试创建一个可以侧载到其他电脑上的 UWP 应用程序我的主要问题是我是否需要来自可信来源的证书来签署我的应用程序经过大量研究后我了解到您可以通过应用程序旁加载安装 UWP 应用程序应用程序安装程序 https www mic
中介者模式与创建

我的演示文稿中有几个需要相互交互的小部件但交互已经变得足够复杂需要一个新对象来处理交互在尝试通过中介者作为该对象进行工作时我对如何有效地构建参与者感到困惑中介者必须了解小部件而小部件也必须了解中介者使用下面的玩具类有人可以
jquery 日期时间选择器设置 minDate 动态

我正在使用trentrichardson com 的日期时间选择器我有一个带有两个输入字段的表单 from and to我希望能够动态地将 minDate 设置为我的 to 字段等于我的 from 字段的值我知道我应该使用 befor
从 Unix 时间戳转换为 Groovy 中的日期

我有一个 unix 时间戳中的日期我想将其转换为人类可读的 def dateUnix 1486146877214 Date dateObj new Date long dateUnix 1000 def cleanDate new Sim
加载了错误的 Java 资源包

在我的应用程序中我使用 java 资源包来翻译其标签我目前有两个文件带有英语标签的 resources properties 默认语言带有法语标签的 resources fr properties 然后我使用以下命令加载捆绑包属性
XSLT - 识别具有相同属性值模式的连续节点

我有这样的xml section p aa p p bb p p cc p p dd p p ee p p ff p p gg p p hh p p ii p p jj p p xx p p p section
如何从 Java 中的内部 Thread Runnable 方法获取返回值？

我该如何分配Status with CallMe using isFinish 返回值 true 吗 public static boolean isFinish boolean Status false new Thread new Ru
Solr、特殊字符和拉丁文到西里尔文字符转换

我正在尝试使用 Solr 或 Lucene 设置一个搜索引擎它可以包含带有特殊字符的拉丁语文本特殊字符包括或作为示例或西里尔字符示例包括或和无论如何我正在尝试找到一个解决方案让我可以搜索包含这些字符的单词但对于键盘上

Solr、特殊字符和拉丁文到西里尔文字符转换

Solr、特殊字符和拉丁文到西里尔文字符转换 的相关文章

随机推荐

热门标签

Solr、特殊字符和拉丁文到西里尔文字符转换的相关文章