Solr、特殊字符和拉丁文到西里尔文字符转换

2024-01-17

我正在尝试使用 Solr (或 Lucene)设置一个搜索引擎,它可以包含带有特殊字符的拉丁语文本(特殊字符包括 Ö 或 Ç 作为示例)或西里尔字符(示例包括 Б 或 б 和 Ж ж) 。

无论如何,我正在尝试找到一个解决方案,让我可以搜索包含这些字符的单词,但对于键盘上没有该键的用户......

例子是(这里编造的话,希望不会冒犯任何人):

  • 搜索“book”时会找到“BÖÖK”
  • 搜索 XRAY 时会找到“ЖRAY”
  • 如果搜索 ZRAY、ZHRAY 或 žray,也会找到“ЖRAY”(请参阅GOST 16876-71 http://en.wikipedia.org/wiki/GOST_16876-71有关 Cylric 到拉丁 Char 音译的信息。

那么,我该怎么办呢?我的一些理论是:

  • 允许为每个原始字符串存储多个文本字段,一个以原始形式存储,一个在第一遍音译中(例如,将 Ö 仅转换为 O,Ж 转换为 ž,但也转换为 X),然后在音译中存储一个第三种形式(从 ž 到 z 或 zh)-> 意味着我将存储大量数据......
  • 按原样存储在 solr 中,并让 Solr 发挥作用 -> 不知道这会工作得有多好...在 solr 中看不到任何可以执行此操作的内容
  • 灵丹妙药我还没找到……

有任何想法吗?以前有人尝试过这个吗?


看一眼Solr 的分析器、分词器和分词过滤器 http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters这可以让您很好地了解您正在寻找的操作类型。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Solr、特殊字符和拉丁文到西里尔文字符转换 的相关文章

  • sprintf 风格字符串格式化的起源

    字符串格式化概念见sprintf如今几乎可以在任何语言中找到 你知道 用 s d f 等掩盖字符串 并提供变量列表来填充它们的位置 哪种语言最初具有提供此功能的库函数或语言结构 请指定某种来源参考以确认您的主张 以便我们避免纯粹的猜测或猜测
  • Elasticsearch 中的嵌套与对象

    有人可以解释 Elasticsearch 文档中 对象 和 嵌套 字段之间的区别吗 我知道默认情况下字段被定义为对象 我还知道我可以用这样的点访问对象字段 my field name my field title 等 对象的文档 http
  • 在包含一些通配符的大型列表中进行成员资格测试

    当列表包含特殊类别时 如何测试某个短语是否在大型 650k 短语列表中 例如 我想测试这个短语是否 he had the nerve 在列表中 确实如此 但是在 he had DETERMINER nerve where DETERMINE
  • Solr 4.0 中的 BaseTokenFilterFactory 去哪儿了?

    用于创建您自己的标记和字符过滤器的 Solr 文档说明如下 http wiki apache org solr AnalyzersTokenizersTokenFilters Specifying an Analyzer in the sc
  • 复杂的 SOLR 查询,包括 NOT 和 OR

    我对 SOLR 搜索有一些相当复杂的要求 我需要针对标记内容的数据库执行这些搜索 我需要首先过滤数据库以获取与我的过滤器标签匹配的结果 任何具有黑名单中的标签的结果都应被删除 除非它们也包含白名单中的标签 假设我想检索所有标记为 森林 或
  • 将搜索栏从 magento 主页的标题中移动

    我是 magento 的新手 我想将搜索栏从标题移动到主页的中间位置 以便它仅显示在主页上 我在 magento 论坛上阅读了许多相关答案 但所有人都在尝试编辑 box css 中的 mini search 元素 但不幸的是我在此文件中没有
  • 通过电子邮件搜索将 Excel 2003 中的数据行复制并粘贴到不同的工作表

    在任何人发表任何言论之前 我已经浏览了几篇与此类似想法相关的帖子 采用不同的搜索条件 然后对其进行修改 但我无法让宏正常工作 这可能是由于我缺乏编程知识 我想做的就是 search的电子邮件地址工作表1如果找到 则将整行复制到下一个空闲行工
  • 客户端断开连接后 Solr 查询继续吗?

    我对 Solr 长期运行查询遇到的问题有一个理论 但我不知道它是否正确 也不知道如何测试它 我正在使用 cURL 从应用程序查询 Solr cURL 的配置方式是 如果 Solr 在 3 秒内未发送响应 它将放弃并断开连接 从而允许托管 c
  • Lucene 评分:在什么情况下使用 queryNorm?

    我对 lucene 的评分策略有点困惑 我知道Lucene的评分公式是这样的 score q d coord q d x queryNorm q X SUM
  • 实时搜索错误

    我正在获取用户偏好和角色 一切正常并且数据接收正确 默认值放置在单选按钮上以突出显示用户当前拥有的选项 我正在使用 Antd Design Table 组件 问题 当我将用户首选项更改为打印文档时 它确实通过数据库的状态成功更改了它 但是现
  • H2数据库排序规则:选择什么?

    经过大量阅读和实验后 似乎我想要主要的搜索强度 但第三或相同的排序强度 主要问题 用 H2 或任何其他数据库 可以实现吗 第二个问题 我是这里唯一的人吗 或者你们中有人也喜欢上述组合吗 一些确认会对我的理智有所帮助 背景 看来排序规则只能在
  • Solr 您的意思是(拼写检查组件)

    我在我的应用程序中使用 solr 并集成了拼写检查组件 但我遇到了一些问题 第一的 当我输入一个用空格分隔的术语时 他们会给我每个术语的更正 Eg 水 gt 什么术语 但事实是watters 第二 当我输入一些带有错误术语的短语时 尽管其他
  • Solr 中缺少强制 uniquekey 字段错误

    我的项目中有这个问题 我使用 Apache Poi 读取 xlsx excel 文件 并且想在 Solr 核心中对它们进行索引 我使用 SolrInputDocument 来索引读取文件 这是我的java代码 package org sol
  • 在 solr 8 中的 fl 中使用父过滤器时获取“当架构嵌套时不应发送父过滤器”

    我正在尝试使用子文档获取父文档 但得到 当模式嵌套时不应发送父过滤器 error 附上下面我尝试过但无法得到解决方案的查询 q parent which content type person fl child parentFilter c
  • solr + haystack + django 我在哪里放置 schema.xml?

    我刚刚安装Solr and Haystack for a Django我正在做的项目 下列的this http docs haystacksearch org dev tutorial html Haystack教程 我创建了一个 sche
  • 如何根据特定字段对 solr 查询的前 100 个结果进行排序?

    我想使用特定字段对 solr 的前 100 个文档进行排序 但它对整个结果集进行排序 然后显示结果 以下是我的代码 query1 setQuery Natural Language query1 setStart 0 query1 setR
  • C 中的三元搜索

    我想在 C 中对整数进行三元搜索 我已经尝试过 但它对于特定情况效果不佳 请帮我删除以下程序中的错误 我的尝试 include
  • 如何使用 lucene 查询找到空的 Solr 文档字段

    我有一些这样的文件
  • 如何使用存储在 Cocoa Touch 框架中的 Localized.strings?

    我想为 CocoaTouch 框架添加多语言支持 问题 可本地化的字符串我创建的文件仅被使用NSLocalizedString当它是主应用程序及其目标的一部分时 我想将其存储在框架内以将事物分开 我怎样才能使用可本地化的字符串当放置在 Co
  • 如何禁用 solr 管理页面

    对于生产来说 拥有一个甚至不要求登录凭据的 solr 管理员感觉不安全 如何禁用默认的 solr 管理页面 我只是希望我的 web 应用程序使用 Solr 进行搜索词索引 我强烈建议保留管理页面用于调试目的 它在很多情况下拯救了我 有多种方

随机推荐

  • elasticsearch python 客户端 - 与许多节点一起工作 - 如何使用嗅探器

    我有一个包含 2 个节点的集群 我试图了解连接节点的最佳实践 并在一个节点出现停机时检查故障转移 from 文档 http elasticsearch py readthedocs io en master api html nodes e
  • python 在html中显示unicode

    我正在编写脚本将我的链接及其标题从 chrome 导出到 html Chrome 书签以 json 形式存储 采用 utf 编码有些标题是俄语的 因此它们存储如下 名称 u0425 u0430 u0431 u0440 import code
  • 如何告诉 WebStorm 在 Docker 容器中查找项目?

    我当前的项目目录如下所示 backend Dockerfile NestJS Dockerfile docker Folder that contains docker compose yml file package json src f
  • ERLANG - 将列表拆分为子列表

    嗨 这是我在这里的第一篇文章 希望你们一切都好 所以我刚刚开始 erlang 我遇到了一个问题 我还不知道如何解决 所以我收到的二进制文件格式为 lt lt 56 23 67 34 45 78 01 54 67 87 45 53 01 34
  • Django REST 框架 JSONParser().parse(request) 引发错误

    在 Django 视图中 我正在尝试这样做 csrf exempt def customer list request List all customers or create a new customer if request metho
  • 在整个视图控制器中多次调用presentViewController方法会导致iOS中的内存泄漏吗?

    我知道已经有很多与这个主题相关的讨论 但在所有讨论中都讨论了 2 个视图控制器 A B 我的情况类似但又不同 当有多个视图控制器 如 A B C D 时会发生什么 所以呈现流程如下 视图控制器 A 主页 呈现视图控制器 B 列表 然后从视图
  • INSERT 语句中出现“此处不允许列”错误

    我创建了这个名为 LOCATION 的表 通过做这个 CREATE TABLE LOCATION POSTCODE VARCHAR 10 PRIMARY KEY STREET NAME VARCHAR 20 CITY VARCHAR 20
  • 在 FastCGI 和 Octave 中重新定义标准输出

    我正在努力在 Ubuntu Linux 中使用 C C 在 FastCGI 会话中实现 Octave 解释器 我遇到的问题是 FCGI 重定向stdout to FCGI 标准输出 但预编译的 Octave 头文件仍然使用正常的stdout
  • Flex:组合框控件的自定义项目渲染器截断文本

    我已经实现了一个自定义项目渲染器 我正在处理的 Flex 项目上将其与组合框一起使用 它显示每个项目的图标和一些文本 唯一的问题是 当文本较长时 菜单的宽度无法正确调整 并且文本在显示时会被截断 我尝试调整所有明显的属性来缓解这个问题 但没
  • 如何将图像保存到sqlite数据库

    在我的课程中 我有一个方法可以在照片库中搜索图像 并接收从手机摄像头拍摄的图像 我现在需要将此图像保存在 sqlite 数据库中 我正在使用像 BLOB 这样的数据库字段 但不像在 bity 中序列化图像或在decode64 中进行转换以写
  • 在 GraphQL 架构中使用数字作为键?

    您可以使用 GraphQL Schema 语言在 GraphQL Schema 中使用数字作为键吗 即 这是一个小片段 type tax code allocation country KOR states 11 tax code allo
  • 将 `:map` 的输出获取到缓冲区

    我想得到无参数的输出 map调用 以便我可以使用 vim 的搜索功能来查找映射 我发现关于 redir 它将 ex 命令的输出重定向到变量 寄存器或文件中 但它似乎不适用于 map 它必须以某种不同的方式输出映射 例如 echo hello
  • 如何使用可旁加载的证书创建 UWP 应用

    我正在尝试创建一个可以侧载到其他电脑上的 UWP 应用程序 我的主要问题是 我是否需要来自可信来源的证书来签署我的应用程序 经过大量研究后 我了解到您可以通过应用程序旁加载 安装 UWP 应用程序应用程序安装程序 https www mic
  • 中介者模式与创建

    我的演示文稿中有几个需要相互交互的 小部件 但交互已经变得足够复杂 需要一个新对象来处理交互 在尝试通过中介者作为该对象进行工作时 我对如何有效地构建参与者感到困惑 中介者必须了解小部件 而小部件也必须了解中介者 使用下面的玩具类 有人可以
  • jquery 日期时间选择器设置 minDate 动态

    我正在使用trentrichardson com 的日期时间选择器 我有一个带有两个输入字段的表单 from and to我希望能够动态地将 minDate 设置为我的 to 字段 等于我的 from 字段的值 我知道我应该使用 befor
  • 从 Unix 时间戳转换为 Groovy 中的日期

    我有一个 unix 时间戳中的日期 我想将其转换为人类可读的 def dateUnix 1486146877214 Date dateObj new Date long dateUnix 1000 def cleanDate new Sim
  • 加载了错误的 Java 资源包

    在我的应用程序中 我使用 java 资源包来翻译其标签 我目前有两个文件 带有英语标签的 resources properties 默认语言 带有法语标签的 resources fr properties 然后 我使用以下命令加载捆绑包属性
  • XSLT - 识别具有相同属性值模式的连续节点

    我有这样的xml section p aa p p bb p p cc p p dd p p ee p p ff p p gg p p hh p p ii p p jj p p xx p p p section
  • 如何从 Java 中的内部 Thread Runnable 方法获取返回值?

    我该如何分配Status with CallMe using isFinish 返回值 true 吗 public static boolean isFinish boolean Status false new Thread new Ru
  • Solr、特殊字符和拉丁文到西里尔文字符转换

    我正在尝试使用 Solr 或 Lucene 设置一个搜索引擎 它可以包含带有特殊字符的拉丁语文本 特殊字符包括 或 作为示例 或西里尔字符 示例包括 或 和 无论如何 我正在尝试找到一个解决方案 让我可以搜索包含这些字符的单词 但对于键盘上