是否可以将自定义元数据添加到 Lucene 字段？

2024-02-08

我已经到了需要存储一些有关 Lucene.Net 索引中特定字段来自何处的附加数据的地步。具体来说，我想在将字段添加到文档时将 guid 附加到文档的某些字段，并在从搜索结果中获取文档时再次检索它。

这可能吗？

Edit:好吧，让我举个例子来澄清一下。

假设我有一个对象，我希望允许用户使用自定义标签（如“个人”、“最喜欢的”、“某些项目”）进行标记。我通过向文档添加多个“标签”字段来实现此目的，如下所示：

doc.Add( new Field( "tag", "personal" ) );
doc.Add( new Field( "tag", "favorite" ) );

问题是我现在需要记录有关每个单独标签本身的一些元数据，特别是代表该标签来自何处的 guid（将其想象为用户 ID）。每个标签可能有不同的 guid，所以我不能简单地创建一个“tag-guid”字段（unless值的顺序被保留——请参阅下面的编辑 2）。我不需要为这些元数据建立索引（事实上，我不希望这样做，以避免元数据被命中），我只需要能够从文档/字段中再次检索它。

doc.GetFields( "tag" )[0].Metadata...

（我在这里编写语法，但我希望我的观点现在已经清楚了。）

Edit 2: 由于这是一个完全不同的问题，我为此方法发布了一个新问题：Lucene中多值字段的顺序稳定吗？ https://stackoverflow.com/questions/4951215/is-the-order-of-multi-valued-fields-in-lucene-stable

好吧，让我们尝试另一种方法......关键问题是同一字段名称（例如“标签”）下的多个字段值的不确定性。如果我可以在这里引入或获得某种确定性，我也许可以将元数据存储在另一个字段中。

例如，如果我可以依赖字段值的顺序永远不会改变，我可以使用值集中的索引来准确识别我所引用的标签。

当我稍后检索文档时，是否可以保证向字段添加值的顺序保持不变？

根据您对此索引的搜索要求，这可能是可能的。这样您就可以控制字段的顺序。当然，随着标签列表的变化，这需要更新这两个字段，但开销可能是值得的。

doc.Add(new Field("tags", "{personal}|{favorite}")); 
doc.Add(new Field("tagsref", "{1234}|{12345}"));

注意：使用 {} 可以让您在存在相似值的情况下限定搜索的唯一性。

示例：如果值存储为“person|personal|personage”，搜索“person”将返回包含 person、personal 或 personage 中任何一个的文档。通过像这样在大括号中进行限定：“{person}|{personal}|{personage}”，我可以搜索“{person}”并确保它不会返回误报。当然，这假设您在值中不使用大括号。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

是否可以将自定义元数据添加到 Lucene 字段？的相关文章

仅克隆雪花元数据

我想克隆 Snowflake 数据库的外壳仅元数据无数据这可能吗我检查了文档并没有找到解决方案如果您只是想获取现有数据库的空壳则可以克隆整个数据库然后编写脚本截断数据库中存在的所有表克隆不会添加任何数据并且克隆上的截断速度
将带有元数据的图像写入 MemoryStream 时，JpegBitmapEncoder.Save() 抛出异常

我正在尝试在 JPG 图像上设置没有元数据的元数据在这种情况下您不能使用就地编写器 InPlaceBitmapMetadataWriter 因为图像中没有元数据的位置如果我使用 FileStream 作为输出一切正常但如果我尝试使
如何使用特定日期的 Sitecore 项目进行 Lucene 搜索？

我的内容项目是 Sitecore 其日期字段名为 EventDate 我想使用 Lucene Net 搜索具有特定日期的项目下面是我尝试过的代码但没有得到结果 var index SearchManager GetIndex event
ElasticSearch 全文搜索

我尝试在elasticsearch java api 中使用正则表达式运行全文搜索我的过滤器是这样的 FilterBuilder qFilter FilterBuilders regexpFilter all text 但它只匹配一个单词
IntPoint 没有索引整数值

当我们尝试使用字段类型 IntPoint 对整数值进行索引时这些值似乎没有正确传输到我们的 Lucene 索引中我们正在使用 Lucene 6 0 根据 Lucene 文档的代码片段 doc add new IntPoint LENGT
如何使用其内容识别图像文件格式？

如果图像文件的格式为 png那么它将包含 PNG 位于文件的开头当读入Text mode 如果图像文件的格式为 bmp那么它将包含BM 位于文件的开头当读入Text mode 我知道图像格式在文件开头包含一定大小字节的文本数据这
在 lucene.net 中，我们可以在不给出字段名称的情况下搜索内容吗？它会搜索所有已索引的字段吗？

在 lucene net 中我们可以在不给出字段名称的情况下搜索内容并且它将搜索所有已索引的字段如果不提供字段名称则无法搜索内容但是您可以使用 MultiFieldQueryParser 在所有可用字段中进行搜索 E g Dim
如何获取 Angular 2 中当前模块的元数据？

我想获取当前的元数据NgModule为了得到列表declarations and providers为了填充动态模块我创建了一个在模态中显示组件的模块那怎么办呢您可以使用以下方式访问声明reflect metadata https g
每个领域都有不同的分析仪

如何为使用 Lucene 索引的文档中的每个字段启用不同的分析器例子 RAMDirectory dir new RAMDirectory IndexWriter iw new IndexWriter dir new StandardAna
如何以编程方式获取查找器中的“获取信息”窗格（Objective-c）？

我们右键单击一个文件夹或文件然后我们可以选择获取信息选项来显示一些信息我想知道我们是否可以通过 Objective c 来做到这一点 None
Solr 中的多值字段排序

我有一个 Solr 索引将每个产品的价格存储在多值字段中我需要按价格对结果集进行排序其中价格从低到高从高到低我尝试对价格进行排序它显示错误您无法对 multivalued True 字段进行排序下面是我的 solr XML
如何在 MSBuild 中获取扩展名（不带点）

我有一个 ItemGroup 并在 MSBuild 项目中使用其元数据作为标识符进行批处理例如
了解elasticsearch如何在内部存储日期

我想了解 ES 如何在其索引内部存储日期值它会转换为 UTC 吗我有一个日期类型的字段 t 这是映射 t type date 现在当我向 ES 插入添加文档时它如何存储在索引中 t 1427700477165 从 Date now
如何判断lucene索引版本？

我正在编写一个 shell 脚本 csh 它必须确定 lucene 索引版本然后根据该版本将索引升级到下一个版本所以如果 lucene 索引是 2 x 我必须将索引升级到 3 x 最后索引需要升级到6 x 由于升级索引是一个顺序过程
apache solr：group by 产生的数据总和

我们有一个要求需要按特定字段对记录进行分组并获取相应数字字段的总和前任 select userid sum click count from user action group by userid 我们尝试使用 apache solr
Lucene外来字符问题

我在使用 Zend Lucene 和等外来字符时遇到了一些严重的问题这些问题在创建索引和查询索引时都会出现我已经尝试过 iso 8859 1 和 utf 8 ISO 8859 1 不起作用的查询看起来像 area sk ne 使用 Z
如何添加到 OrientDB 中的空间索引？

我正在使用工作室的 OrientDB 2 0 我使用文档中的代码成功创建了 Lucene 空间索引 CREATE class Place extends V CREATE property Place name string CREATE
Lucene，索引已经/外部标记化的标记并定义自己的分析过程

在使用Lucene的过程中我有点失望我不明白或不明白我应该如何继续为任何 Lucene 分析器提供已经可直接索引的东西或者我应该如何继续创建我自己的分析器例如如果我有一个List
Solr：在带有空格的字符串上使用通配符

我的问题与这里讨论的问题基本相同带空格的 Solr 通配符查询 https stackoverflow com questions 10023133 solr wildcard query with whitespace 但这个问题没有得
cursorMark是无状态的以及它如何解决深度分页

作为指定here https cwiki apache org confluence display solr Pagination of Results光标标记是无状态的但我不明白它是如何解决无状态的深度分页问题的 solr 是否按唯一

随机推荐

用于传递和调用方法引用的 Lambda 语法

是什么用于传递和调用方法引用的 Lambda 语法场景根据值构建对象单选按钮 Enum http docs oracle com javase tutorial java javaOO enum html 我传递了枚举值的集合我希望
三个问题：NULL - NULL 定义了吗？是否已定义 (uintptr_t)NULL - (uintptr_t)NULL？ [复制]

这个问题在这里已经有答案了 Is NULL NULL定义 Is char NULL char NULL定义 Is uintptr t NULL uintptr t NULL定义我知道它适用于我使用的所有实现但从标准的角度来看它是什么样
加载图像毕加索打开失败：EACCES（权限被拒绝）

我想加载图像但出现此错误 storage emulated 0 productss Montearci products Bracelets airplane Brac 020 jpg open failed EACCES Permiss
无法正确验证java方法中的平衡括号解析

我有一个方法应该使用 java lang String 来验证字符串中准确的左括号和右括号此方法将用于解析数学表达式因此括号的平衡很重要由于某种原因它在这两次运行中都返回 false System out println parCh
通过只知道模式和表名来删除 postgresql 中的主键约束

据我所知在 postgresql 中删除主键的唯一方法是 ALTER TABLE schema tableName DROP CONSTRAINT constraint name 默认约束名称是tableName pkey 然而有时如果
使用 CollapsingToolbarLayout 时如何在 AppBarLayout 和滚动内容之间插入 LinearLayout

我将 CoordinatorLayout 与 CollapsingToolbarLayout 一起使用我试图将 LinearLayout 放在 AppBarLayout 下方和滚动内容上方并且我希望该 LinearLayout 始终固定
getView() （对于自定义 ListView ）不会在 notificationDatasetChanged() 上调用

我遇到了以下问题并搜索了一段时间但没有从网上得到任何解决方案我有一个自定义列表视图每个项目都有以下布局我只发布了必要的内容
如何从Python运行exe文件？

我尝试使用 os system 库从本地 python 项目中的特定路径运行 exe 在后台我已设法更改 cd 命令等文件夹但无法运行该文件这是针对在 Windows 64BIT Python 3 5 3 上运行的 python 项目
在 rstudio 中安装 rgdal 库 - libgdal 中未找到 GDALAllRegister

我正在尝试使用 Ubuntu 12 10 Quantal 和 R 2 15 1 Roasted Marshmallows 在 Rstudio 0 97 332 中安装 rgdal 库我在 Ubuntu 中安装了有关 gdal 的以下内容
仅列出已停止的 Docker 容器

Docker 为您提供了一种列出正在运行的容器或所有容器包括已停止的容器的方法这可以通过以下方式完成 docker ps To list running containers Or by docker ps a To list run
有没有办法找到重复的单词？

我正在尝试找到制作一个程序来查找 Excel 中所有重复的单词例如在 A1 中的某人在 A2 中的某人等但我会多次出现某人或另一个单词我需要将这些信息压缩在一起但我需要以一种我不这样做的方式来做到这一点无法手动搜索来
在开发中如何向 Django 提供 CSS？

我已经阅读了所有文档但它对我来说没有意义我运行了collectstatic 我在我的应用程序和项目目录中设置了 static 目录我将STATIC URL和STATIC ROOT添加到我的settings py文件中但我不知道如何知
尝试快速将协议添加到类签名中

我正在尝试快速创建应用内购买在我的班级签名中我有以下内容 class ViewController UIViewController UITextFieldDelegate UIAlertViewDelegate SKStoreProd
在 Tensorboard 投影仪中可视化 Gensim Word2vec 嵌入

我只看到了几个提出这个问题的问题但没有一个有答案所以我想我不妨尝试一下我一直在使用 gensim 的 word2vec 模型来创建一些向量我将它们导出为文本并尝试将其导入到嵌入投影仪的张量流实时模型中一个问题没用它告诉我张量
nginx 背后的 ASP.NET 5

我在 Nginx 服务器后面有一个 ASP NET 5 MVC6 应用程序充当反向代理它的配置是 server listen 80 server name example com location proxy pass http loc
使用 Mockito 和 PowerMockito 模拟类对象

是否可以使用 Mockito 和或 PowerMockito 模拟类对象就像是 Class
Java泛型如何接受泛型参数中的任何派生类型

在下面2行代码中 HashMap
Eclipse 如何终止正在运行的程序？

在 Eclipse 中当您运行程序时有一个漂亮的红色方形按钮可以停止它我想知道这是如何做到的 Eclipse 是否只是残酷地杀死相应的进程或者在温和地要求它终止自身或其他什么之前对进程状态进行一些很好的安全验证是的 Eclipse
Docker postgres 无效的主检查点记录

我一直在尝试让 postgres 在 Docker 在 Windows 上中运行并具有持久数据存储并认为我终于拥有了它但现在当我尝试启动容器时出现以下错误 LOG invalid primary checkpoint record
是否可以将自定义元数据添加到 Lucene 字段？

我已经到了需要存储一些有关 Lucene Net 索引中特定字段来自何处的附加数据的地步具体来说我想在将字段添加到文档时将 guid 附加到文档的某些字段并在从搜索结果中获取文档时再次检索它这可能吗 Edit 好吧让我举个例子来澄

是否可以将自定义元数据添加到 Lucene 字段？

是否可以将自定义元数据添加到 Lucene 字段？ 的相关文章

随机推荐

热门标签

是否可以将自定义元数据添加到 Lucene 字段？的相关文章