每个领域都有不同的分析仪

2024-04-17

如何为使用 Lucene 索引的文档中的每个字段启用不同的分析器?例子:

        RAMDirectory dir = new RAMDirectory();
        IndexWriter iw = new IndexWriter(dir, new StandardAnalyzer(Lucene.Net.Util.Version.LUCENE_CURRENT), true, IndexWriter.MaxFieldLength.UNLIMITED);
        Document doc = new Document();
        Field field1 = new Field("field1", someText1, Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS);
        Field field2 = new Field("field2", someText2, Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.WITH_POSITIONS_OFFSETS);
        doc.Add(field1);
        doc.Add(field2);
        iw.AddDocument(doc);
        iw.Commit();

分析器是 IndexWriter 的一个参数,但我想对 field1 使用 StandardAnalyzer,对 field2 使用 SimpleAnalyzer,我该怎么做?当然,搜索时也是如此。必须为每个字段应用正确的分析器。


每个字段分析器包装器 http://lucene.apache.org/core/old_versioned_docs/versions/3_0_0/api/core/org/apache/lucene/analysis/PerFieldAnalyzerWrapper.html就是您正在寻找的。 Lucene.net 中的等价物是here http://lucenenet.apache.org/docs/3.0.3/dc/df9/class_lucene_1_1_net_1_1_analysis_1_1_per_field_analyzer_wrapper.html.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

每个领域都有不同的分析仪 的相关文章

  • 如何检查 Lucene IndexWriter 实例是否有效/打开?

    抱歉这个简单的问题 但似乎没有任何明显的方法 根据文档 建议保留单个实例IndexWriter存储在内存中 可以一次又一次地用于更新 而不是为每次更改打开和关闭一个内存 这要昂贵得多 然而 文档还指出IndexWriter如果发生异常 例如
  • Solr 中的 docValues 是什么?我什么时候应该使用它们?

    因此 我阅读了多个来源 试图解释 Solr 中的 docValues 是什么 但我似乎不明白何时应该使用它们 尤其是与索引字段和存储字段相关的时候 谁能解释一下吗 Solr 中的 docValues 是什么 Doc Values 可以解释为
  • 在 Lucene 中正确索引纬度和经度值

    我正在使用 Lucene API 开发 给定半径内基于 美国的最近城市搜索 功能 我在 Lucene 中索引城市的纬度和经度值 如下所示 doc Add new Field latitude paddedLatitude Field Sto
  • 用于索引和搜索的 Lucene 分析器

    我有一个正在使用 Lucene 建立索引的字段 如下所示 Field name hungerState index Index TOKENIZED store Store YES public HungerState getHungerSt
  • Hibernate 搜索中的重复过滤器

    我知道Lucene中有一个内置的DuplicateFilter 可以对Lucene的结果进行重复数据删除 对于用户在重复率非常高的文档数据库上进行搜索来说 这是一个非常重要的功能 由于我正在使用 Hibernate Search 进行全文索
  • 在 Elasticsearch 和 Lucene 4.4 中使用 Shingles 和停用词

    在我正在构建的索引中 我有兴趣运行查询 然后 使用方面 返回该查询的带状疱疹 这是我在文本上使用的分析器 settings analysis analyzer shingleAnalyzer tokenizer standard filte
  • 如何使用Lucene实现拼音搜索?

    我想使用 Lucene 6 1 0 Soundex 或任何适合葡萄牙语的算法来实现语音搜索 我在互联网上发现了许多不完整的示例 教如何实现自定义分词器 分析器 但似乎这些示例上使用的抽象类在 6 1 0 版本中并不相同 谁能指出我在哪里可以
  • 如何查找相似文档

    如何在 Lucene 中找到给定文档的相似文档 我不知道文本是什么 我只知道文档是什么 有没有办法在lucene中找到类似的文档 我是新手 所以我可能需要一些指导 你可能想检查 lucene 的 MoreLikeThis 功能 MoreLi
  • Elasticsearch 6.2 / Kibana查询:一字段必须存在,一字段不能存在

    我的愿望是搜索 field 存在且 fields b 不存在的文档 有没有办法使用 Kibana 中的 Lucene 查询语法 Kibana 的 发现 部分中的 搜索 字段 来执行此操作 我尝试过使用 缺失 字段 b没有成功 exists
  • Lucene索引:查询时得到空结果

    我正在尝试使用 Lucene 索引进行查询 但在日志中得到空结果和以下错误 Traversal query query without index select jcr path from nt base where isdescendan
  • 在 lucene 中搜索 UUID 不起作用

    我有一个 UUID 字段 以以下格式添加到我的文档中 372d325c e01b 432f 98bd bc4c949f15b8 但是 当我尝试通过 UUID 查询文档时 无论我如何尝试转义表达式 它都不会返回它们 例如 uuid 372d3
  • Lucene:如何在单个字段下索引和搜索多个值

    如何在单个字段下索引和搜索多个值 例如说我有一个领域处理器这可能有i3 i5 i7 or i3 or i3 i5价值观 现在想象一下笔记本电脑的数据如下 data1 name laptop name price laptop price p
  • 本地/离线网站“站点”的全文搜索[重复]

    这个问题在这里已经有答案了 可能的重复 通过 javascript 对 CD Rom 上的静态 HTML 文件进行全文搜索 https stackoverflow com questions 1357173 full text search
  • 了解elasticsearch如何在内部存储日期

    我想了解 ES 如何在其索引内部存储日期值 它会转换为 UTC 吗 我有一个日期类型的字段 t 这是映射 t type date 现在 当我向 ES 插入 添加文档时 它如何存储在索引中 t 1427700477165 从 Date now
  • Elasticsearch 中的嵌套与对象

    有人可以解释 Elasticsearch 文档中 对象 和 嵌套 字段之间的区别吗 我知道默认情况下字段被定义为对象 我还知道我可以用这样的点访问对象字段 my field name my field title 等 对象的文档 http
  • 在具有多个 Web 服务器的现有 .NET / SQL Server 堆栈上实施 Lucene

    我想考虑使用 Lucene 为我当前管理的网站提供全文搜索解决方案 该网站完全基于 SQL Server 2008 C NET 4 技术构建 我要索引的数据实际上非常简单 每个记录只有几个字段 并且只有其中一个字段实际上是可搜索的 我不清楚
  • Solr MoreLikeThis 不适用于多个分片?

    我在 SolrCloud 中有 5 个节点集群 每个节点有 2 个分片 Solr版本 6 3 0 现在 当我运行 mlt 查询时 它仅返回每个节点的结果 并且不会将它们分布在所有分片 节点上 即 没有给出任何结果 给出结果 我什至尝试将其指
  • Lucene 评分:在什么情况下使用 queryNorm?

    我对 lucene 的评分策略有点困惑 我知道Lucene的评分公式是这样的 score q d coord q d x queryNorm q X SUM
  • Solr 过滤查询 - 字符串与整数

    假设我正在尝试查询一堆具有类别的文档 并且我想将查询限制为指定的类别 据我所知 这只是使用 fq 参数 过滤器查询 我想知道将参数设置为整 数而不是字符串或数据通常的情况是否会提高性能 我只是会在右侧犯错 但我想我应该仔细检查一下 以防万一
  • 如何添加到 OrientDB 中的空间索引?

    我正在使用工作室的 OrientDB 2 0 我使用文档中的代码成功创建了 Lucene 空间索引 CREATE class Place extends V CREATE property Place name string CREATE

随机推荐

  • 开发在线考试应用程序,如何防止作弊?

    我的任务是为一所小型大学开发在线考试软件 我需要实施防止作弊的措施 您对如何做到这一点有什么想法 我想可能禁用所有 IE Firefox 选项卡 或者一些如何记录互联网活动的选项卡 以便我知道他们是否在谷歌搜索 anwsers 是否有任何现
  • 如何将 LINQ Distinct() 与多个字段一起使用

    我有以下内容EF class从数据库导出 简化 class Product public string ProductId public string ProductName public string CategoryId public
  • akka 远程处理中出现“最大允许大小 128000 字节,编码类 scala 的实际大小”错误

    我想使用 Akka Remoting 在参与者之间通过网络交换消息 但是对于大型字符串消息 我收到以下错误 akka remote OversizedPayloadException Discarding oversized payload
  • GitHub 将多个提交合并为一个

    我搜索了很多但没有找到类似的问题 假设我有两个分支 分支 S 稳定 和分支 E 实验 实验是从 稳定 分支创建的 我一直在 E 分支上执行 git add A git commit m my new commit git push orig
  • ping 请求会给服务器带来负载吗?

    我有很多客户 大约4000个 每个客户端每 2 秒 ping 一次我的服务器 这些 ping 请求会给服务器带来负载并减慢速度吗 我怎样才能监控这个负载 现在服务器响应缓慢 但处理器几乎空闲 可用内存也可以 我在 Ubuntu 上运行 Ap
  • 乘积对符号数量的变量的偏导数之和

    我希望 SymPy 计算如 下所示的表达式 我如何定义符号和表达式以便 SymPy 可以很好地处理它 我想保留N只是一个符号 即不制作实际的有限列表x的 我尝试过各种组合IndexedBase and Sum Product 但没有让它正常
  • Github API:过早获取超出速率限制的问题

    我正在构建一个应用程序来获取问题和拉取请求 https developer github com v3 超过 1K 的 github 存储库 就像这样 curl i https api github com repos user repo
  • 我需要一个在 python 中使用面板重叠诅咒窗口的示例

    我正在寻找有关如何使用的示例curses panel保持重叠的窗口 我在这里找到了这个https mail python org pipermail python list 2001 April 105015 html https web
  • 在 MVC 中从同步调用异步而没有等待时,TPL 任务死锁

    我知道在同步 MVC 方法中调用异步方法 同时使用 Wait 或 Result 等待任务完成时 存在 TPL 死锁陷阱 但我们刚刚在 MVC 应用程序中发现了一个奇怪的行为 同步操作调用异步方法 但由于它是触发器 因此我们从未等待它完成 尽
  • 如何检查线程是否终止?

    线程什么时候到达终止地位 结束时是否会终止run 方法达到了 那么检查线程是否终止的正确方法是什么 因为以下条件对我来说似乎总是成立 if thread getState equals TERMINATED 有任何想法吗 First Thr
  • 如何读取 XML 文件的 php DOM 中的分隔符?

    我有一些 XML 文件 我必须读取它们并将其转换为 HTML XML 的格式是这样的
  • 使用 jQuery 拖放时保留元素的副本

    我正在使用 Jquery 拖放功能 并且我想保留正在拖动的元素的副本 draggable draggable revert invalid stack draggable helper clone droppable droppable a
  • Angular 4 多个字段的表单验证

    EDIT 我想要实现的是对单个 formControl 而不是整个表单的验证 验证器应该检查所有原子字段 如门牌号 街道等 然后使谷歌地图输入控件无效 我正在使用 Google 地图自动完成功能编写表单 用户应在触发 Google 地图自动
  • 如何正确处理httpStatuscode

    我想使用新功能 http api jquery com jQuery ajax 对 http 状态代码 如 200 201 或 202 做出反应 但该函数忽略了我的 201 和 202 回调 firefox 4 0 b10 和 chromi
  • 如何在matlab中检查字符串中的模式?

    我想检查字符串中是否存在特定模式来执行某些操作 filename pathname uigetfile fullpath pathname filename 在我的程序中 我只会浏览图片 所有图片都以该模式命名 cam1 jpg cam1
  • 更改特定 WooCommerce 电子邮件通知的发件人姓名和电子邮件地址

    如何在 WooCommerce 中更改特定电子邮件通知的电子邮件发件人地址和姓名 例如 更改发件人姓名和电子邮件地址仅用于客户处理订单电子邮件通知 但不适用于所有电子邮件通知 仅适用于特定电子邮件通知 发件人姓名和电子邮件地址在此处设置 在
  • 如何从 Mac OS 中的 SwiftUI 列表中删除底部/顶部项目填充

    我很难使用 SwiftUI 从 MacOS 中的单元格中删除所有填充 即使在苹果的代码中我似乎也无法做到这一点 https developer apple com tutorials swiftui creating a macos app
  • 在 TypeScript 中创建全局变量

    在 JavaScript 中我可以这样做 something testing 然后在另一个文件中 if something testing 它将有something被定义 只要它们以正确的顺序被调用 我似乎不知道如何在 TypeScript
  • WP7 难以将数据绑定到列表框项目源 - 不会刷新

    因此 我的 WP7 应用程序上有一个详细信息页面 其中显示了一个列表框 其中显示了我的应用程序中的一些数据 在代码隐藏中 我将列表框 itemssource 设置为对象集合 到目前为止非常简单 我在同一屏幕上还有几个文本框和一个按钮 可以让
  • 每个领域都有不同的分析仪

    如何为使用 Lucene 索引的文档中的每个字段启用不同的分析器 例子 RAMDirectory dir new RAMDirectory IndexWriter iw new IndexWriter dir new StandardAna