如何在弹性搜索中获取整个索引的术语向量信息？而不是在文档级别

2024-01-09

根据弹性搜索文档，https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-termvectors.html https://www.elastic.co/guide/en/elasticsearch/reference/current/docs-termvectors.html，术语向量只能应用于文档。有什么方法可以在索引级别应用它。

我的用例是在应用英语停用词过滤器后计算添加到索引的所有文档中存在的字段（类型：字符串，基本上是一个句子）中所有 uni、bi 和 trigram 的频率。

Thanks.

使用术语向量存储文件中所有文档的一些统计数据shard（为什么不索引？...继续阅读）。

总术语频率（术语在所有文档中出现的频率）
文档频率（包含当前术语的文档数量）

要使其发挥作用，您必须为要分析的字段启用 term_vectors。最好通过添加来完成设置映射时将 term_vectors 添加到字段定义 https://www.elastic.co/guide/en/elasticsearch/reference/current/term-vector.html#term-vector因为计算是在索引时完成的，这可以加快术语向量检索的速度。

然后，在检索术语向量时，只需添加“term_statistics”参数，ttf 就会包含在输出中。看这个例子：

GET /twitter/_doc/1/_termvectors { "fields" : ["text"], "offsets" ：true，“有效负载”：true，“位置”：true，“术语统计” ：真的，“field_statistics”：true }

但是，请注意，如果索引使用多个分片，则 term_vectors 和依赖于 term_vectors 的“更像这样”查询并不准确。说不是这样的！ https://www.elastic.co/guide/en/elasticsearch/reference/5.4/docs-termvectors.html#_behaviour

术语和字段统计不准确。删除的文档是没有考虑到。该信息仅针对请求的文档所在的分片。术语和字段统计因此，仅作为相对测量有用，而绝对测量数字在这种情况下没有任何意义。

如果您想要准确的统计数据，则必须将索引设置为单个分片，这违背了使用弹性搜索的目的，因为您无法对单个分片进行集群。另一位 Stackoverflow 提交者也落入了这个陷阱。 https://stackoverflow.com/questions/41711305/getting-total-term-frequency-throughout-entire-index-elasticsearch?rq=1如果有人知道解决方案，请发帖。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在弹性搜索中获取整个索引的术语向量信息？而不是在文档级别的相关文章

ElasticSearch 多滚动 Java API

我想从索引中获取所有数据由于项目数量对于内存来说太大我使用滚动很好的功能 client prepareSearch index setTypes myType setSearchType SearchType SCAN setScro
无法使用docker在Apple Mac芯片M1上启动elasticsearch

在发布这个问题之前我浏览了许多链接例如 Kibana 无法在 Mac M1 上使用 docker 连接到 ElasticSearch https stackoverflow com questions 73160632 kibana c
如何使用ElasticSearch来实现社交搜索？

我正在尝试使用 ElasticSearch 创建具有社交功能的商业搜索我有一个企业目录用户可以通过不同的方式与这些企业进行交互通过查看它们检查它们等当用户搜索商家时我希望能够在结果顶部向他们显示他们的朋友与之互动过的商家或根据
Elasticsearch 数组必须和must_not

我的 elasticsearch 数据库中有一个如下所示的文档 tags gt tag 1 tag 2 tag 3 tag A created at gt 2013 07 02 12 42 19 UTC label gt Mon super
NEST 1.0：请参阅 Fiddler 上的请求

我刚刚更新到 NEST 1 0 我在远程服务器不是本地主机上有 Elastic Search 通常我在使用 Fiddler 发送和接收请求时没有任何问题更新后 bammm 没有检测到任何请求但我的应用程序发出这些请求没有任何问题你
Elasticsearch：根据类型对不同字段进行排序

我的索引中有两种类型 Event and City 我正在尝试按日期将它们全部排序但是每种类型的日期字段名称都不同为了Event该值是在updated at领域和City日期是在update at其嵌套对象之一中的字段city eve
Elasticsearch Nest 通配符查询（带空格）

简洁版本我想使用 Nest 编写一个弹性搜索查询来获取完整的索引项 ContentIndexables在我的例子中作为我的自定义类型已被索引该查询受 some string 术语查询的约束即 String StartsWith 其中
为 Logstash 中的新字段设置 Elasticsearch Analyzer

通过使用GROK filter 我们可以向Logstash添加新字段但是我想知道如何为该特定字段设置分析器例如我有一个新的 id 字段其中有一个字段例如a b 但是 Elasticsearch 附带的普通分析器会将其分解为a a
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
聚合多个递归logstash

我正在使用带有输入 jdbc 的 Logstash 并且希望通过聚合将一个对象嵌入到另一个对象中如何使用添加递归即在另一个对象中添加一个对象这是一个例子 index my index type test id 1 version 1
连接所有 PostgreSQL 表并创建 Python 字典

我需要加入allPostgreSQL 表并将它们转换为 Python 字典数据库中有72张表总列数大于1600 我编写了一个简单的 Python 脚本该脚本连接多个表但由于以下原因无法连接所有表内存错误 https gist git
如何在 Spring Boot 上针对 Openshift（基于云的 Kubernetes）部署的 Elasticsearch 实施带有自签名证书的 SSL

有谁知道如何在 Spring Boot 应用程序上使用 SSL 与以 https 形式部署在 Openshift 上的 ElasticSearch 连接我的 Spring Boot 应用程序中有一个 config java 如下所示 Co
当我使用完成建议器时，如何获得没有重复的独特建议？

我在我的环境中使用弹性 5 1 1 我在字段名称上选择了完成建议器post hashtags带有一个字符串数组来提供建议我收到前缀 inv 的响应如下 Req POST hashtag search pretty filter path
ElasticSearch bool should_not 过滤器

我是elasticsearch的新手所以我的问题是 bool 过滤器有 3 个部分 must All of these clauses must match The equivalent of AND must not All of th
Elasticsearch 可搜索合成字段

假设源文档 JSON 中存在几个名为的字段 a and b 属于类型long 我想构建一个综合字段例如c 通过用下划线连接前面字段的值和将其索引为keyword 也就是说我正在研究一个可以通过如下虚构的部分映射来支持的功能 a typ
在 Must bool 查询中使用正则表达式搜索与使用 Must_not bool 查询

我想进行类似的查询获取包含不包含给定字段的某些值的所有文档获取给定字段的值等于不等于某个值的所有文档根据我的映射字段是字符串类型这意味着它们支持关键字和全文搜索例如 myField type text fields
如何修改 Elasticsearch 文档的 _source 字段

问题有没有办法从文档的 source 中清除 html html 的剥离可以是周期性的触发的或者理想情况下是在索引时即时进行的我将数据输入到elasticsearch中并针对分析器进行索引该分析器在索引之前剥离不需要的htmls
如何将停用词添加到 ElasticSearch 中的默认列表

我想在默认值中添加更多单词 english 停止例如 inc incorporated ltd 和 limited 我怎样才能实现这一目标我当前创建索引的代码如下谢谢 PUT my index settings analysis fi
field 和 field.keyword 之间的区别

如果我将一个包含多个字段的文档添加到 Elasticsearch 索引中当我在 Kibana 中查看它时我每次都会得到相同的字段两次其中之一将被称为 some field 另一个将被称为 some field keyword 这种行为
如何使用 monolog ElasticSearchHandler 登录 Laravel 应用程序

Monolog 包含弹性搜索处理程序和格式化程序但它作为自定义通道对 Laravel 的实现并不像 Laravel 文档网站上描述的那么简单以下是如何执行此操作的简要分步说明为您的弹性搜索日志记录创建一个配置文件 config ela

随机推荐

.net core web api 中 JWT 令牌存储在哪里？

我正在使用 Web api 访问数据并且想要对 Web api 进行身份验证和授权为此我正在使用 JWT 令牌身份验证但我不知道应该在哪里存储访问令牌我想做的事 1 登录后存储token 2 如果用户想要访问Web api的任何方
H2版本从1.4.200更改为2.0.202问题？

我将 spring boot H2 依赖项从 1 4 200 升级到 2 0 202 但出现以下异常能否请你帮忙 Caused by org h2 jdbc JdbcSQLSyntaxErrorException Syntax error
适用于 Mac 的 MBProgressHUD？ - 可可

I m used to the iPhone API and I used MBProgressHUD a lot in my iPhone applications but since I started developing apps
querySelector 方法参数放入反引号中，为什么？

我已经开始使用 Javascript 30 令人烦恼的是给定的示例代码 const audio document querySelector audio data key e keyCode 为什么参数要放在反引号中我了解如何使用双引号和
使用 liquibase 标签将最大列值设置为序列起始值

我想知道是否可以从某个表中获取最大列值并将其设置为不使用纯 sql 的起始序列值以下代码不起作用
C++ 中 ::* 是什么意思？

什么是 private BOOL LASreader read simple mean 它来自 LAStools 在激光阅读器 hpp https github com LAStools LAStools blob master LASli
使用新的 java.time API 解析时区极其缓慢

我刚刚将一个模块从旧的 java 日期迁移到新的 java time API 并注意到性能大幅下降它归结为用时区解析日期我一次解析数百万个日期解析不带时区的日期字符串 yyyy MM dd HH mm ss 速度很快比旧的 java
引用和 Box 在内存中的表示方式有什么区别？

我试图了解参考文献和Box
我应该使用什么类型的算法？

假设我有四个组 A 0 4 9 B 2 6 11 C 3 8 13 D 7 12 现在我需要每组即一个新组 E num of A num of B num of C num of D 中的一个数字这样E中的最大num和E中的最小num之
在 Visual Studio 2015 Enterprise 中添加 C++ 预处理器指令的位置在哪里？

我在旧版本的 Visual Studio 中看到了类似的问题但在最新版本中没有看到类似的问题我正在学习 Lynda com 上的一门课程基本上讲师正在尝试以纯粹的形式使用 C 这对于在 Mac 上使用可视化 IDE 的学生来说看起来是
ruby resque 无需加载 Rails 环境

我有一个 resque 工作人员它工作得很好但太慢了主要原因是我正在使用 activerecord 并且必须加载整个环境这至少需要 10 20 秒才能加载我不会一直保持运行的工作线程因为我使用 Heroku 并付费工作人员运行的
存储应用程序全局数据

你好在整个应用程序中存储全局对象实例的最佳方法是什么这是我用来存储的以下代码String在应用程序上下文中我上课GlobalVariable java import android app Application public cl
使用 Javascript 注册“keydown”事件后 Textarea 出现滞后

如何将一堆代码附加到一个onkeydown事件但继续将文本输入到textarea又快又脆任何超过几个 IF 语句的东西似乎都会大大减慢速度 EDIT 我应该补充一点不敢相信我忘记了这不会影响桌面浏览器这主要是 iPhone Saf
如何在 Autohotkey 中拆分制表符分隔的字符串？

我将一系列制表符分隔的字符串复制到 Windows 剪贴板我想使用制表符将这些字符串拆分为数组 Unit Dept ID Name CORP 0368 Admin CORP 3945 Programmer SESHAN 4596 Soft
Oracle SQL：使用上一行计算值

我有一个包含两列的表 Cur value 和 Difference Cur value Difference 3 3 2 4 1 5 1 1 2 2 3 3 4 5 6 7 现在我想计算从第 1 行到第 7 行的 Char Value 的值
使用 mongoose 和 Nestjs 进行分页

我尝试使用 mongoose paginate 对一组值进行分页 class subNotes Prop Note string Prop Date Date Schema class Travel extends Document Pro
php上传文件功能

我正在尝试编写一个通过 html 表单上传文件的脚本当我点击提交时什么也没有发生文件 upload form html
WPF 自定义布局/虚拟化

这就是我试图通过 WPF 实现的目标作为标题的文本块和下面的按钮wrappanel问题是这需要滚动等我使用 ItemsControl 和每个组的绑定来实现这一点我有一个 ItemsControl 它有一个 stackpanel 作为
我如何让Python计算一个单词中有多少个字母？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我的编程课有一个实验室我需要知道如何让 python 计算一个单词中有多少个字母不包括空格谁能帮我吗这就是我到目前为止所拥有的 d
如何在弹性搜索中获取整个索引的术语向量信息？而不是在文档级别

根据弹性搜索文档 https www elastic co guide en elasticsearch reference current docs termvectors html https www elastic co guide

如何在弹性搜索中获取整个索引的术语向量信息？而不是在文档级别

如何在弹性搜索中获取整个索引的术语向量信息？而不是在文档级别 的相关文章

随机推荐

热门标签

如何在弹性搜索中获取整个索引的术语向量信息？而不是在文档级别的相关文章