获取文本字段中最常用的 10 个单词

2024-02-21

我有一个包含数千个文档的索引，每个文档都有一个全文字段。

我想搜索所有这些字段并获取最常出现的 10 个最常见的单词。

如果可能的话，我还想要一种在 Kibana 上可视化它的方法。

实现此目的的最常见方法是使用keyword datatype。这将使你能够terms aggregation在那片土地上——doc here https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-terms-aggregation.html。也许你可以考虑做一个significant term aggregation - doc here https://www.elastic.co/guide/en/elasticsearch/reference/master/search-aggregations-bucket-significantterms-aggregation.html，从而避免出现停用词和常用词。在 ES 6.x 中你也可以使用significant text aggregation - doc here https://www.elastic.co/guide/en/elasticsearch/reference/master/search-aggregations-bucket-significanttext-aggregation.html，无需创建keyword领域，但我从未尝试过，我不知道它是如何工作的。相反，如果您需要检索每个文档的单词频率，您应该使用termvector - doc here https://www.elastic.co/guide/en/elasticsearch/reference/6.2/docs-termvectors.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

kibana

获取文本字段中最常用的 10 个单词的相关文章

Elasticsearch 崩溃后无法恢复

磁盘空间不足导致 Elasticsearch 分片崩溃三个节点现在为红色两个节点已恢复它们的状态为黄色 ES 的 CPU 利用率为 150 内存利用率很高正在尝试恢复它们但似乎存在一些版本匹配冲突我清理了磁盘空间并删除了分片的
LogStash 无法从许可证中检索许可证信息。响应代码“401”通过 URL“http://elasticsearch:9200/_xpack”联系 Elasticsearch

我正在努力让 Docker LogStash 连接到 Docker ElasticSearch 并启用 xpack 安全性主要日志有 logstash 1 2020 05 20T22 41 03 950 WARN deprecation
为什么我在elasticsearch中需要“store”：“yes”？

我真的不明白为什么核心类型链接 http www elasticsearch org guide reference mapping core types 它在属性描述中说例如对于数字 store 设置为 yes 将实际字段存储在索引中
Elasticsearch TransportClient NetworkPlugin NoClassDefFoundError

我期待将 Elasticsearch 集成到 Spring Boot Web 应用程序中这是创建传输客户端的配置 Configuration public class ElasticsearchConfig private Transpo
如何使用elasticsearch进行分页？来自 vs 滚动 API

我使用elasticsearch作为数据库来存储大量日志数据我知道有两种方法可以进行分页使用大小并来自 API 使用滚动API 现在我使用 from 进行分页从前端和后端获取页面和大小参数 Java searchSourceBuild
如何将2个匹配查询加入到elasticsearch的查询中？

我想查询以下数据user id is 1 and name is John 写一个常用的SQL很容易 select from t where user id 1 and name John 但对我来说进行elasticsearch的查询并不
如何使用 django-haystack 和 elasticsearch 后端进行模糊搜索？

看起来好像elasticsearch支持模糊查询 http www elasticsearch org guide reference query dsl fuzzy query http www elasticsearch org gui
将 ElasticSearch SearchResponse 对象转换为 JsonObject

我想将elasticsearch搜索结果转换为Json对象我还没有找到任何直接转换的正确方法 SearchResponse response client prepareSearch index setExplain true execu
在Windows Xampp上安装和使用elasticsearch php客户端

我下载的是elasticsearch 5 1 1 zip来自https www elastic co downloads elasticsearch https www elastic co downloads elasticsearch
Elasticsearch 单个字段的多个分析器

我使用严格的预定义映射将不同类型的文档存储在单个索引中它们都有一些字段例如 body 但我希望在索引时对它们进行稍微不同的分析例如对特定文档使用不同的标记过滤器并在搜索时以相同的方式处理据我所知分析器不能按文档指定我还考虑使
弹性搜索文档计数

我正在运行 2 2 版本的 Elastic 搜索我已经创建了索引并加载了示例文档我发现其中有些问题当我给予 GET index type count 我得到了正确的答案 count 9998 shards total 5 succes
弹性搜索 - search_after 参数

我读了这个doc https www elastic co guide en elasticsearch reference 5 0 search request search after html要理解 search after 并有两个
Elastic Beanstalk 添加多个 ssl 证书

我有一个 Docker Django api 应用程序可以从多个域 abc xyx com 或 def lmn com 调用我已从 Elastic beanstalk 中的配置控制台成功添加了 abc xyz com 的 ssl 证书
Elasticsearch：根据类型对不同字段进行排序

我的索引中有两种类型 Event and City 我正在尝试按日期将它们全部排序但是每种类型的日期字段名称都不同为了Event该值是在updated at领域和City日期是在update at其嵌套对象之一中的字段city eve
为 Logstash 中的新字段设置 Elasticsearch Analyzer

通过使用GROK filter 我们可以向Logstash添加新字段但是我想知道如何为该特定字段设置分析器例如我有一个新的 id 字段其中有一个字段例如a b 但是 Elasticsearch 附带的普通分析器会将其分解为a a
Elasticsearch 通过 id 获取不起作用但文档存在

我在 elasticsearch 1 2 0 最近从 1 0 1 升级上看到 ids 的奇怪行为搜索检索我的文档显示 id 的正确值终端 curl myServer 9200 global search q someField so
ElasticSearch - 尝试在 Windows 上启动服务时出错

昨天我在 Windows Server 2012 R2 上完成了 ElasticSearch 的安装并且能够正常启动 ElasticSearch 服务今天我安装了 Kibana 和 X Pack 但在尝试启动 ElasticSear
适用于elasticsearch 7.0.1 和 kibana 7.0.1 的 docker-compose.yml

我在 Windows 10 上将 Docker Desktop 与 Linux 容器结合使用并希望通过 docker compose 文件启动最新版本的 elasticsearch 和 kibana 容器使用 6 2 4 等旧版本时一切
在“spring-data-elasticsearch”4.0.4.RELEASE中，如何将SearchHits转换为Page？

In spring data elasticsearch4 0 4 发布 ElasticsearchRestTemplate s queryForPage 方法已弃用需要使用search 相反它返回SearchHits代替Page 那么
Elasticsearch 通过搜索返回拼音标记

我用语音分析插件 https www elastic co guide en elasticsearch plugins current analysis phonetic html由于语音转换从弹性搜索中进行一些字符串匹配我的问题是

随机推荐

修复 Tomcat 8 上的错误代码：ssl_error_no_cypher_overlap

我有一个便宜的 SSL 证书我想用 Tomcat 8 0 26 配置它我在 Linux 上运行以下命令来创建密钥库 root cert keytool import alias root keystore tomcat jks trus
为哈希选择合适的表大小

如果我有一个 1000 个键集我的哈希表的合适大小是多少如何确定它取决于负载系数表将增加其大小并重新分布其元素的满百分比点如果您知道正好有 1000 个条目并且该数字永远不会改变则只需将负载因子设置为 1 0 将初始大小设
使用 VBA 删除 Excel 中的工作表和数据透视表

我正在尝试在 VBA 中集成功率枢轴和枢轴图表的创建并已经完成了很大一部分然而我遇到了一个我似乎无法克服的问题我创建新的工作表在其中创建数据透视并将其导出为 PDF 完成后我删除数据透视表和工作表 Sub DeleteAllPi
在 Python 中测试所有组合

我有两组选择 optionList1 a1 a2 a3 an optionList2 b1 b2 b3 bn 选项列表中的元素数量不一定相等我必须从第一个选项列表中选择两次如何确保我已尝试了第一个列表中的 2 个选项和第二个列表中的一个
如何从外部函数更改局部静态变量值

include
JQuery .ressized，如何为alsoResize属性选择子级

我有弹出的窗口可以拖动和调整大小一切都很好除了我需要调整大小窗口来调整其中的 div 大小这可以通过设置轻松完成alsoResize selector 但是此窗口的每个实例都具有相同的 div 和相同的类名如果调整一个窗口的大小
openOptionsMenu 不适用于全屏

我有一个全屏模式的活动 android theme android style Theme NoTitleBar Fullscreen 我用按钮打开选项菜单 dmenu setOnClickListener new OnClickListe
ggsurvplot - 轴交叉于 0,0

Survminer产生不错的情节但有没有办法进一步改变常规的结果ggplot 命令我尝试做的是使 y 轴从原点开始如上所述here https stackoverflow com questions 13701347 force th
使用 ObjectDB 搜索空用户数据库时出现问题

我正在创建一个 java 应用程序它使用 ObjectDB 来创建和维护一组数据库我目前正在尝试实现一个数据库来存储由用户名和密码字符串组成的用户对象在 JFrame swing 类上我有一个用于创建新用户的按钮单击此按钮时我希
通过周围像素的平均值去除图像中的孔

任何人都可以帮助我用从相邻非零像素获取的值来填充这些黑洞谢谢做到这一点的一个好方法是解决线性热方程 http en wikipedia org wiki Heat equation 你要做的就是修复好区域像素的温度强度让热量流入坏
基本 Node.js 项目的“属性‘程序’不存在”

我创建了简单的node js应用程序源代码来自这里https azure microsoft com en us blog visual studio code and azure app service a perfect fit ht
明显的 BufferBlock.Post/Receive/ReceiveAsync 竞赛/bug

交叉发布到http social msdn microsoft com Forums en US tpldataflow thread 89b3f71d 3777 4fad 9c11 50d8dc81a4a9 http social msd
如何使 Onboarding 与 iOS13 中的 Scene Delegate 配合使用？

我正在尝试在 SceneDelegate 中设置我的入门屏幕当我运行下面的代码时它可以编译但只是进入黑屏其中有很多针对 AppDelegate 的精彩入门教程但针对 iOS13 的新 SceneDelegate 的入门教程却很少
如何查看 /bin/sh 指向的内容

我正在阅读 bin sh 和 bin bash 之间的差异并遇到了这个有趣的问题答案 here https stackoverflow com questions 5725296 difference between sh and ba
PHP：如果！空&空

所以我有这个表格有2个字段 Youtube 和链接我想做的如果已经填写了YouTube 应该这样做 if empty youtube if pos false echo Du skal indtaste youtube et URL
目前的iphone版本是否支持彩信？ [复制]

这个问题在这里已经有答案了可能的重复是否可以使用 iPhone SDK 发送图片消息 https stackoverflow com questions 5150271 is it possible to send a picture
实体框架 ObjectContext 分享 - 优缺点

在我的项目中我使用实体框架 4 0 作为 ORM 将数据保存在 SQL Server 中我的项目是应用程序的功能区主窗体中有网格视图和导航树其顶部有功能区面板我的应用程序基本上是一个 CRUD UI 几乎没有业务逻辑第一次使用
位域元素的默认值

在 C 11 中可以做 struct S int i 42 如果忘记初始化成员i它默认初始化为 42 我刚刚尝试过位域为 struct S int i 42 5 我正在得到错误预期为在标记之前位域成员是否存在此功能如果存在
JNI 的用处[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
获取文本字段中最常用的 10 个单词

我有一个包含数千个文档的索引每个文档都有一个全文字段我想搜索所有这些字段并获取最常出现的 10 个最常见的单词如果可能的话我还想要一种在 Kibana 上可视化它的方法实现此目的的最常见方法是使用keyword datatype

获取文本字段中最常用的 10 个单词

获取文本字段中最常用的 10 个单词 的相关文章

随机推荐

热门标签

获取文本字段中最常用的 10 个单词的相关文章