已分析与未分析：存储大小

2024-02-14

我最近开始使用 ElasticSearch 2。据我了解analyzed vs 未分析在映射中， not_analyzed 在存储中应该更好（https://www.elastic.co/blog/elasticsearch-storage-the-true-story-2.0 https://www.elastic.co/blog/elasticsearch-storage-the-true-story-2.0 and https://www.elastic.co/blog/elasticsearch-storage-the-true-story https://www.elastic.co/blog/elasticsearch-storage-the-true-story）。出于测试目的，我创建了一些索引，其中所有 String 字段都已分析（默认情况下），然后我创建了一些其他索引，所有字段都为 not_analyzed，当我检查索引的大小时，我发现索引与not_analyzed 字符串为 40%bigger!!我在每个索引中插入相同的文档（35000 个文档）。

知道为什么会发生这种情况吗？我的文档是简单的 JSON 文档。我在每个文档中有 60 个字符串字段，我想将它们设置为 not_analyzed，并且我尝试将每个字段设置为未分析并创建动态模板。

我编辑添加映射，尽管我认为它没有什么特别的：

    {
        "mappings": {
            "my_type" : {
                          "_ttl" : { "enabled" : true, "default" : "7d" },
                          "properties" : {
                                "field1" : {
                                    "properties" : {
                                        "field2" : {
                                            "type" : "string", "index" : "not_analyzed"
                                        }
                                        more not_analyzed String fields here
                                  ...
                              ...
                          ...
}

not_analyzed田野依然indexed。它们只是没有事先应用任何转换（“分析”——用 Lucene 的话说）。

举个例子：

（文档 1）“敏捷的棕色狐狸跳过了懒狗”

（文档 2）“像狐狸一样懒惰”

简化的帖子列表创建者标准分析仪（默认为analyzed字符串字段 - 标记化、小写、停用词删除）：

"brown": [1]  
"dog": [1]  
"fox": [1,2]  
"jumped": [1]  
"lazy": [1,2]  
"over": [1] 
"quick": [1]

30 个字符的字符串数据

简化的帖子列表创建者"index": "not_analyzed":

"The quick brown fox jumped over the lazy dog": [1]  
"Lazy like the fox": [2]

62 个字符的字符串数据

分析导致输入被标记化和规范化，以便能够使用术语查找文档。

但结果，文本单位被简化为标准化术语（与整个字段not_analyzed)，以及所有冗余（标准化）项跨所有文档被折叠成单一逻辑列表节省您通常会被重复术语和停用词占用的所有空间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

elasticsearch

已分析与未分析：存储大小的相关文章

向 ElasticSearch 术语聚合添加其他字段

索引文档如下 id 1 title Blah platform id 84 url http facebook com title Facebook 我想要的是按平台计数和输出统计数据为了计数我可以使用术语聚合platform id作为
Elasticsearch 崩溃后无法恢复

磁盘空间不足导致 Elasticsearch 分片崩溃三个节点现在为红色两个节点已恢复它们的状态为黄色 ES 的 CPU 利用率为 150 内存利用率很高正在尝试恢复它们但似乎存在一些版本匹配冲突我清理了磁盘空间并删除了分片的
分面搜索的后过滤器和全局聚合之间有什么区别？

搜索界面中的一个常见问题是您想要返回结果的选择但可能想返回有关所有文档的信息例如我想查看所有红色衬衫但想知道什么其他颜色可供选择这有时被称为多面结果或者多面导航这Elasticsearch 参考中的示例 https ww
在elasticsearch中过滤facet

我有一个如下查询 query query query string query s q filter ids values list ids facets destination terms field destination en hot
Elasticsearch 中的嵌套与对象

有人可以解释 Elasticsearch 文档中对象和嵌套字段之间的区别吗我知道默认情况下字段被定义为对象我还知道我可以用这样的点访问对象字段 my field name my field title 等对象的文档 http
如何在logstash.conf文件中创建多个索引？

我使用以下代码在logstash conf中创建索引 output stdout codec gt rubydebug elasticsearch host gt localhost protocol gt http index gt tr
在elasticsearch结果中显示不匹配的单词

我想显示返回文档的多单词查询不匹配哪些单词是否有查询类型或参数来实现此目的通常此类不匹配的单词会以删除线字体显示给用户我得到答案后的示例查询 POST posts search query bool should match nam
如何在 kibana 中自动配置索引模式

是否可以在 kibana 中自动配置索引模式要么通过一些设置文件要么通过rest api 安装后可以手动完成 Kibana 5 x 公开了这样的 API 来管理索引模式要创建索引模式可以发出以下命令来 kibana 访问 url 只
如何将2个匹配查询加入到elasticsearch的查询中？

我想查询以下数据user id is 1 and name is John 写一个常用的SQL很容易 select from t where user id 1 and name John 但对我来说进行elasticsearch的查询并不
随着索引和文档数量恒定，elasticsearch 批量索引会随着时间的推移而变慢

我遇到了使用 NET NEST 客户端和 ElasticSearch 进行批量索引的性能随着时间的推移索引数量和文档数量恒定而降低的情况我们正在奔跑ElasticSearch Version 0 19 11 JVM 23 5 b02在具
从 App Engine 连接到 Kubernetes 引擎

我们希望使用应用程序引擎灵活的流程来更新位于 Google Kubernetes Engine 上的 ElasticSearch 索引我们需要通过 http s 地址连接到 ElasticSearch 推荐的方法是什么我们不想将集群暴露
ElasticSearch 定义自定义映射与默认“_doc”映射冲突

尝试创建自定义映射类型时会发生此问题为第一个插入弹性创建自定义映射后想要创建 doc映射类型和冲突就发生在这里第一步我创建一个映射 mappings properties field1 type keyword field2 type
在Windows Xampp上安装和使用elasticsearch php客户端

我下载的是elasticsearch 5 1 1 zip来自https www elastic co downloads elasticsearch https www elastic co downloads elasticsearch
在 ElasticSearch API 应用程序中找不到 NodeBuilder

我正在尝试实现 Elasticsearch API 我的系统接受 nodeBuilder 时出现错误这是代码 import org elasticsearch action index IndexResponse import org e
如何使用ElasticSearch来实现社交搜索？

我正在尝试使用 ElasticSearch 创建具有社交功能的商业搜索我有一个企业目录用户可以通过不同的方式与这些企业进行交互通过查看它们检查它们等当用户搜索商家时我希望能够在结果顶部向他们显示他们的朋友与之互动过的商家或根据
search_after 在弹性搜索中如何工作？

我一直在尝试在我们的应用程序中使用 Elasticsearch 但分页限制为 10k 对我们来说实际上是一个问题并且由于必须超时问题滚动 API 也不是推荐的选择我发现 Elasticsearch 有一个叫做 search after
从 node.js 创建对 AWS ES 实例的有效签名请求

我试图找到一个示例说明如何连接到 Node js 中的 AWS ES 实例然后通过一个简单的请求访问 ES 集群我正在尝试使用elasticsearch节点包 https www npmjs com package elasticse
如何增加vm.max_map_count？

我正在尝试在 Ubuntu EC2 计算机 t2 medium 中运行弹性搜索但我收到消息最大虚拟内存区域 vm max map count 65530 太低至少增加到 262144 我怎样才能增加vm max map count v
AWS ElasticSearch Service - 从 CF 模板设置加密选项

我正在创建一个云形成模板来在AWS中配置elasticsearch服务域我想将加密下的此属性设置为 true 域的所有流量都需要 HTTPS 但我无法在 AWS 文档中找到执行此操作的方法用于设置加密属性的其他选项例如启用静态数据加
Facet从elasticsearch中的对象获取所有键

假设我有以下文档 title Some Title options key5 1 key3 0 key1 1 title Some Title options key2 0 key3 0 key5 1 我想从中获取所有钥匙options使用

随机推荐

传单中的javascript地图如何刷新

我通过使用传单 API 在 javascript 中有一个基本的 geoJson 程序 div style width 100 height 400px div
在 Laravel 8 中捕获 HTTP 客户端错误

你如何捕捉抛出的错误HTTP客户端 https laravel com docs 8 x http client 例如超时以便在您可以对错误执行任何操作以避免停止执行之前它不会在 Laraval 调试器在调试模式下中抛出curl 错
表视图中的文本标签太长，会影响正确的详细信息（detailTextLabel）被覆盖或不显示

我已经为该单元格设置了一个文本但是它显示的文本太长这会影响正确的详细文本被覆盖或不显示我无法更改它因为我需要下一个视图控制器中的名称是否可以使其仅显示文本后跟 EXAMPLE 电气电子工程 01 gt 传奇 Electrica
如何在插件架构中做到免注册COM

我们使用清单文件来实现免注册 COM 正如我在这另一个问题 https stackoverflow com questions 465882 generate manifest files for registration free com
在哪里添加 String 原型

我目前正在 Titanium Studio 中使用 JavaScript CommonJS 并且有一个关于原型设计的问题假设我想向现有的类添加一个新函数例如 String prototype trim function return t
运行应用程序中的 Grails 3.0 静态 html

之前曾就 grails 2 3 4 提出过类似的问题我觉得很奇怪我找不到一种方法来做到这一点因为这对我来说似乎是一个标准用例我只是想在运行 grails run app 时提供 html 页面包括它们链接的 css 和 js An
使用 asyncio 并行化生成器

我的应用程序从慢速 I O 源读取数据进行一些处理然后将其写入本地文件我已经用生成器实现了这个如下所示 import time def io task x print requesting data for input s x ti
您能否返回适用于任何可能的错误类型的结果？

我想使用多个库每个库都有自己的错误类型我并不真正关心每个特定板条箱的错误类型我想使用习惯用法是使用那些返回 a 的 crate 的方法Result type 我也不想解开这些值如果遇到错误这会导致恐慌我可能只是想使用传播不同的
光滑的旋转木马 - 强制幻灯片具有相同的高度

我在使用 Slick carousel JS 插件时遇到了多个问题幻灯片显示它们具有不同的高度我需要幻灯片相同高度但是对于 CSS flex box 它不起作用因为幻灯片具有冲突的 CSS 定义另外我在论坛和网络上没有找到任何有用
单例类与具有静态成员的类

尽管关于该主题的主题有很多但我仍然不清楚何时选择哪种方法我希望通过讨论一个具体的例子我最终能明白注意我这里的语言是 Cocoa 尽管一般问题不是特定于语言的我有一个类 TaskQueue 我想用它来从我的代码中的任何位置访问
在 Java 8 中使用两个具有相同签名的默认方法实现两个接口

假设我有两个接口 public interface I1 default String getGreeting return Good Morning public interface I2 default String getGreeti
如何将 jPCT 与 Vuforia SDK 结合使用？

有人可以概述一下混合 Jpct 和 Qualcomm Vuforia SDK 的情况吗将 Java 渲染引擎与 Vuforia 结合使用是个好主意吗基本上 QCAR 的全部工作就是计算变形的预定义目标图像的变换矩阵它为您提供了两个重要
新的 Angular2 路由器配置

回到使用已弃用的路由器时我能够执行 router config 并传入一个对象事实是路由器本身在应用程序启动后进行了一些配置该对象具有相同的模板就像我使用了 RouterConfig 一样我正在寻找的是是否有一种方法可以像这样
POST 403 Forbidden for Chrome 扩展（后端为 Django）

我以前从未开发过 Chrome 扩展程序目前正在为我的 Django 应用程序开发 Chrome 扩展程序具有链接提交功能当我尝试使用扩展程序提交链接时出现以下错误 POST http 127 0 0 1 8000 add link
找到未使用的 Javascript 函数？

我的应用程序中有大约 100 个 js 文件我需要从这些文件中找到未使用的函数哪个编辑器或工具可以帮助我看看JSLint http jslint com help html代码质量工具
如何在 Windows Phone 中对 LongListSelector 进行排序

我希望能够按升序或降序对绑定到 LongListSelector 的数据进行排序我无法将排序后的数据绑定到我的 LongListSelector 最初我的解决方案没有尝试实现排序而是有效的但我相信在涉及排序时我遗漏了一些东西我也尝
Google Play Android .apk 上传“无法运行 aapt dump badging”

自从我上次将应用程序上传到 Google Play 开发者控制台以来已经快一年了这是我已经签名并压缩对齐的 Cordova 应用程序按照我过去成功使用的相同流程我现在收到以下错误上传失败无法使用 aapt dump badging
使用 POST 在 R 中抓取动态表

我正在努力刮这张桌子 http myfwc com wildlifehabitats managed alligator harvest data export 使用 R 到目前为止我使用下面的代码只得到了 27 行我想取回所有条目并
在 iOS 上通过上传存储在云服务上的文件 0 字节

我无法弄清楚为什么某些从 iOS 上传到我们服务器的内容会导致空文件上传页面是一个简单的表单使用 POST 和 enctype 作为 multipart form data 该问题似乎仅在用户执行以下操作时才会出现正在使用 iOS 尝
已分析与未分析：存储大小

我最近开始使用 ElasticSearch 2 据我了解analyzed vs 未分析在映射中 not analyzed 在存储中应该更好 https www elastic co blog elasticsearch storage th

已分析与未分析：存储大小

已分析与未分析：存储大小 的相关文章

随机推荐

热门标签

已分析与未分析：存储大小的相关文章