使用 ElasticSearch 搜索全球位置名称的有效方法是什么？

2024-01-07

我有以下提供的位置信息地名网 http://www.geonames.org/解析成关系数据库。使用这些信息，我尝试构建一个 ElasticSearch 索引，其中包含人口稠密的地名（城市）名称、行政区划（州、省等）名称、国家/地区名称和国家/地区代码。我的目标是提供类似于 Google 地图的位置搜索：

我不需要很酷的粗体突出显示，但我确实需要搜索以类似的方式返回类似的结果。我尝试使用由整个位置名称组成的单个位置字段（例如“美国德克萨斯州朗德罗克”）创建映射，并且我还尝试使用由位置的每个部分组成的五个单独的字段。我尝试过关键字和前缀查询以及edgengram分析器；我一直未能找到正确的配置来使其正常工作。

我应该使用哪些类型的分析器（索引和搜索）来实现我的目标？这个搜索不必像谷歌那样完美，但我希望它至少是相似的。

我确实想支持部分名称匹配，这就是为什么我一直在摆弄edgengram。例如，搜索“round r”应匹配 Round Rock, TX, United States。另外，我希望填充的地名（城市）名称以确切的搜索词开头的结果的排名高于其他结果。例如，搜索“round ro”应先匹配 Round Rock, TX, United States，然后再匹配 Round, Some Province, RO（罗马尼亚）。我希望我已经说得足够清楚了。

这是我当前的索引配置（这是 C# 中的匿名类型，稍后序列化为 JSON 并传递给 ElasticSearch API）：

settings = new
{
    index = new
    {
        number_of_shards = 1,
        number_of_replicas = 0,
        refresh_interval = -1,
        analysis = new
        {
            analyzer = new
            {
                edgengram_index_analyzer = new
                {
                    type = "custom",
                    tokenizer = "index_tokenizer",
                    filter = new[] { "lowercase", "asciifolding" },
                    char_filter = new[] { "no_commas_char_filter" },
                    stopwords = new object[0]
                },
                search_analyzer = new
                {
                    type = "custom",
                    tokenizer = "standard",
                    filter = new[] { "lowercase", "asciifolding" },
                    char_filter = new[] { "no_commas_char_filter" },
                    stopwords = new object[0]
                }
            },
            tokenizer = new
            {
                index_tokenizer = new
                {
                    type = "edgeNGram",
                    min_gram = 1,
                    max_gram = 100
                }
            },
            char_filter = new
            {
                no_commas_char_filter = new
                {
                    type = "mapping",
                    mappings = new[] { ",=>" }
                }
            }
        }
    }
},
mappings = new
{
    location = new
    {
        _all = new { enabled = false },
        properties = new
        {
            populatedPlace = new { index_analyzer = "edgengram_index_analyzer", type = "string" },
            administrativeDivision = new { index_analyzer = "edgengram_index_analyzer", type = "string" },
            administrativeDivisionAbbreviation = new { index_analyzer = "edgengram_index_analyzer", type = "string" },
            country = new { index_analyzer = "edgengram_index_analyzer", type = "string" },
            countryCode = new { index_analyzer = "edgengram_index_analyzer", type = "string" },
            population = new { type = "long" }
        }
    }
}

这可能就是您正在寻找的：

  "analysis": {
    "tokenizer": {
      "name_tokenizer": {
        "type": "edgeNGram",
        "max_gram": 100,
        "min_gram": 2,
        "side": "front"
      }
    },
    "analyzer": {
      "name_analyzer": {
        "tokenizer": "whitespace",
        "type": "custom",
        "filter": ["lowercase", "multi_words", "name_filter"]
      },
    },
    "filter": {
      "multi_words": {
        "type": "shingle",
        "min_shingle_size": 2,
        "max_shingle_size": 10
      },
      "name_filter": {
        "type": "edgeNGram",
        "max_gram": 100,
        "min_gram": 2,
        "side": "front"
      },          
    }
  }

我认为使用name_analyzer将复制您正在谈论的谷歌搜索。您可以稍微调整配置以满足您的需求。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 ElasticSearch 搜索全球位置名称的有效方法是什么？的相关文章

局部敏感哈希 - Elasticsearch

有没有允许在 Elasticsearch 上使用 LSH 的插件如果是的话您能否指出该位置并告诉我如何使用它谢谢编辑我发现ES使用了MinHash插件我怎样才能用这个来比较文件呢查找重复项的最佳设置是什么有一个Elastic
如何在从左到右、从上到下排序的二维数组中搜索数字？

我最近收到了这个面试问题我很好奇有什么好的解决方案假设我有一个二维数组其中所有数组中的数字在增加从左到右从上到下的顺序底部搜索和搜索的最佳方式是什么判断目标号码是否在大批现在我的第一个倾向是使用二分搜索因为我的数据
在 Elastic 搜索中加载示例数据集时出错

您好我正在尝试加载示例数据集参考弹性搜索文档 https www elastic co guide en elasticsearch reference current exploring your data html但是当我尝试运行指示
C# Elasticsearch NEST 无法转换 lambda 表达式

我遇到了与此处描述的完全相同的问题但未得到解答 ElasticSearch NEST 搜索 https stackoverflow com questions 24615676 elasticsearch nest search I us
将 ElasticSearch SearchResponse 对象转换为 JsonObject

我想将elasticsearch搜索结果转换为Json对象我还没有找到任何直接转换的正确方法 SearchResponse response client prepareSearch index setExplain true execu
如何使用KDTrees实现最近邻搜索？

所以我正在实施一个KD Tree http en wikipedia org wiki Kd tree进行最近邻搜索我已经构建了树部分但我认为我没有完全理解搜索部分关于遍历树来搜索邻居维基百科文章如下 Starting with
无法使用docker在Apple Mac芯片M1上启动elasticsearch

在发布这个问题之前我浏览了许多链接例如 Kibana 无法在 Mac M1 上使用 docker 连接到 ElasticSearch https stackoverflow com questions 73160632 kibana c
Nest Elastic - 构建动态嵌套查询

我必须使用 Nest 查询嵌套对象但是查询是以动态方式构建的下面的代码演示了以静态方式对嵌套书籍进行查询 QueryContainer qry qry new QueryStringQuery DefaultField name D
自定义“可搜索”搜索字段 SwiftUI iOS 15

When using the new searchable modifier in SwiftUI on iOS 15 I have no way to customize the Search Bar appearance Specifi
在 O(n) 时间内找到 n x n 矩阵中的局部最小值

所以这不是我的家庭作业问题而是取自 coursera 算法和数据结构课程的未评分作业现已完成 You are given an n by n grid of distinct numbers A number is a local m
如何从许多相似的名称中标准化城市名称

我从第三方 API 获取城市名称该 API 不返回规范化的城市名称例如有时其San Francisco 有时它的San Francisco CA 有时它的San Francisco USA 我不需要街道地址等我只需要将城市名称规范化
Elasticsearch - 使用“标签”索引来发现给定字符串中的所有标签

我有一个 elasticsearch v2 x 集群其标签索引包含大约 5000 个标签 tagName tagID 给定一个字符串是否可以查询标签索引以获取在该字符串中找到的所有标签我不仅想要精确匹配而且还希望能够控制模糊匹配
ElasticSearch 映射对分组文档进行折叠/执行操作的结果

有一个对话列表每个对话都有一个消息列表每条消息都有不同的字段和action场地我们需要考虑到在对话的第一条消息中使用了动作A 在几条消息之后有使用的动作A 1过了一会儿A 1 1等等有一个聊天机器人意图列表对对话的消息操作进行分组
Elasticsearch 在 Mac 上存储数据的位置

类似的问题this one https stackoverflow com questions 24694201 where are data files of elasticsearch on a standard debian inst
如何在 Visual Studio 中搜索并让它忽略注释掉的内容？

我正在 Visual Studio 2005 中重构 C 代码库我现在已经完成了这个过程的一半我已经注释掉了很多旧代码并替换或移动了它现在我正在搜索看看下一步必须更改但搜索功能不断为我带来我不再关心的旧注释掉的内容我还不想删除旧
Elasticsearch 无法写入日志文件

我想激活 elasticsearch 的日志当我运行 elasticsearch 二进制文件时我意识到我在日志记录方面遇到问题无法加载配置这是输出 sudo usr share elasticsearch bin elasticse
设置 verify_certs=False 但 elasticsearch.Elasticsearch 因证书验证失败而引发 SSL 错误

self host KibanaProxy 自我端口 443 self user 测试 self password 测试我需要禁止证书验证使用选项时它与curl一起使用 k在命令行上但是在使用 Elasticsearch pytho
JAVA：如何搜索地图？

我有一个 Map 其键为字符串其值为集合包含整数假设我的钥匙看起来像苹果香蕉橙色等用户输入文本我将其保存为字符串变量如何在我的地图中搜索相同的密钥因此如果用户输入 apple 我如何将该字符串提供给方法并让该方法在我
在一个后台为MYSQL的网站上集成搜索

我有一个位置搜索website http www jammulinks com对于一个城市我们首先收集该城市所有可能类别的数据如学校学院百货商店等并将其信息存储在单独的表中因为每个条目除了名称地址和电话号码外都有不同的详细信息
AWS ElasticSearch Service - 从 CF 模板设置加密选项

我正在创建一个云形成模板来在AWS中配置elasticsearch服务域我想将加密下的此属性设置为 true 域的所有流量都需要 HTTPS 但我无法在 AWS 文档中找到执行此操作的方法用于设置加密属性的其他选项例如启用静态数据加

随机推荐

PHP include_once

使用 PHP 效率更高吗include once or require once而不是使用类似 C 的include带头护罩 I e include once init php versus include init php content
如何将 YouTube 句柄映射到频道 ID

YouTube 最近推出handles https www youtube com handle他们为用户提供了 youtube com xxx 类型的用户名当访问这些 URL 时会显示用户的频道但我在 API 存储库中找不到任何文档或
在 ASP.NET Core 中，IoC ASP 启动类是否解决了托管可扩展性框架通过目录和容器解决的问题？

我读过这篇文章 MEF 托管可扩展性框架与 IoC DI https stackoverflow com questions 108116 mef managed extensibility framework vs ioc di但它已经
centos中前台运行mysql

我正在为 mysql 数据库构建 docker 镜像为此我必须在前台运行 mysql 而不是作为守护服务运行我正在使用 centos 基础镜像如何让mysql在前台运行如果你跑mysqld safe CMD mysqld safe
如何检查 $_GET 参数是否存在但没有值？

我想检查是否app参数存在于 URL 中但没有值 Example my url php app I tried isset and empty 但不起作用我以前见过它是怎么做的但我忘记了空是正确的你想同时使用 is set 和 e
在 hg 状态中显示重命名？

我知道 Mercurial 可以跟踪文件的重命名但我如何才能跟踪文件的重命名show当我这样做时我会重命名而不是添加删除hg status 例如而不是 A bin extract csv column pl A bin find m
如何在 matlab 中读取具有可变十六进制值列的文本文件？

我有一个相当大的文本文件超过 16 000 行其格式如下 ID Line Num Var Col Length Values HEX 45 00001 FFFF FFFF 0000 0000 45 00002 0000 0000 FFF
回形针：一个模型中存在多个“has_attached_file”

我的模型片段 attr accessible package1 file name package2 file name has attached file package1 has attached file package2 来自我的
.NET 类何时应重写 Equals()？什么时候不应该？

VS2005文档重载 Equals 和运算符的指南 C 编程指南 http msdn microsoft com en us library ms173147 28v vs 80 29 aspx部分状态不建议在非不可变类型中重写运算符
如何加快 Pandas 多级数据帧总和？

我正在尝试加快几个大型多级数据帧的求和速度这是一个示例 df1 mul df 5000 30 400 mul df to create a big multilevel dataframe let df2 df3 df4 df1 df1
如何从powershell获取返回值并将其放入批处理文件中？

我正在尝试使用命令从批处理文件执行 powershell Powershell namefile ps1 PowerShell 返回一些值 1 4 0 和 1 如何从批次中获取这些值当我使用 errorlevel 时它只返回0 这意味着
Delphi 快速应用程序开发在可重用性方面的最佳实践 [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 使用Delphi开始新项目时如何提高
如何从 ASP NET Core 控制器获取 JWT 令牌？

我正在尝试向受保护的 API 发出请求因此我需要向 HttpClient 添加授权请求标头如下所示 client DefaultRequestHeaders Authorization new AuthenticationHeaderV
等待 Excel 使用 VBA 完成填充 Bloomberg 数据

我有一个包含约 300 000 个 BDH 公式的 Excel 工作表来下载证券价格我想要打开文件并获取所有价格将它们粘贴为值保存并关闭文件但是我不知道 Excel 何时完成填充 Bloomberg 数据因此很难确定执行 2
使用 DirectShow 获取 MP4 文件持续时间

我需要获取 mp4 文件的持续时间最好是以秒为单位的双倍时间我正在使用 DirectShow 请参阅下面的代码但它不断抛出一个特别无用的错误我想知道是否有人有一个简单的解决方案说真的谁知道获取这些信息会如此困难 public s
设置新发布管道时，Azure DevOps 服务连接不显示

我已在 Azure DevOps 中设置了到我的 Azure 订阅的服务连接它使用证书进行连接当我创建新管道并选择任务时Azure App Service Deploy 在 Azure 订阅的下拉框中我在可用 Azure 服务连接
使用 OpenCV 测量物体的表观长度（以像素为单位）

我用过从不同角度姿势渲染 3D 对象的不同图像该对象具有彩色边缘如图所示现在我的目标是测量橙色和蓝色边缘的长度 Lo 和 Lb 以像素为单位使用 OpenCV 如果边缘由单个像素组成即由单个边缘组成的线那么这将是一项简单的任
使用内部支持的优化器优化 scikit-learn 中 GPR 的 RBF 内核的内核参数

平方指数或RBF核的基本方程如下这里 l 是长度尺度 sigma 是方差参数长度比例控制两个点的相似程度因为它只是放大 x 和 x 之间的距离方差参数控制函数的平滑程度我想用我的训练数据集优化训练这些参数 l 和 sigma 我
如何以编程方式使 UIStackView 与 UIScrollView 一起滚动？

我见过几种解决方案UIStackView滚动UIScrollView但它们都依赖于 Autolayout 和 IB 有没有办法以编程方式做到这一点我看过这个例子 https gist github com twostraws a02d4c
使用 ElasticSearch 搜索全球位置名称的有效方法是什么？

我有以下提供的位置信息地名网 http www geonames org 解析成关系数据库使用这些信息我尝试构建一个 ElasticSearch 索引其中包含人口稠密的地名城市名称行政区划州省等名称国家地区名称和国家

使用 ElasticSearch 搜索全球位置名称的有效方法是什么？

使用 ElasticSearch 搜索全球位置名称的有效方法是什么？ 的相关文章

随机推荐

热门标签

使用 ElasticSearch 搜索全球位置名称的有效方法是什么？的相关文章