Elasticsearch - 我需要 JDBC 驱动程序吗？

2024-01-29

Aim

将我的 Elasticsearch 服务器与 SQL 数据库中的新数据和过期数据同步

Issue

我可以通过两种截然不同的方法来实现这一目标，但我不知道哪种方法更好。我也可以pull使用 JDBC River 插件直接连接到 SQL 数据库，将信息发送到 elasticsearch。或者我可以push使用 PHP 客户端将数据传输到 elasticsearch，代码如下所示：

// The Id of the document
$id = 1;

// Create a document
$tweet = array(
    'id'      => $id,
    'user'    => array(
        'name'      => 'mewantcookie',
        'fullName'  => 'Cookie Monster'
    ),
    'msg'     => 'Me wish there were expression for cookies like there is for apples. "A cookie a day make the doctor diagnose you with diabetes" not catchy.',
    'tstamp'  => '1238081389',
    'location'=> '41.12,-71.34',
    '_boost'  => 1.0
);
// First parameter is the id of document.
$tweetDocument = new \Elastica\Document($id, $tweet);

// Add tweet to type
$elasticaType->addDocument($tweetDocument);

// Refresh Index
$elasticaType->getIndex()->refresh();

我打算每三十分钟运行一次 cron 来检查数据库中的项目，这些项目不仅具有“活动”标志，而且还没有“索引”标志，这意味着我需要将它们添加到索引中。

QUESTION

鉴于我有两种方法以两种不同的方式在elasticsearch和mysql之间同步数据，每个选项的优点和缺点是什么。是否有一个特定的用例来定义使用其中一个而不是另一个？

我会用河流法甚至认为内部构建解决方案可能更具可定制性。

在一边，jdbc-river 插件是一个已经构建的插件，到目前为止有大约 20 个贡献者。因此，您需要一个额外的团队来致力于改进该工具，同时 Elasticsearch 本身也在不断改进。

您所要做的就是安装它，甚至不需要复杂的配置来在集群和关系数据库之间设置一条河流。

jdbc-river 解决方案的另一个优点是您不需要处理内存管理。该插件可以在“拉模式”下充当河流，也可以在“推模式”下充当馈线。在 feeder 模式下，该插件在单独的 JVM 中运行，并且可以连接到远程 Elasticsearch 集群。我个人更喜欢river模式，因为在这种情况下，Elasticsearch 将处理索引和内存管理问题。

关系数据在内部转换为结构化 JSON 对象，用于 Elasticsearch 文档的无模式索引模型。

两端都是可扩展的。该插件可以并行地从不同的 RDBMS 源获取数据，多线程批量模式确保索引到 Elasticsearch 时的高吞吐量。

该解决方案的缺点之一是它不会在索引完成时发出通知。作为解决方案，我建议您使用计数API http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/search-count.html比较结果。

河流的另一个缺点是它不拉力update，它只是在insert or delete。我当然指的是 sql 操作 UPDATE、INSERT 和 DELETE。

二手的，您的解决方案可能会带来一些您可能需要考虑的优点和缺点。

您的解决方案是高度可定制的，因此您可以根据需要管理脚本。但考虑到任何可用的 PHP Elasticsearch 客户端的当前状态（官方 Elasticsearch-php 客户端 http://www.elasticsearch.org/guide/en/elasticsearch/client/php-api/current/index.html , Elastica https://github.com/ruflin/Elastica or FOSElastica 捆绑包 https://github.com/FriendsOfSymfony/FOSElasticaBundle），即使这些人在这些方面做得很好，与用于河流的官方 Elasticsearch JAVA API 相比，它仍然被认为是一个不太成熟的 API。

您还应该考虑处理所有可能因内存丢失、管理、性能等问题而导致集群出现的错误。

例如：我尝试使用 Elastica API 构建概念验证，将数据从数据库推送到集群，配置为 32g RAM，每个核心运行 @2.05GHz，在测试环境中运行 8 个核心，但没有涉及太多细节。我花了 5 个小时才将 10M 记录从数据库推送到集群。与河流一样，同样的记录需要 20 分钟。当然，可能可以对我的代码进行优化，但我认为它会给我带来更多的时间。

所以，只要你能根据自己的需求定制河流，就可以使用它。如果河牌圈不支持你想做的事情，那么你可以坚持自己的解决方案。

NB:当然，您可能还需要考虑其他问题，但在这里讨论这个主题很长。所以我选择了一些你应该注意的要点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Elasticsearch - 我需要 JDBC 驱动程序吗？的相关文章

在多维数组 PHP 的所有键中搜索

我想在多维数组中的所有键中搜索特定字符串我只需要弄清楚它是否存在仅此而已我想知道访问者的 IP 是否存在于任何数组中有没有我可以用来执行此操作的 php 函数或方法我尝试过的每个函数或方法总是返回 false 数组中数组搜索数
如何在 json 中输出 javascript 日期

我正在尝试时间线图表 http code google com apis visualization documentation gallery annotatedtimeline html Data Format http code go
从 freshdesk api 获取所有用户时获取curl_error(): 2 不是有效的 cURL 句柄资源

我正在创建自己的系统来管理通过其 API 来自 freshdesk com 的所有票证我正在发出curl 请求以从freshdesk com 获取数据通过获取与股票相关的数据它的工作正常但是当我通过curl请求请求所有用户时它会给
PHP-MySQLi 连接随机失败并显示“无法分配请求的地址”

大约两周以来我一直在处理 LAMP 堆栈中最奇怪的问题之一长话短说与 MySQL 服务器的随机连接失败并显示错误消息 Warning mysqli real connect HY000 2002 Cannot assign reque
用 PHP 截断文件末尾

我有一个日志文件我想在 PHP 读取该文件后将其截断我的代码目前如下所示 fp fopen file r ftruncate fp 125000 fclose fp 但是这会通过保留first1MB 不过我想保留last1Mb 的文
PHP Github Pull 脚本错误“权限被拒绝（公钥）”

我已经设置了一个 PHP 脚本来执行 GitHub 拉取这包含在我的 Github 文件夹中 home mysite public html github github pull php 我的服务器已经有 SSH 公钥就像我执行git
PHP 电子邮件验证[重复]

这个问题在这里已经有答案了 For PHP最好的电子邮件验证方法是什么preg NOT ereg因为它是已弃用删除 I don t需要检查该网站是否存在这不像最高安全性我找到了很多方法ereg但它们显然不是好的做法我建议你使用F
CryptoJS 使用密码加密 AES，但 PHP 解密需要密钥

我在用CryptoJS https code google com p crypto js AES加密字符串 function doHash msg msg String msg var passphrase aggourakia var
在另一个文件中扩展类的正确方法是什么？

这就是我在 foo php 中的内容 class Foo public foo NULL public foo2 NULL public function setFoo foo foo2 this gt foo foo this gt fo
写入 xml 文件时允许的内存大小已耗尽（尝试分配 4459414 字节）[重复] 67108864 字节

这个问题在这里已经有答案了可能的重复 php 中允许的内存大小已耗尽尝试分配 43148176 字节 33554432 字节 https stackoverflow com questions 415801 allowed memory
错误 #520009 - 帐户受到限制

我收到 520009 错误帐户电子邮件受保护 cdn cgi l email protection被限制当尝试进行并行付款时我的代码使用沙箱运行良好但我切换到实时端点它开始失败有问题的帐户是有效的 PayPal 帐户我使用的
如何从另一个数组值中过滤数组值并返回新数组？ [复制]

这个问题在这里已经有答案了我有两个数组 all languages and taken languages 第一个包含所有语言例如 200 种或其他语言第二个包含之前选择的语言从 0 到 200 种我需要删除所有已采用的语言 ta
Lumen：无法打开流：.../vendor/monolog/monolog/src/Monolog/Handler/StreamHandler.php:107 中的权限被拒绝

My OS is ubuntu 16 04 and I am running Lumen 5 5 When I try to run the app in the browser I get an error 500 我在 var log
从检查元素隐藏 ''

我有这个 HTML 和 PHP 联系表
Laravel，控制器中的 Auth::user()

Laravel 框架为什么我无法在 laravel 项目的控制器中使用 Auth user 查看用户是否已登录 Session 是否未连接到控制器 HomeController php public function isauthoriz
将客户分配到 magento 的多个客户组

您好我想将多个组分配给特定客户例如 Rajat 客户属于批发零售商电力实际上我在上面看到了同样的话题每个客户有多个客户组 https stackoverflow com questions 6153011 multiple c
创建单个随机 Magento 优惠券

我遇到了一些麻烦我想要做的是每次有人订阅我们的时事通讯时在 Magento 中自动生成一个随机优惠券代码这张优惠券可减 10 美元并且有exp 订阅后两周的日期因此我正在尝试编写一个简单的脚本当提交订阅我们的时事通讯表单时
PHP Json_encode 将空格更改为加号 +

我有一个网络应用程序我首先将 JSON 数据存储在 cookie 中然后每 x 秒保存到数据库它只是打开与服务器的连接服务器读取 cookie 它实际上并不通过 POST 或 GET 发送任何内容当我保存到 cookie 时我的
Google Drive 服务帐户上传的位置

我正在尝试使用服务帐户将文件上传到我的 Google 云端硬盘当我部署此代码时我不希望用户给予授权我希望他们上传到我的帐户我通过 PHP 使用它下面是我到目前为止的情况这段代码是基于官方文档给出的例子当我运行 php 脚本时
如何统计订单总价？

我有这些表 Orders id status user id address id 1 await 1 1 products id name price quantity 1 test1 100 5 2 test2 50 5 order p

随机推荐

带行号的 Ruby grep

获得匹配线的最佳方法是什么与行号使用 Ruby 的Enumerable grep方法当我们使用 n or line number使用 grep 命令切换 Enumerable grep 不允许你这样做至少默认情况下是这样相反我想出了
Android Studio - 自动项目加载

我找不到一种方法来阻止 Android Studio 自动加载最后使用的项目我希望它打开开始窗口其中包含可用项目列表而不是自动加载上次使用的项目的位置Reopen last project on startup被移至Settings
带有滚动视图的 Android 自定义对话框将按钮推离屏幕

我有一个自定义对话框其布局如下
如何使用外部绑定文件覆盖 JAXB 中的默认名称？

我有一个看起来像这样的元素
在python中将查询结果转换为DataFrame

我正在尝试使用 psycog2 对查询结果进行操作因此我必须将结果隐藏到 pandas DataFrame 中但是当我使用以下代码并打印时仅打印列名称而不打印行我也使用了 pd DataFrame from records 但这不起
去除android按钮上的阴影效果

我在布局中添加了一个简单的按钮并删除了文本并设置了一个具有透明度的图像作为其背景但不幸的是我的按钮上有阴影效果我无法将其删除如果您有任何经验可以帮助我我将不胜感激 Thanks 在按钮标签集上 android stateListA
Bash：除最后一个元素之外的所有数组

Bash 有一种巧妙的方式给出数组中除第一个元素之外的所有元素 a 1 要获得除最后一个之外的所有内容 a 0 a 1 但是伙计那太丑了有优雅的选择吗我不确定它会有多大的改进但是你可以删除算术运算符和起始索引 0 here a
如何捕获浏览器关闭事件？

我想在我的应用程序中捕获浏览器关闭事件并向用户显示确认框我正在使用 JSF 2 0 和 richfaces 4 0 window onbeforeunload function var shallIAlertUser Do Whateve
如何检查数组中的所有对象是否包含相同的键和值？

如何检查数组中的所有对象是否包含相同的键和值 const arrOfObjects a 1 b 2 a 1 b 2 a 1 b 2 true const arrOfObjects a 1 b 2 a 1 b 2 a 2 b 1 false
Rails has_one 带有类名和外键

我有一个 Rails 模型我使用两个has one关系 requesterand friend 在控制台中我使用 f FriendRequest all f 0 requester I get ActiveRecord Statement
将 XML 文件读取到 Dataset in Progress-4gl

My XML File是这样的
参数化类型数组

我无法确定以下 RHS 中期望的类型参数 ArrayList
有没有办法生成 iOS 表情符号的高分辨率 PNG？

我已经能够从 iOS 找到 160x160 像素的表情符号 PNG 实际上是 WhatsApp 但它们大致是同一组但当我将它们导入 XCode 7 时它们仅显示为 1x 有没有办法使用 Photoshop OS X 或类似工具来创建高分
处理 Quiz Angular 5 中的多个单选按钮

我是 Angular 新手正在实施包含多个 MCQ 的测验但我在选择单选按钮时遇到了麻烦我的问题也来自数据库和选项 mcq component html
将参数传递给在 docker 容器中运行的 python 脚本

假设以下设置网站用 php laravel 编写用户上传文件文本 doc pdf 我们有一个 docker 容器其中包含一个用于将文本转换为 numpy 数组的 python 脚本我想获取上传的数据并将其传递给 python 脚本
如何在地图上仅显示半径（圆）内的标记？

所有标记都显示在基于 Firebase 数据纬度和经度的地图上我想仅在地图上显示圆圈内的标记当前位置的圆圈半径为 10 公里这就是我显示 Firebase 中所有标记的方式 LatLng newlocation new LatLng
如何在不使用 bootstrap 的情况下更改 html 和 CSS 中日期选择器/日历图标的位置

我使用的日历图标日期选择器默认设置在右侧输入字段的末尾我想将日历图标日期选择器移动到输入字段的开头我尝试更改它但无法获得适当的属性来更改它请任何人都可以帮忙改变它我正在添加现在看起来像的图片 https i stack im
尝试使引导模式更广泛

我正在使用这段代码但模态太薄 div class modal fade bs example modal lg custom modal div class modal dialog modal lg div class modal co
使用魔法位板生成滑动移动

这是一个关于如何使用魔法位板验证国际象棋中的滑动棋子移动的大局的问题只是为了澄清我不是在问how魔法位板在内部工作现在关于这个问题的更多细节我正在使用位板编写棋盘表示并且我想使用魔术位板验证滑动棋子的移动有人可以列出如何实现这
Elasticsearch - 我需要 JDBC 驱动程序吗？

Aim 将我的 Elasticsearch 服务器与 SQL 数据库中的新数据和过期数据同步 Issue 我可以通过两种截然不同的方法来实现这一目标但我不知道哪种方法更好我也可以pull使用 JDBC River 插件直接连接到 SQL

Elasticsearch - 我需要 JDBC 驱动程序吗？

Elasticsearch - 我需要 JDBC 驱动程序吗？ 的相关文章

随机推荐

热门标签

Elasticsearch - 我需要 JDBC 驱动程序吗？的相关文章