如何使用 Mongodb 和 PostgreSQL 中的数据作为内存查找表？

2023-12-27

它是这个问题的延续：将多线程计算密集型作业移植到 Spark https://stackoverflow.com/questions/32276856/porting-a-multi-threaded-compute-intensive-job-to-spark

我在用forEachPartition按照建议here https://stackoverflow.com/a/32277967/231917循环遍历 10000 个 ID 的列表，然后我执行repartition(20)因为每个分区都会创建数据库连接，如果我创建 100 个分区，那么该作业就会因为 100 个与 postgres 和 mongo 的打开连接而终止。我使用 postgres 连接不仅可以存储数据，还可以从另一个表中查找一些数据。我可以摆脱直接从我的任务将数据存储到 postgres 的情况，并将其作为序列文件的后处理。

但理想情况下，我需要大规模并行化我的 Spark 作业，以便任务在给定时间内完成，目前它在 20 小时内处理大约 200 个 ID，但我需要在 20 小时内处理 10000 个 ID。所以repartition(20)显然没有帮助。我在这里受 db 上的 IO 约束。

那么我可以选择哪些选项来在所有任务中有效地共享这些数据呢？我希望将 mongo 和 postgres 中的数据视为内存查找表中的数据 - 总大小约为 500GB。

我的选择是：

RDD（我认为 RDD 不适合我的用例）
数据框
广播变量（不确定这是否有效，因为它的创建需要 Spark 驱动程序中有 500GB 可用空间）
将数据从 mongodb 移动到 s3 并从 s3 查找任务。

我们解决此类问题所遵循的技术是：

将查找存储在 MongoDB 的不同集合中。
使用 Hadoop MongoDB 连接器从 MongoDB 获取数据并将其存储在 RDD 中
广播变量，以便所有节点/工作人员都可以使用它
现在，如果数据位于 HDFS 中，则为其创建一个 RDD，或者如果数据位于 MongoDB 中，则使用 Hadoop MongoDB 连接器。
现在执行查找匹配部分
将文件保存为序列文件，或者您也可以将其保存在 S3 上，需要在我们将其存储回 MongoDB 时检查它

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Mongodb 和 PostgreSQL 中的数据作为内存查找表？的相关文章

防止 Spring Boot 注册 Spring Security 过滤器之一

我想禁用安全链中的 Spring Security 过滤器之一我已经看到了防止 Spring Boot 注册 servlet 过滤器 https stackoverflow com questions 28421966 prevent s
Java、Oracle 中索引处缺少 IN 或 OUT 参数:: 1 错误

您好我使用 Netbeans 8 0 2 和 Oracle 11g Express Edition 在 JSF 2 2 中编写了一个图书馆管理系统我有几个名为书籍借阅者等的页面以及数据库中一些名为相同名称的表我的问题是这样的
无法使用 json 架构验证器根据预定义的 yaml 文件验证查询参数

我需要根据预定义的 yaml 文件架构验证查询参数的架构因此我使用 json 架构验证器验证如何失败我正在执行以下步骤填充参数和相应的架构 final List
通过 elemMatch 在 MongoDB 中排序

MongoDB 有没有一种基于排序的方法 elemMatch 例如我有如下所示的文档 user ObjectId fsdfsdf array of things attribute 1 ObjectId sdfsdfsd attribut
将过滤器添加到 Eclipse 中的 Project Explorer

我想向 Project Explorer 添加一个新的过滤器以向用户隐藏一些在 Eclipse RCP 应用程序中自动创建的项目到目前为止我已经找到了两个扩展点 org eclipse ui ide resourceFilters 允许
正则表达式获取字符串中的第一个数字和其他字符

我是正则表达式的新手想知道如何才能只获取字符串中的第一个数字例如100 2011 10 20 14 28 55 在这种情况下我希望它返回100 但该数字也可以更短或更长我在想类似的事情 0 9 但它单独获取每个数字 100 2001
如何拦截 REST 端点以接收所有标头？

我当前的代码是 Path login RequestScoped public class LoginResource GET SecurityChecked public Response getUser HeaderParam AUTH
所有平台上的java

如果您想用 java 为 Windows Mac 和 Linux 编写桌面应用程序那么所有这些代码都相同吗您只需更改 GUI 即可使 Windows 应用程序更像 Windows 等等如果不深入细节它是如何工作的 Java 的卖点之
使用连接池后如何处理过多的并发连接？

Scenario 假设您有一个拥有大量流量的网站或应用程序即使使用数据库连接池性能也会受到真正的打击站点应用程序甚至可能崩溃因为并发连接太多 Question 人们有什么选择来处理这个问题我的想法我在想有这个问题的人可以创建多
如何找到被点击的JLabel并从中显示ImageIcon？

这是我的代码我想知道哪个l单击然后在新框架中显示该 ImageIcon e getSource 不起作用 final JFrame shirts new JFrame T shirts JPanel panel new JPanel n
在Python中检索PostgreSQL数据库的新记录

在数据库表中第二列和第三列有数字将会不断添加新行每次每当数据库表中添加新行时 python 都需要不断检查它们当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息警告数量已降至 105 以下另一方面
改变for循环的顺序？

我遇到一种情况我需要根据用户输入以不同的顺序循环遍历 xyz 坐标所以我是 3D 空间中的一个区域然后是一组像这样的 for 循环 for int x 0 x lt build getWidth x for int y 0 y lt
如何在Java媒体框架中学习.wav持续时间？

我正在尝试使用 java 媒体框架将 mov 文件与 wav 文件合并因此我需要知道它们的持续时间我怎样才能做到这一点任何想法将不胜感激您可以使用以下方式了解声音文件的持续时间即 VitalyVal 的第二种方式 import
Hibernate HQL：将对值作为 IN 子句中的参数传递

我面临一个问题如何使用 IN 子句将查询中的成对值的参数传递给 HQL 例如 select id name from ABC where id reg date in x y 并且参数是不同的数据类型string id 和reg date
JavaFX - 为什么多次将节点添加到窗格或不同的窗格会导致错误？

我现在正在学习基本的 JavaFX 我不明白我正在阅读的书中的这一说法不诸如文本字段之类的节点只能添加到一个窗格中一次将节点添加到多次窗格或不同的窗格将导致运行时错误我可以从书中提供的UML图看出它是一个组合但我不明白为什么库类
使用 secp256r1 曲线和 SHA256 算法生成 ECDSA 签名 - BouncyCastle

我正在尝试使用带有 secp256r1 曲线 P256 的 ECDSA 和用于消息哈希的 SHA256 算法生成签名我也在使用 Bouncy Castle 库下面的代码 public class MyTest param args pu
对于当前月份和日期但年份不同的日期，经过的月份计算未给出正确的结果

我正在尝试计算自特定日期以来经过的月份该函数工作正常尽管如果我将今天的日期与过去的不同年份放在一起它会给我一个月的差异不到一个月假设对于所有日期该函数都运行良好除了如果今天是 2014 03 06 YYYY MM DD 并且
Java：使用 Graph API 在线更新 Sharepoint 上的 docx 文件

我在使用 Java 在线更新 Sharepoint 上的 docx 文件时遇到问题首先我检查了构建 PUT 请求的 URL 此处并使用此请求 PUT drives drive id items item id content 我首先使
为什么应该首选 Java 类的接口？

PMD https pmd github io 将举报以下违规行为 ArrayList list new ArrayList 违规行为是避免使用 ArrayList 等实现类型而是使用接口以下行将纠正违规行为 List list ne
MongoDB：javascript执行失败：无法在 src/mongo/shell/collection.js 保存 DBQuery 对象

在 MongoDb 中当我尝试修改集合中的现有文档时它会生成以下异常 javascript execution failed can t save a DBQuery object at src mongo shell collecti

随机推荐

GTK 中的免费对象/小部件？

我的 GTK 应用程序中有一个包盒我每隔一段时间就会用一个全新的条目替换它至少现在是这样因为我很着急由于我要用新实例替换它我是否需要显式地从内存中释放旧包盒内容或者 GTK 中是否有一些垃圾收集如果我确实需要明确需要释放对象
如何创建SWIG接口文件？

我是 SWIG 新手而且做事的时间也少了我正在尝试将 C 类绑定到 python 我已经在 Windows 中设置了 SWIG 并尝试运行它成功了我的 example i 文件就像 File example i module exa
登录网站 cURL

我是第一次使用 cURL 我需要登录一个网站我在设置 cookie 文件和检索时遇到问题这样我就可以访问该页面而不仅仅是一次而是多次我在网上找到了代码用于登录网站并废弃页面以获取一些详细信息因为获取该页面需要很长时间所以我只
MVP MVC 和 MVVM 之间的区别

朋友们我已经浏览了很多链接博客我发现他们中的大多数人都无法用外行语言清楚地沟通也无法理解 MVP MVVM 和 MVC 之间的技术差异我知道每个角色代表什么并且也致力于 MVP 的制作但如果有人问我同样的问题我真的不明白为
如何在 Bokeh 绘图模块中使用 vbar 方法绘制分类条形图

我希望在 Bokeh 绘图中使用 vbar 方法绘制条形图其中 x 轴采用分类值而不是数值教程页面中提供的示例 http docs bokeh org en latest docs reference plotting html htt
Hive-如何使用原始表中的分区“创建表作为选择..”？

我需要从我们的 hive dlk 创建一个工作表虽然我可以使用 create table my table as select from dlk big table 很好我在继承分区时遇到问题属性day month and year
使用 Photos Framework 获取相机拍摄的照片的 URL

我有一个应用程序使用UIImagePickerController从相机和照片库中检索照片在图像选择器委托中我只想保存 NSURL UIImagePickerControllerReferenceURL 选取的图像以节省内存当用户稍后
使相同的 C++ 类型别名不兼容

I use std vector
如何使用存储在独立存储中的图像来制作故事板动画？

我似乎无法将存储在独立存储中的图像显示在故事板中当我用相机拍照时我可以将图像输出到屏幕上但当我使用相同的文件名时Value String Format MyImage 0 D2 jpg i 由于我存储它们的位置如果我在故事板中再次打
连接到 USB 外围设备

看起来 UsbManager 在构建中消失了现在我们如何与USB外设进行通信呢像USB gt 串行等使用https github com mik3y usb serial for android https github com mik
使用 cfinvoke 和 createObject 运行组件函数有什么区别？

在我公司的代码中我经常看到通过初始化该组件的对象并调用该对象的方法来使用组件文件然而在我看来使用 cfinvoke 方法似乎更直接特别是当仅使用组件文件中的一种方法时这两种调用组件函数的方法有什么区别各自的优缺点是什么我什么
WPF VSTS 应用程序挂在 VS 凭据提示上

我正在尝试编写一个使用 Visual Studio Team Service VSTS API 来显示 Visual Studio Online 中的项目的应用程序我有以下代码可以在控制台应用程序中完美运行 var connection
在 MKSnapshot 图像中绘制带有标题的 MKPointAnnotation

我试图绘制与实时 MapView 中完全相同的注释但随后在 MKSnapshot 中绘制为什么使用 MKSnapshot gt 因为我想在 UITableView 中拥有非交互式 MapView 并且使用图像更有效我可以使用 MKP
Winform自定义列表框项目

我有一个列表框应显示包含 2 个字段的数据时间和消息我希望每个项目显示为 2 行而不是显示 1 行文本第一行是时间第二行是消息其中每行都有不同的样式我怎样才能做到这一点我可以将对象数组绑定到列表框但如何设置它的样式感谢
Javascript 中添加的最新运算符有哪些？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想知道 Javascript 最近添加了哪些运算符这包括任何可能尚未通过标准流程在所有浏览器中实现的操作符如果或多或少确定它们会
构建AWS Lambda jar

创建 AWS Lambda jar 的标准做法是什么我们应该将依赖项捆绑为 zip 文件中的 jar 还是应该将依赖项解压并包含为类据我所知这是第一个正确的选项但是当我遵循 AWS 缩略图教程时我想到了这个疑问它最终创建了一个包
如何使用 setAttributedText 设置 WKInterface 标签的对齐方式

我正在尝试设置对齐方式WKInterfaceLabel using setAttributedText功能这是我的代码 var paragraphStyle NSParagraphStyle defaultParagraphStyle p
在 Swift 中运行时更改自动布局约束的 UIView 框架

例如我使用此代码来更改UIView called Propo self Propo frame origin x self view frame width Propo故事板有限制但是当应用程序视图消失并重新出现时 UIView将自身重
在使用深度 npm 依赖项的构造函数创建的对象上使用“instanceof”

背景我有一个 npm 模块其中有常见的错误处理代码包括自定义错误 function CustomError CustomError prototype Object create Error prototype CustomError
如何使用 Mongodb 和 PostgreSQL 中的数据作为内存查找表？

它是这个问题的延续将多线程计算密集型作业移植到 Spark https stackoverflow com questions 32276856 porting a multi threaded compute intensive job

如何使用 Mongodb 和 PostgreSQL 中的数据作为内存查找表？

如何使用 Mongodb 和 PostgreSQL 中的数据作为内存查找表？ 的相关文章

随机推荐

热门标签

如何使用 Mongodb 和 PostgreSQL 中的数据作为内存查找表？的相关文章