在 Worker 的帮助下从 Spark 读取巨大的 MongoDB 集合

2023-12-10

我想从 Spark 读取一个巨大的 MongoDB 集合，创建一个持久的 RDD 并对其进行进一步的数据分析。

有什么办法可以更快地从 MongoDB 读取数据。尝试过MongoDB Java + Casbah的方法

我可以使用worker/slave从MongoDB并行读取数据，然后将其保存为持久数据并使用它吗？

有两种方法可以将数据从 MongoDB 获取到 Apache Spark。

方法一：使用 Casbah（MongoDB Java 驱动程序层）

val uriRemote = MongoClientURI("mongodb://RemoteURL:27017/")
val mongoClientRemote =  MongoClient(uriRemote)
val dbRemote = mongoClientRemote("dbName")
val collectionRemote = dbRemote("collectionName")
val ipMongo = collectionRemote.find
val ipRDD = sc.makeRDD(ipMongo.toList)
ipRDD.saveAsTextFile("hdfs://path/to/hdfs")

这里我们使用 Scala 和 Casbah 首先获取数据，然后将其保存到 HDFS。

方法二：我们使用的Spark Worker

更好的代码版本：使用Spark Worker和多核来在短时间内获取数据。

val config = new Configuration()
config.set("mongo.job.input.format","com.mongodb.hadoop.MongoInputFormat")
config.set("mongo.input.uri", "mongodb://RemoteURL:27017/dbName.collectionName")
val keyClassName = classOf[Object]
val valueClassName = classOf[BSONObject]
val inputFormatClassName = classOf[com.mongodb.hadoop.MongoInputFormat]
val ipRDD = sc.newAPIHadoopRDD(config,inputFormatClassName,keyClassName,valueClassName)
ipRDD.saveAsTextFile("hdfs://path/to/hdfs")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

MongoDB

scala

apachespark

casbah

在 Worker 的帮助下从 Spark 读取巨大的 MongoDB 集合的相关文章

Spark、pyspark中从TF-IDF到LDA聚类

我正在尝试对存储在格式键 listofwords 中的推文进行聚类我的第一步是使用 dataframe 提取单词列表的 TF IDF 值 dbURL hdfs pathtodir file sc textFile dbURL Define
MongoDB的ObjectId是如何生成的？

他们是吗somewhat随机的我的意思是人们能够将它们分开吗它们不是随机的可以很容易地预测 BSON ObjectID 是一个 12 字节值由 4 字节时间戳组成自纪元以来的秒数一个 3 字节机器 ID 2 字节进程 ID
错误：键 $conditionalHandlers 不得以 '$' mongodb 开头

我对 mongodb 特别是 Node js 的 mongoose 包有疑问我有以下架构 var Schema mongoose Schema var location new Schema nomville type String re
mongodb 正在运行吗？

我已经在我的 Unix 服务器上安装了 Mongodb 和 PHP 驱动程序我的问题是如何判断 Mongodb 是否正在运行是否有一个简单的命令行查询来检查状态如果我从外壳程序启动一次如果我退出外壳程序它会继续运行情况似乎并非如
无法在 Windows 10 中启动 Spark Master

我是 Spark 新手我正在尝试手动启动 master 在 Windows 10 中使用 MINGW64 当我这样做时 Downloads spark 1 5 1 bin hadoop2 4 spark 1 5 1 bin hadoop2
在 Databricks / Spark 中的 SQL 中为变量分配动态值

我觉得我一定在这里遗漏了一些明显的东西但我似乎无法在 Spark SQL 中动态设置变量值假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
为 MongoDB 中的对象数组建立索引

我有一个巨大的电子邮件转储我正在尝试在 MongoDB 中存储和查询它有 160 万封电子邮件每封电子邮件都存储为节点模块 https github com andris9 mailparser它将原始电子邮件解析为漂亮的 Javas
如何修复 MongoClient is not a constructor 错误

我刚刚学习 JavaScript 和 Nodejs 根据我在网上找到的一些代码我编写了以下应用程序当我尝试运行它时我在第 9 行收到错误其中显示 new MongoClient 错误提示 MongoClient 不是构造函数您能解
Flask 不加载配置

我在 Flask 中加载配置时遇到问题 from config import config DevelopmentConfig TestingConfig ProductionConfig def create app config nam
Scalaz 拆箱标记类型不会自动拆箱

Reading http eed3si9n com learning scalaz Tagged type html http eed3si9n com learning scalaz Tagged type html并尝试示例代码 imp
将 Apache Zeppelin 连接到 Hive

我尝试将我的 apache zeppelin 与我的 hive 元存储连接起来我使用 zeppelin 0 7 3 所以没有 hive 解释器只有 jdbc 我已将 hive site xml 复制到 zeppelin conf 文件夹
为什么我不需要在 Databricks 中创建 SparkSession？

为什么我不需要在 Databricks 中创建 SparkSession 集群设置的时候会自动创建一个SparkSession吗还是其他人帮我做的这仅在笔记本中完成以简化用户的工作并避免他们指定不同的参数其中许多参数不会产生任何效果
在 shell/shell 脚本中设置 MongoDB 写关注

我正在尝试填充一个集合MongoDB的壳据我了解使用轻松的Write Concern可以大大加快这个过程我说的是文档 http docs mongodb org manual core write concern write oper
阻止 Mongoose 为子文档数组项创建 _id 属性

如果您有子文档数组 Mongoose 会自动为每个子文档创建 id 例子 id mainId subDocArray id unwantedId field value id unwantedId field value 有没有办法告诉 M
我可以将 Play 与 DynamoDB 一起用于 AWS 上的 Web 应用程序吗？

我正在为最终用户设计一个图像存储应用程序它将具有许多 CRUD 类型的功能我想在 Amazon Web Services AWS 上托管该应用程序并打算使用该游戏框架 S3 和 NoSQL 数据库我找不到适用于 Play 的 Dy
Scala：“递归值...需要类型”，但我只使用 Java 类型

object Rec extends App val outStream new java io ByteArrayOutputStream val out new java io PrintStream new java io Buffe
Akka中有轻量级的actor吗？

我的用例非常简单在两个对象之间交换少量现在我正在从 Scala Actors 迁移到 Akka 但是我再也找不到那些轻量级 Actors 使用Akka 我不仅需要为Actor创建创建ActorSystem Props 还需要照顾Acto
比较 javascript 元素和 scala 变量的 Play 框架 Twirl 模板

如下面的代码示例所示我想比较 scala 辅助元素内的 javascript 元素然而即使存在元素 abcde 它也始终返回 false 除了使用标签之外如何获取 scala 辅助元素内的 javascript 值 appSeq S
需要澄清令人困惑的 Http4s 消息类型 `Response[F]` / `Request[F]`

我很难理解为什么Request and Response参数化为F 类似的东西是猫效应数据类型资源从文档中 https typelevel org cats effect docs std resource https typelevel
为什么 Mongohint 可以使查询运行速度提高 10 倍？

如果我使用explain 从shell运行mongo查询获取所使用的索引的名称然后再次运行相同的查询但使用hint 指定要使用的相同索引解释计划中的 millis 字段是显着下降例如没有提供任何提示 gt gt db event

随机推荐

对 JP-QL (JPA 2.0) 中的“ElementCollection”映射字段执行“MEMBER OF”查询

是否可以对关联数组运行 MEMBER OF 查询如果是这样语法是什么样的明显的解决方法是使用本机查询但由于所有连接等这会变得非常混乱我想测试地图的键集值集合或条目集中是否存在对象也许像下面这样 SELECT p FROM P
`arr[tuple(seq)]` 和 `arr[seq]` 有什么区别？不推荐使用与使用非元组序列进行多维索引相关的内容

我正在使用 ndarray 来切片另一个 ndarray 通常我使用arr ind arr numpy似乎不喜欢这个并提出了FutureWarning Using a non tuple sequence for multidimensio
我想通过使用网络摄像头将捕获图像添加到我的 PyQt gui 窗口中，网络摄像头图像将出现在 gui 窗口上

我想将网络摄像头图像添加到我的主 GUI 窗口中该图像将发送到电子邮件 ID 如果这不可能我还想保存该图像并且保存的图像将发送到我的电子邮件 ID 并且在倒计时 3 2 1 时微笑它会通过网络摄像头单击该图像这是我的代码 impo
为什么我们必须在箭头符号（->）之后再次指定数据类型

auto可以推导出返回类型那么为什么我们需要尾部箭头符号 gt 来推导出返回类型 include
Android：ListView 错误

我有一个自定义列表视图其中有一个文本视图和一个图像当我单击文本视图时该特定行的隐藏布局将展开但发生的情况是例如当我单击第 2 行时第 10 行也会展开这是我的代码自定义列表适配器 java public View getV
使用按钮复制和粘贴文本

我想知道我必须在 IB 操作按钮下编写什么代码以便当我单击称为复制的按钮时它将复制指定文本视图中的文本然后当您单击粘贴时它将粘贴一些文本指定的文本视图我在这方面找不到任何东西有人有一些代码或一个好的教程的链接吗 Thanks 调
如何更新在超过 2.5 亿行的表中创建的 2 个新列

我必须添加 2 个新列col1 char 1 NULL col2 char 1 NULL一个拥有超过 2 5 亿行的表我必须用一个值更新两列1对于现有的 2 5 亿行然后我的 SSIS 包将每天以增量顺序更新表 SSIS 包将使用来自源
如何计算Python中的外部函数？

如果我有一个像 func x y cos x sen y x y 这样的随机函数如何将它应用于 2 个数组中的所有元素对 I found https docs scipy org doc numpy reference generated
为什么在JavaScript中类A的instanceof函数，但typeof类A不是一个对象？

当我们说实例时我们假设我们正在处理一个对象为什么使用 JavaScript 的运算符instanceof回报true当我们问 class A instanceof Function but typeof class A functi
对数组中的所有元素调用函数

假设我有一个函数例如 function result Square x result x x end 我有一个如下所示的数组 x 0 0 1 1 我想要一个y数组存储了的平方x正在使用我的Square功能当然一种方法是以下 y ze
IIS 中的 ODP.NET 错误：ORA-12357 网络会话文件结束

我正在尝试将 MVC 应用程序部署到连接到 Oracle 数据库的 IIS 服务器为此我下载了 Visual Studio 2013 的 ODAC 扩展并使用 Nuget 将最新的 ODP NET 托管客户端安装到项目中我的开发机器
iOS - 我可以在使用 Callkit 接听电话时打开 VoIP 应用程序吗？

我计划创建一个 iOS VoIP 应用程序之前没有制作过任何 iOS 应用程序我正在读关于Callkit在IOS中可以让他的应用程序通过iPhone本机通话屏幕接听电话 I read 调用接口 here其中提到可以知道呼叫是否被应答
如何列出我已签出的所有包裹？

我正在多用户环境中工作并使用 CVS 共享模型该模型很大有很多包有时我会在没有意识到的情况下签出一个包从而阻止其他人使用该包有什么方法可以列出我已签出的所有软件包以便我可以签入不需要的软件包吗 Enterprise Arch
将小 PS 脚本转换为 .BATch 文件中的长行

我有从答案中得到的 PowerShell 代码这个问题它显示 PS 代码运行的 cmd exe 窗口的位置尺寸 WindowFunction RectangleStruct Add Type MemberDefinition DllIm
Android：使用 RandomAccessFile 从内部存储访问文件

我正在创建一个需要从文件读取数据的应用程序我最初是使用 a 来从资产文件夹中读取它的BufferedReader and an InputStreamReader但我遇到了内存问题请参阅Android 文件读取内存不足问题一项建议是
使用 Boost PTree 解析 XML（不带标签）

我想知道 Boost Ptree 是否允许在不知道属性标签的情况下解析 xml 文件我有一个 XML 文件它将定期更新新标签新数据甚至删除某些标签这些定期更改促使我考虑在不硬编码属性名称的情况下解析文件有什么方法可以读取 XML
将 nvarchar 值“Internet Explorer 3 原始”转换为数据类型 int 时转换失败

在 SQL Server 2008 TSQL 中我创建了一个如下的存储过程 CREATE PROCEDURE SP 1 10 2 AS declare mostValuableBook nvarchar 255 SELECT mostVa
无法使用 Selenium WebDriver 和 Java 打开 IE11 驱动程序实例

System setProperty webdriver ie driver C Users IEDriverServer Win32 2 45 0 IEDriverServer exe WebDriver driver new Inter
如何创建和访问共享应用程序组文档目录？

我正在使用自定义键盘扩展然后从服务器下载键盘主题并保存到应用程序文档目录但应用程序文档目录无法在自定义键盘扩展中访问因此需要共享应用程序组目录我该怎么办请帮助我现在我正在尝试这个但它不起作用 let fileManager Fi
在 Worker 的帮助下从 Spark 读取巨大的 MongoDB 集合

我想从 Spark 读取一个巨大的 MongoDB 集合创建一个持久的 RDD 并对其进行进一步的数据分析有什么办法可以更快地从 MongoDB 读取数据尝试过MongoDB Java Casbah的方法我可以使用worker sl

在 Worker 的帮助下从 Spark 读取巨大的 MongoDB 集合

在 Worker 的帮助下从 Spark 读取巨大的 MongoDB 集合 的相关文章

随机推荐

热门标签

在 Worker 的帮助下从 Spark 读取巨大的 MongoDB 集合的相关文章