为什么 Spark Mongo 连接器不下推过滤器？

2023-12-11

我有一个大型 Mongo 集合，想在我的 Spark 应用程序中使用 Spark Mongo 连接器。该集合相当大（>10 GB）并且包含每日数据，索引为original_item.CreatedDate场地。在 Mongo 中选择几天的查询非常快（不到一秒）。然而，当我使用数据帧编写相同的查询时，该过滤器不会下推到 Mongo，导致性能极其缓慢，因为 Spark 显然会获取整个集合并自行过滤。

查询看起来如下：

collection
      .filter("original_item.CreatedDate  > %s" % str(start_date_timestamp_ms)) \
      .filter("original_item.CreatedDate  < %s" % str(end_date_timestamp_ms)) \
      .select(...)

在物理计划中我看到：PushedFilters: [IsNotNull(original_item)]

当我通过对该集合的另一个字段进行过滤来进行类似的查询时，mongo 成功地将其向下推送 -PushedFilters: [IsNotNull(original_item), IsNotNull(doc_type), EqualTo(doc_type,case)]!

难道是这样吗？GreaterThanMongo Spark 连接器不支持过滤器推送，或者存在错误？

Thanks!

这不是GreaterThan这导致了您的问题，因为过滤器位于嵌套字段上。您的过滤器已打开doc_type有效，因为它不是嵌套的。这显然是 Spark 中 Catalyst 引擎的问题，而不是 Mongo 连接器的问题。它也会影响 Parquet 等中的谓词下推。

有关更多详细信息，请参阅 Spark Jira 中的以下讨论。

火花19638

火花17636

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

为什么 Spark Mongo 连接器不下推过滤器？的相关文章

从数组中查找前 N 个条目

我的收藏结构如下 id 1 Trips EndID 5 Tripcount 12 EndID 6 Tripcount 19 id 2 Trips EndID 4 Tripcount 12 EndID 5 Tripcount 1
Alembic 无法识别 False 默认值

在维护 SQLAlchemy 数据模型并利用 alembic 进行版本控制时我所做的以下代码更改导致了空修订 some column Column Boolean nullable False default False 以前是 some
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
您使用的 ORM 框架的最佳功能是什么[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
一组记录中某些值相同的唯一约束

DBMS MS Sql Server 2005 标准版我想创建一个表约束以便只有一个记录在表的子集中具有特定值其中行共享特定列中的值这可能吗 Example 我的 myTable 中有一些记录其中有一个非唯一的外键 fk1 以及一
Firebird数据库模式/数据差异工具

RedGate http www red gate com为 Microsoft SQL Server 制作一个工具允许您捕获两个数据库之间的差异它生成更新数据库模式所需的脚本同时保留数据我需要为 Firebird 数据库找到这样的
销毁/删除 Rails 中的数据库

是否可以从现有应用程序中完全删除数据库和所有迁移记录等以便我可以从头开始重新设计数据库通过发行rake T您有以下数据库任务 rake db create Create the database from DATABASE URL or
自定义 php 论坛 - 显示新的/未读的帖子

我自己使用 php 编写了一个自定义论坛脚本我决定不使用 phpbb 和其他工具因为我希望我所做的事情具有 100 的灵活性不过我遇到了一个问题如何向用户显示帖子是否是新的未读的我想到了两种解决方案 1 饼干 2 数据库我不想
mocha——手表和猫鼬模型

如果我让 mocha 监视更改每次保存文件时 mongoose 都会抛出以下错误 OverwriteModelError 无法覆盖Client模型一旦编译我知道猫鼬不允许两次定义模型但我不知道如何让它与mocha watch clie
产品和变体 - 设计数据库的最佳方法

描述商店可以有产品鞋子 T 恤等每个产品可以有许多变体每个变体可以有不同的价格和库存例如T 恤有不同的颜色和尺寸颜色蓝色尺寸 L 价格 10 美元库存 5 颜色蓝色尺寸 XL 价格 10 美元库存 10 颜色白色
如何中止 MongoDB shell 中正在运行的查询？

我不敢相信我必须问这个问题但是如何停止我刚刚运行的查询该查询现在正在运行并且显然需要很长时间才能在 Mongo shell 中完成 Control C似乎会使外壳崩溃并吐出大量错误中建议的愚蠢解决方案这个帖子 https stac
如何在数据库中对 (Java) 枚举进行建模（使用 SQL92）

您好我正在使用名为性别的列对实体进行建模在应用程序代码中性别应该是一个 Java 枚举类型有 2 个值男性和女性知道作为数据类型的枚举不是通用 SQL 语言 92 的一部分您将如何建模它数据模型必须是可移植的以便由多个
我可以要求在 mongodb 集合中设置属性吗？（不为空）

我可以在 mongodb 中定义一个需要设置某些属性的模式吗很像NOT NULL在 SQL 中如果可以的话这个的语法是什么我正在使用 Node js 和猫鼬猫鼬 v3 6 15 MongoDB v2 4 5 EditCharles
通过分布式数据库聚合作业优化网络带宽

我有一个分布式联合数据库结构如下数据库分布在三个地理位置节点每个节点集群有多个数据库关系数据库是 PostgreSQL MySQL Oracle 和 MS SQL Server 的混合体非关系数据库是 MongoDB 或 Ca
i18Next - NodeJS - 如何在不重新加载服务器的情况下更改翻译

我正在使用 NodeJS 的 i18next 包来启用翻译我将它作为标准并为每个语言国家对使用一个 json 文件我想构建一个管理页面来编辑翻译而无需深入研究代码那么如何重新加载管理员编辑过的 json 文件而无需重新启
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
$lookup结果中的$match

我有下一个蒙戈代码 db users aggregate match and UserName eq administrator Company CompanyName eq test lookup from companies local
Python 中的 Firebase 身份验证时出现 KeyError：“databaseURL”

相信你做得很好我是 firebase 的新手正在尝试进行用户身份验证我已经安装了pyrebase4并在firebase控制台上创建了一个项目我还启用了使用电子邮件和密码登录并尝试连接我的应用程序下面是我正在尝试的代码 impo
我如何在 mongodb 的数组中找到文本搜索

id objectId 23651478 name Tomatos array title Vegetables description Vegitables are good to health id objectId 45761244
使用 Spring Boot 的 Flyway Core 给出错误 'delayedFlywayInitializer' 和 'entityManagerFactory' 之间的循环依赖关系

我想在 SQL Server 数据库上导入一些数据我使用的是 Spring Boot 2 3 4 我还使用 Hibernate 来生成表我在pom中添加了flyway核心

随机推荐

在 Webkit .NET 中打开本地文件

由于某种原因简单的 WebKitBrowser1 Navigate localfilehere 不起作用我尝试将 file 添加到 URL 但这也不起作用这看起来很荒谬但是这个功能真的不存在吗看来您输入了错误的网址你可以通过以下
嵌套相对定位的div需要有100%的高度

我试图在这里获取嵌套的 div canvas 白色区域 http osf Fivetoolsoftware com填满 100 的空白空间这是 HTML
在服务器中创建文件后使用 jQuery 下载文件

当我单击客户端上的按钮时我想使用 AJAX 在服务器端调用公共静态 Web 方法静态方法将创建适当的文件创建文件后我需要将其下载到客户端桌面我找到了John Culvinar 的 jquery 文件下载插件但到目前为止还未能实施
语句和关键字有什么区别？

After calling return一份声明这是在评论中向我提出的 return不是一个语句它是开始 return 语句的关键字有什么区别一份声明 and 开始语句的关键字句子和句子开头的名词有什么区别 return是一个关键字
在 Selenium for Python 中，如何获取元素的属性而不是属性？

根据文档获取属性实际上返回属性而不是属性除非该属性不存在在这种情况下它会回退到属性获取属性将始终归还财产有没有办法始终获取该属性我觉得奇怪的是名为 get attribute 的函数会优先考虑属性值而不是属性值获取属性属性
如何使用 Tesseract API 迭代单词？

我正在尝试与 Tesseract API 并行地学习 Python 我的最终目标是学习如何使用 Tesseract API 来读取文档并进行一些基本的错误检查我发现了一些似乎是不错的起点的示例但我无法理解两段代码之间的差异尽管行为不同
如何通过 Facebook API 发布包含多张照片的状态？

我的 Facebook Graph API 有问题有没有办法使用 Graph API Javascript SDK 在状态帖子中附加多张照片使用 iOS Facebook 应用程序可以发布包含多张照片的状态然而在浏览了互联网上的文档
您可以在加载的项目上创建 VC++ 解决方案集预处理器 #defines 吗？

我有一个支持 define 的库来控制它的构建方式然而该库可以被需要不同版本的多个 EXE 项目使用我可以让 app EXE 项目设置 define 在构建时由库使用或者在解决方案中设置吗我能想到的唯一其他选择是在库项目上创建一个
结账 woocommerce wordpress 中简短描述的解决方案对我不起作用

我已经使用了我在这里找到的 brasofilo 提供的解决方案结帐 woocommerce wordpress 中的简短描述但由于某种原因每个产品的每个描述后都会添加一个冒号我用萤火虫试图找出它可能来自哪里它显示在结帐页面上显示的每
返回 Python CGI MySQL 脚本的输出

我对 Python 和 MySQL 非常陌生这是我的第一个 Stack 问题所以如果我遗漏了一些明显的东西请提前道歉但是在提问之前我确实尝试过研究一下我正在尝试学习 Python MySQL 和 CGI 脚本编写的基础知识为
从 k8s 入口动态添加/删除命名主机

我正在 GKE 上设置 k8s 集群通配符 DNS server com将指向入口控制器在集群内部将有网络服务器 Pod 每个 Pod 都公开一个独特的服务 Ingress 控制器将使用服务器名称来路由到各种服务服务器几乎每天都会被
当泄漏工具未显示内存泄漏时，如何调试内存泄漏？

我有一个用 Swift 编写的 iOS 应用程序该应用程序正在泄漏内存在某些情况下一些对象应该被释放但它们没有我通过简单地添加了解了这个问题deinit调试消息如下 deinit println DEINIT KeysProvid
贪心算法无法完成 0-1 背包 p‌r‌o‌b‌l‌e‌m 的情况

我正在寻找一种情况其中选择重量考虑容量为 4 的背包以及具有以下重量和价值的物品 Item Weight Value value Weight A 3 1 65 0 55 B 2 1 0 5 C 2 1 0 5 基于每权重价值的贪婪算法
有没有办法在 Dart 中通过引用传递原始参数？

我想通过引用传递一个原语 int bool 我在这里找到了关于它的讨论通过引用传递值类型段落 Dart 中的值类型但我仍然想知道是否有办法在 Dart 中做到这一点除了使用对象包装器有什么发展吗 Dart 语言不支持这一点我怀疑
将 Service Broker 与 Sql Server Express 2008 结合使用

是否可以在 sql Express 上使用外部激活而不通过 sql enterprise standard 我想向 sql Express 服务代理发送一条消息然后让它通知在同一盒子上运行的外部应用程序服务以便启动控制台应用程序来拾取消
使用 jQuery.ajax 和 JSONP 设置标头？

我正在尝试使用 jQuery 访问 google 文档这是我到目前为止所拥有的 var token my auth token ajax url http docs google com feeds documents private f
当 COM 事件发生时，如何更新自定义图形项（在 pyqtgraph 中）？

我做了一个程序实时接收原油期货的每笔交易信息基本上 OnReceiveRealData当事务执行并调用时执行real get方法在该方法中收集当前时间价格和数量数据并用它们制作字典有更多方法可以从实时流数据中制作 OHLC 格式
如何获取当前shell脚本的完整路径名？

有没有更简单的方法来做到这一点 bin ksh THIS SCRIPT usr bin readlink f echo 0 bin sed s PWD echo THIS SCRIPT 我被困在使用ksh但更喜欢一个适用于的解决方案bash
闹钟没有停止

我试图停止警报并检查它是否停止但它总是返回 true 意味着警报正在工作我尝试根据链接中的答案停止警报https stackoverflow com a 17616299 1226882但这对我不起作用请参考下面的代码启动警报 pu
为什么 Spark Mongo 连接器不下推过滤器？

我有一个大型 Mongo 集合想在我的 Spark 应用程序中使用 Spark Mongo 连接器该集合相当大 gt 10 GB 并且包含每日数据索引为original item CreatedDate场地在 Mongo 中选择几天

为什么 Spark Mongo 连接器不下推过滤器？

为什么 Spark Mongo 连接器不下推过滤器？ 的相关文章

随机推荐

热门标签

为什么 Spark Mongo 连接器不下推过滤器？的相关文章